Skip to content

aicb生成的txt文件问题 #271

@zzy999-win

Description

@zzy999-win

你好!我用以下指令
sh ./scripts/megatron_workload_with_aiob.sh -m 7
--world_size 128 --tensor_model_parallel_size 4 --pipeline_model_parallel 4
--frame Megatron --global_batch 512
--micro_batch 1 --seq_length 4096 --swiglu
--use_flash_attn --aiob_enable
--comp_filepath workload/aiob_inputs/Example.txt
生成了一个txt文件,这里 -m 7的模型用官方给的模型,在aicb/scripts/megatron_workload_with_aiob.sh中写到的
7)model_name=gpt_7B
num_layers=36
hidden_size=4096
num_attention_heads=32
tensor_model_parallel_size=4;
意思就是这个模型是36层的,我设定-tensor_model_parallel_size 4 --pipeline_model_parallel 4 \ 也就是说DP=128\4\4=8的,pp为4意思是模型被分为了4部分,一部分里面有36/4=9层,而我的--global_batch 512 ,micro_batch 1,也就是说8个DP组分别要处理512/8=64个微批次,所以生成的文件中ga=64.
请问我生成的文件刚好是有64组重复的 以embedding_layer开头且attention_layer和mlp_layer共交替重复18行的数据,所以我想问这个txt文件只是显现出了模型的第一个pp组中的一张单卡gpu的计算和通信情况吗,也就是模型的前9层的计算和通信的情况吗?如果这样意思是模型后面几层的pp组里的所有的单卡gpu计算和通信的情况和这个txt文件中第一个pp组(模型前9层)单卡gpu的情况是一样的吗?

None-gpt_7B-world_size128-tp4-pp4-ep1-gbs512-mbs1-seq4096-MOE-False-GEMM-False-flash_attn-True.txt

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions