[feat] support MixtralPipelineForwards--> mixtral_for_causal_lm_forward for zbv

2024-10-10 06:57:35 +00:00 · 2024-10-10 06:57:35 +00:00 · e234dfa236
parent 72b507a7be
commit e234dfa236
2 changed files with 192 additions and 41 deletions
--- a/colossalai/shardformer/modeling/mixtral.py
+++ b/colossalai/shardformer/modeling/mixtral.py
@ -679,6 +679,108 @@ class MixtralPipelineForwards:
        )
        past_key_values = None
        #######
        # Attention, we support consider 1f1b, interleaved, zbv
        #######
        if stage_manager.is_interleave:
            if stage_manager.use_zbv:
                # zbv
                if stage_manager.is_first_stage(ignore_chunk=True) and stage_manager.model_chunk_id == 1:
                    hidden_states = outputs[0]
                    logits = self.lm_head(hidden_states)
                    logits = logits.float()
                    loss = None
                    if labels is not None:
                        # Shift so that tokens < n predict n
                        shift_logits = logits[..., :-1, :].contiguous()
                        shift_labels = labels[..., 1:].contiguous()
                        # Flatten the tokens
                        loss_fct = CrossEntropyLoss()
                        shift_logits = shift_logits.view(-1, self.config.vocab_size)
                        shift_labels = shift_labels.view(-1)
                        # Enable model parallelism
                        shift_labels = shift_labels.to(shift_logits.device)
                        loss = loss_fct(shift_logits, shift_labels)
                    aux_loss = None
                    if output_router_logits:
                        aux_loss = load_balancing_loss_func(outputs[-1], self.num_experts, self.num_experts_per_tok)
                        if labels is not None:
                            loss += self.router_aux_loss_coef * aux_loss
                    if not return_dict:
                        output = (logits,) + outputs[1:]
                        if output_router_logits:
                            output = (aux_loss,) + output
                        return (loss,) + output if loss is not None else output
                    return MoeCausalLMOutputWithPast(
                        loss=loss,
                        aux_loss=aux_loss,
                        logits=logits,
                        past_key_values=None,
                        hidden_states=outputs[0],
                        attentions=None,
                        router_logits=outputs[-1],
                    )
                else:
                    out = {}
                    hidden_states = outputs.get("hidden_states")
                    out["hidden_states"] = hidden_states
                    if output_router_logits:
                        out["past_router_logits"] = outputs["past_router_logits"]
                    return out
            else:
                # interleaved
                if stage_manager.is_last_stage(ignore_chunk=True):
                    hidden_states = outputs[0]
                    logits = self.lm_head(hidden_states)
                    logits = logits.float()
                    loss = None
                    if labels is not None:
                        # Shift so that tokens < n predict n
                        shift_logits = logits[..., :-1, :].contiguous()
                        shift_labels = labels[..., 1:].contiguous()
                        # Flatten the tokens
                        loss_fct = CrossEntropyLoss()
                        shift_logits = shift_logits.view(-1, self.config.vocab_size)
                        shift_labels = shift_labels.view(-1)
                        # Enable model parallelism
                        shift_labels = shift_labels.to(shift_logits.device)
                        loss = loss_fct(shift_logits, shift_labels)
                    aux_loss = None
                    if output_router_logits:
                        aux_loss = load_balancing_loss_func(outputs[-1], self.num_experts, self.num_experts_per_tok)
                        if labels is not None:
                            loss += self.router_aux_loss_coef * aux_loss
                    if not return_dict:
                        output = (logits,) + outputs[1:]
                        if output_router_logits:
                            output = (aux_loss,) + output
                        return (loss,) + output if loss is not None else output
                    return MoeCausalLMOutputWithPast(
                        loss=loss,
                        aux_loss=aux_loss,
                        logits=logits,
                        past_key_values=None,
                        hidden_states=outputs[0],
                        attentions=None,
                        router_logits=outputs[-1],
                    )
                else:
                    out = {}
                    hidden_states = outputs.get("hidden_states")
                    out["hidden_states"] = hidden_states
                    if output_router_logits:
                        out["past_router_logits"] = outputs["past_router_logits"]
                    return out
        else:
            # 1f1b or otherwise
            if stage_manager.is_last_stage():
                hidden_states = outputs[0]
                logits = self.lm_head(hidden_states)
@ -726,6 +828,53 @@ class MixtralPipelineForwards:
                    out["past_router_logits"] = outputs["past_router_logits"]
                return out
        # if stage_manager.is_last_stage():
        #     hidden_states = outputs[0]
        #     logits = self.lm_head(hidden_states)
        #     logits = logits.float()
        #     loss = None
        #     if labels is not None:
        #         # Shift so that tokens < n predict n
        #         shift_logits = logits[..., :-1, :].contiguous()
        #         shift_labels = labels[..., 1:].contiguous()
        #         # Flatten the tokens
        #         loss_fct = CrossEntropyLoss()
        #         shift_logits = shift_logits.view(-1, self.config.vocab_size)
        #         shift_labels = shift_labels.view(-1)
        #         # Enable model parallelism
        #         shift_labels = shift_labels.to(shift_logits.device)
        #         loss = loss_fct(shift_logits, shift_labels)
        #     aux_loss = None
        #     if output_router_logits:
        #         aux_loss = load_balancing_loss_func(outputs[-1], self.num_experts, self.num_experts_per_tok)
        #         if labels is not None:
        #             loss += self.router_aux_loss_coef * aux_loss
        #     if not return_dict:
        #         output = (logits,) + outputs[1:]
        #         if output_router_logits:
        #             output = (aux_loss,) + output
        #         return (loss,) + output if loss is not None else output
        #     return MoeCausalLMOutputWithPast(
        #         loss=loss,
        #         aux_loss=aux_loss,
        #         logits=logits,
        #         past_key_values=None,
        #         hidden_states=outputs[0],
        #         attentions=None,
        #         router_logits=outputs[-1],
        #     )
        # else:
        #     out = {}
        #     hidden_states = outputs.get("hidden_states")
        #     out["hidden_states"] = hidden_states
        #     if output_router_logits:
        #         out["past_router_logits"] = outputs["past_router_logits"]
        #     return out
 def get_mixtral_flash_attention_forward(shard_config, sp_mode=None, sp_size=None, sp_group=None):
    logger = logging.get_logger(__name__)
--- a/tests/test_pipeline/test_schedule/test_zerobubble_pp.py
+++ b/tests/test_pipeline/test_schedule/test_zerobubble_pp.py
@ -786,6 +786,8 @@ def run_with_booster_moehybridplugin(config: Tuple[int, ...]):
    seed_all(10086)
    torch_model = MixtralModel(config).to(dtype).cuda()
    # TODO: Support MixtralForCausalLM
    # torch_model = MixtralForCausalLM(config).to(dtype).cuda()
    torch_optimizer = torch.optim.SGD(torch_model.parameters(), lr=1)
    # init schedule
    h, a, s = config.hidden_size, config.num_attention_heads, 1024