[Shardformer]fix the num_heads assert for llama model and qwen model (#5704)

* fix the num_heads assert * fix the transformers import * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * fix the import --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2024-05-10 15:33:39 +08:00 · 2024-05-10 15:33:39 +08:00 · 537f6a3855
parent a3cc68ca93
commit 537f6a3855
3 changed files with 37 additions and 30 deletions
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@ -10,16 +10,20 @@ from transformers.modeling_outputs import (
 try:
    from transformers.models.qwen2.modeling_qwen2 import (
        Qwen2Attention,
        Qwen2ForCausalLM,
        Qwen2ForSequenceClassification,
        Qwen2Model,
        _prepare_4d_causal_attention_mask,
        _prepare_4d_causal_attention_mask_for_sdpa,
        apply_rotary_pos_emb,
        repeat_kv,
    )
 except ImportError:
    Qwen2Model = "Qwen2Model"
    Qwen2ForSequenceClassification = "Qwen2ForSequenceClassification"
    Qwen2ForCausalLM = "Qwen2ForCausalLM"
    Qwen2Attention = "Qwen2Attention"
    Qwen2ForSequenceClassification = "Qwen2ForSequenceClassification"
 from transformers.utils import logging
@ -451,10 +455,6 @@ class Qwen2PipelineForwards:
 def get_qwen2_flash_attention_forward(shard_config: ShardConfig):
    from transformers.models.qwen2.modeling_qwen2 import Qwen2Attention, apply_rotary_pos_emb, repeat_kv
    from colossalai.shardformer.layer import ColoAttention
    def forward(
        self: Qwen2Attention,
        hidden_states: torch.Tensor,
--- a/colossalai/shardformer/policies/llama.py
+++ b/colossalai/shardformer/policies/llama.py
@ -141,9 +141,11 @@ class LlamaPolicy(Policy):
            assert (
                self.model.config.num_attention_heads % self.shard_config.tensor_parallel_size == 0
            ), f"The number of attention heads must be divisible by tensor parallel size."
-            assert (
+            if hasattr(self.model.config, "num_key_value_heads"):
-                self.model.config.num_key_value_heads % self.shard_config.tensor_parallel_size == 0
+                assert (
-            ), f"The number of key_value heads must be divisible by tensor parallel size."
+                    self.model.config.num_key_value_heads >= self.shard_config.tensor_parallel_size
                    and self.model.config.num_key_value_heads % self.shard_config.tensor_parallel_size == 0
                ), f"The number of key_value heads must be divisible by, and must not be less than tensor parallel size."
            decoder_attribute_replacement = {
                "self_attn.hidden_size": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,
                "self_attn.num_heads": self.model.config.num_attention_heads // self.shard_config.tensor_parallel_size,
--- a/colossalai/shardformer/policies/qwen2.py
+++ b/colossalai/shardformer/policies/qwen2.py
@ -21,6 +21,26 @@ from ..modeling.qwen2 import (
    get_qwen2_flash_attention_forward,
    get_qwen2_model_forward_for_flash_attn,
 )
 try:
    from transformers.models.qwen2.modeling_qwen2 import (
        Qwen2Attention,
        Qwen2DecoderLayer,
        Qwen2FlashAttention2,
        Qwen2ForCausalLM,
        Qwen2ForSequenceClassification,
        Qwen2Model,
        Qwen2SdpaAttention,
    )
 except ImportError:
    Qwen2ForCausalLM = "Qwen2ForCausalLM"
    Qwen2ForSequenceClassification = "Qwen2ForSequenceClassification"
    Qwen2Attention = "Qwen2Attention"
    Qwen2FlashAttention2 = "Qwen2FlashAttention2"
    Qwen2SdpaAttention = "Qwen2SdpaAttention"
    Qwen2DecoderLayer = "Qwen2DecoderLayer"
    Qwen2Model = "Qwen2Model"
 from .base_policy import ModulePolicyDescription, Policy, SubModuleReplacementDescription
 __all__ = ["Qwen2Policy", "Qwen2ForCausalLMPolicy", "Qwen2ForSequenceClassificationPolicy"]
@ -45,21 +65,6 @@ class Qwen2Policy(Policy):
        return self.model
    def module_policy(self) -> Dict[Union[str, nn.Module], ModulePolicyDescription]:
        try:
            from transformers.models.qwen2.modeling_qwen2 import (
                Qwen2Attention,
                Qwen2DecoderLayer,
                Qwen2FlashAttention2,
                Qwen2Model,
                Qwen2SdpaAttention,
            )
        except ImportError:
            Qwen2Attention = "Qwen2Attention"
            Qwen2FlashAttention2 = "Qwen2FlashAttention2"
            Qwen2SdpaAttention = "Qwen2SdpaAttention"
            Qwen2DecoderLayer = "Qwen2DecoderLayer"
            Qwen2Model = "Qwen2Model"
        ATTN_IMPLEMENTATION = {
            "eager": Qwen2Attention,
            "flash_attention_2": Qwen2FlashAttention2,
@ -82,6 +87,13 @@ class Qwen2Policy(Policy):
            warnings.warn("Qwen2 doesn't support sequence parallelism now, will ignore the sequence parallelism flag.")
        if self.shard_config.enable_tensor_parallelism:
            assert (
                self.model.config.num_attention_heads % self.shard_config.tensor_parallel_size == 0
            ), f"The number of attention heads must be divisible by tensor parallel size."
            if hasattr(self.model.config, "num_key_value_heads"):
                assert (
                    self.model.config.num_key_value_heads % self.shard_config.tensor_parallel_size == 0
                ), f"The number of key_value heads must be divisible by tensor parallel size."
            decoder_attribute_replacement = {
                "self_attn.hidden_size": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,
                "self_attn.num_heads": self.model.config.num_attention_heads // self.shard_config.tensor_parallel_size,
@ -256,7 +268,6 @@ class Qwen2Policy(Policy):
 class Qwen2ModelPolicy(Qwen2Policy):
    def module_policy(self):
        policy = super().module_policy()
        from transformers.models.qwen2.modeling_qwen2 import Qwen2Model
        if self.pipeline_stage_manager:
            # set None as default
@ -277,10 +288,7 @@ class Qwen2ModelPolicy(Qwen2Policy):
 class Qwen2ForCausalLMPolicy(Qwen2Policy):
    def module_policy(self):
        from transformers import Qwen2ForCausalLM
        policy = super().module_policy()
        setattr(self.shard_config, "causal_lm", True)
        if self.shard_config.enable_tensor_parallelism:
@ -330,10 +338,7 @@ class Qwen2ForCausalLMPolicy(Qwen2Policy):
 class Qwen2ForSequenceClassificationPolicy(Qwen2Policy):
    def module_policy(self):
        from transformers import Qwen2ForSequenceClassification
        policy = super().module_policy()
        if self.shard_config.enable_tensor_parallelism:
            # add a new item for sequence classification
            new_item = {