ColossalAI/colossalai/shardformer/policies/gpt2.py

import torch.nn as nn

import colossalai.shardformer.layer as col_nn

from .._utils import getattr_, setattr_
from .base_policy import ModulePolicyDescription, Policy, SubModuleReplacementDescription

__all__ = [
    'GPT2Policy', 'GPT2ModelPolicy', 'GPT2LMHeadModelPolicy', 'GPT2DoubleHeadsModelPolicy',
    'GPT2ForTokenClassificationPolicy', 'GPT2ForSequenceClassificationPolicy'
]


class GPT2Policy(Policy):

    def config_sanity_check(self):
        pass

    def preprocess(self):
        # reshape the embedding layer
        r"""
        Reshape the Embedding layer to make the embedding dimension divisible by world_size
        """
        if self.shard_config.enable_tensor_parallelism:
            vocab_size = self.model.config.vocab_size
            world_size = self.shard_config.tensor_parallel_size
            if vocab_size % world_size != 0:
                new_vocab_size = vocab_size + world_size - vocab_size % world_size
                self.model.resize_token_embeddings(new_vocab_size)
        return self.model

    def module_policy(self):
        from transformers.models.gpt2.modeling_gpt2 import GPT2Block, GPT2Model

        policy = {}

        if self.shard_config.enable_tensor_parallelism:
            policy[GPT2Model] = ModulePolicyDescription(sub_module_replacement=[
                SubModuleReplacementDescription(
                    suffix="wte",
                    target_module=col_nn.VocabParallelEmbedding1D,
                ),
            ])
            policy[GPT2Block] = ModulePolicyDescription(attribute_replacement={
                "attn.embed_dim": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,
                "attn.split_size": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,
                "attn.num_heads": self.model.config.num_attention_heads // self.shard_config.tensor_parallel_size,
            },
                                                        sub_module_replacement=[
                                                            SubModuleReplacementDescription(
                                                                suffix="attn.c_attn",
                                                                target_module=col_nn.GPT2FusedLinearConv1D_Col,
                                                                kwargs={
                                                                    "n_fused": 3,
                                                                },
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="attn.c_proj",
                                                                target_module=col_nn.GPT2FusedLinearConv1D_Row,
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="mlp.c_fc",
                                                                target_module=col_nn.GPT2FusedLinearConv1D_Col,
                                                                kwargs={
                                                                    "n_fused": 1,
                                                                },
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="mlp.c_proj",
                                                                target_module=col_nn.GPT2FusedLinearConv1D_Row,
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="attn.attn_dropout",
                                                                target_module=col_nn.DropoutForParallelInput,
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="attn.resid_dropout",
                                                                target_module=col_nn.DropoutForParallelInput,
                                                            ),
                                                            SubModuleReplacementDescription(
                                                                suffix="mlp.dropout",
                                                                target_module=col_nn.DropoutForParallelInput,
                                                            ),
                                                        ])

        # optimization configuration
        if self.shard_config.enable_fused_normalization:
            self.append_or_create_submodule_replacement(description=SubModuleReplacementDescription(
                suffix="ln_f",
                target_module=col_nn.FusedLayerNorm,
            ),
                                                        policy=policy,
                                                        target_key=GPT2Model)

            self.append_or_create_submodule_replacement(description=[
                SubModuleReplacementDescription(
                    suffix="ln_1",
                    target_module=col_nn.FusedLayerNorm,
                ),
                SubModuleReplacementDescription(
                    suffix="ln_2",
                    target_module=col_nn.FusedLayerNorm,
                ),
                SubModuleReplacementDescription(suffix="ln_cross_attn",
                                                target_module=col_nn.FusedLayerNorm,
                                                ignore_if_not_exist=True)
            ],
                                                        policy=policy,
                                                        target_key=GPT2Block)
        return policy

    def postprocess(self):
        return self.model


# GPT2Model
class GPT2ModelPolicy(GPT2Policy):

    def __init__(self) -> None:
        super().__init__()


# GPT2LMHeadModel
class GPT2LMHeadModelPolicy(GPT2Policy):

    def __init__(self) -> None:
        super().__init__()

    def module_policy(self):
        from transformers.models.gpt2.modeling_gpt2 import GPT2LMHeadModel

        module_policy = super().module_policy()

        if self.shard_config.enable_tensor_parallelism:
            addon_module = {
                GPT2LMHeadModel:
                    ModulePolicyDescription(sub_module_replacement=[
                        SubModuleReplacementDescription(
                            suffix="lm_head", target_module=col_nn.Linear1D_Col, kwargs={"gather_output": True})
                    ])
            }
            module_policy.update(addon_module)
        return module_policy

    def postprocess(self):
        if self.shard_config.enable_tensor_parallelism:
            binding_map = {"transformer.wte.weight": "lm_head.weight"}
            for k, v in binding_map.items():
                param = getattr_(self.model, k)
                setattr_(self.model, v, param)
        return self.model


# GPT22DoubleHeadsModel
class GPT2DoubleHeadsModelPolicy(GPT2Policy):

    def __init__(self) -> None:
        super().__init__()

    def module_policy(self):
        from transformers.models.gpt2.modeling_gpt2 import GPT2DoubleHeadsModel

        module_policy = super().module_policy()

        if self.shard_config.enable_tensor_parallelism:
            addon_module = {
                GPT2DoubleHeadsModel:
                    ModulePolicyDescription(sub_module_replacement=[
                        SubModuleReplacementDescription(
                            suffix="lm_head", target_module=col_nn.Linear1D_Col, kwargs={"gather_output": True})
                    ])
            }
            module_policy.update(addon_module)
        return module_policy

    def postprocess(self):
        if self.shard_config.enable_tensor_parallelism:
            binding_map = {"transformer.wte.weight": "lm_head.weight"}
            for k, v in binding_map.items():
                param = getattr_(self.model, k)
                setattr_(self.model, v, param)
        return self.model


# GPT2ForTokenClassification
class GPT2ForTokenClassificationPolicy(GPT2Policy):

    def __init__(self) -> None:
        super().__init__()


# GPT2ForSequenceClassification
class GPT2ForSequenceClassificationPolicy(GPT2Policy):

    def __init__(self) -> None:
        super().__init__()
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`import torch.nn as nn`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`import colossalai.shardformer.layer as col_nn`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`from .._utils import getattr_, setattr_`
[shardformer] rename policy file name 2023-07-05 07:13:00 +00:00			`from .base_policy import ModulePolicyDescription, Policy, SubModuleReplacementDescription`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
[shardformer] import huggingface implicitly (#4101) 2023-06-30 02:56:29 +00:00			`__all__ = [`
			`'GPT2Policy', 'GPT2ModelPolicy', 'GPT2LMHeadModelPolicy', 'GPT2DoubleHeadsModelPolicy',`
			`'GPT2ForTokenClassificationPolicy', 'GPT2ForSequenceClassificationPolicy'`
			`]`

[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
			`class GPT2Policy(Policy):`

[shardformer] supported fused normalization (#4112) 2023-06-30 01:32:37 +00:00			`def config_sanity_check(self):`
			`pass`

[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`def preprocess(self):`
			`# reshape the embedding layer`
			`r"""`
			`Reshape the Embedding layer to make the embedding dimension divisible by world_size`
			`"""`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 2023-07-10 02:48:53 +00:00			`if self.shard_config.enable_tensor_parallelism:`
			`vocab_size = self.model.config.vocab_size`
			`world_size = self.shard_config.tensor_parallel_size`
			`if vocab_size % world_size != 0:`
			`new_vocab_size = vocab_size + world_size - vocab_size % world_size`
			`self.model.resize_token_embeddings(new_vocab_size)`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`return self.model`

			`def module_policy(self):`
[shardformer] import huggingface implicitly (#4101) 2023-06-30 02:56:29 +00:00			`from transformers.models.gpt2.modeling_gpt2 import GPT2Block, GPT2Model`

[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`policy = {}`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`if self.shard_config.enable_tensor_parallelism:`
			`policy[GPT2Model] = ModulePolicyDescription(sub_module_replacement=[`
[shardformer] supported fused normalization (#4112) 2023-06-30 01:32:37 +00:00			`SubModuleReplacementDescription(`
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`suffix="wte",`
			`target_module=col_nn.VocabParallelEmbedding1D,`
			`),`
			`])`
			`policy[GPT2Block] = ModulePolicyDescription(attribute_replacement={`
			`"attn.embed_dim": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,`
			`"attn.split_size": self.model.config.hidden_size // self.shard_config.tensor_parallel_size,`
			`"attn.num_heads": self.model.config.num_attention_heads // self.shard_config.tensor_parallel_size,`
			`},`
			`sub_module_replacement=[`
			`SubModuleReplacementDescription(`
			`suffix="attn.c_attn",`
			`target_module=col_nn.GPT2FusedLinearConv1D_Col,`
			`kwargs={`
			`"n_fused": 3,`
			`},`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="attn.c_proj",`
			`target_module=col_nn.GPT2FusedLinearConv1D_Row,`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="mlp.c_fc",`
			`target_module=col_nn.GPT2FusedLinearConv1D_Col,`
			`kwargs={`
			`"n_fused": 1,`
			`},`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="mlp.c_proj",`
			`target_module=col_nn.GPT2FusedLinearConv1D_Row,`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="attn.attn_dropout",`
			`target_module=col_nn.DropoutForParallelInput,`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="attn.resid_dropout",`
			`target_module=col_nn.DropoutForParallelInput,`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="mlp.dropout",`
			`target_module=col_nn.DropoutForParallelInput,`
			`),`
			`])`
[shardformer] supported fused normalization (#4112) 2023-06-30 01:32:37 +00:00
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`# optimization configuration`
			`if self.shard_config.enable_fused_normalization:`
			`self.append_or_create_submodule_replacement(description=SubModuleReplacementDescription(`
			`suffix="ln_f",`
			`target_module=col_nn.FusedLayerNorm,`
			`),`
			`policy=policy,`
			`target_key=GPT2Model)`

			`self.append_or_create_submodule_replacement(description=[`
[shardformer] supported fused normalization (#4112) 2023-06-30 01:32:37 +00:00			`SubModuleReplacementDescription(`
			`suffix="ln_1",`
			`target_module=col_nn.FusedLayerNorm,`
			`),`
			`SubModuleReplacementDescription(`
			`suffix="ln_2",`
			`target_module=col_nn.FusedLayerNorm,`
			`),`
			`SubModuleReplacementDescription(suffix="ln_cross_attn",`
			`target_module=col_nn.FusedLayerNorm,`
			`ignore_if_not_exist=True)`
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`],`
			`policy=policy,`
			`target_key=GPT2Block)`
			`return policy`
[shardformer] supported fused normalization (#4112) 2023-06-30 01:32:37 +00:00
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`def postprocess(self):`
			`return self.model`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00

[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`# GPT2Model`
			`class GPT2ModelPolicy(GPT2Policy):`
[shardformer] add gpt2 policy and modify shard and slicer to support (#3883) * add gpt2 policy and modify shard and slicer to support * remove unused code * polish code 2023-06-07 08:09:40 +00:00
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`def __init__(self) -> None:`
			`super().__init__()`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00

			`# GPT2LMHeadModel`
			`class GPT2LMHeadModelPolicy(GPT2Policy):`

			`def __init__(self) -> None:`
			`super().__init__()`

			`def module_policy(self):`
[shardformer] import huggingface implicitly (#4101) 2023-06-30 02:56:29 +00:00			`from transformers.models.gpt2.modeling_gpt2 import GPT2LMHeadModel`

support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`module_policy = super().module_policy()`
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00
			`if self.shard_config.enable_tensor_parallelism:`
			`addon_module = {`
			`GPT2LMHeadModel:`
			`ModulePolicyDescription(sub_module_replacement=[`
			`SubModuleReplacementDescription(`
			`suffix="lm_head", target_module=col_nn.Linear1D_Col, kwargs={"gather_output": True})`
			`])`
			`}`
			`module_policy.update(addon_module)`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`return module_policy`

			`def postprocess(self):`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 2023-07-10 02:48:53 +00:00			`if self.shard_config.enable_tensor_parallelism:`
			`binding_map = {"transformer.wte.weight": "lm_head.weight"}`
			`for k, v in binding_map.items():`
			`param = getattr_(self.model, k)`
			`setattr_(self.model, v, param)`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`return self.model`


			`# GPT22DoubleHeadsModel`
			`class GPT2DoubleHeadsModelPolicy(GPT2Policy):`

			`def __init__(self) -> None:`
			`super().__init__()`

			`def module_policy(self):`
[shardformer] import huggingface implicitly (#4101) 2023-06-30 02:56:29 +00:00			`from transformers.models.gpt2.modeling_gpt2 import GPT2DoubleHeadsModel`

support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`module_policy = super().module_policy()`
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00
			`if self.shard_config.enable_tensor_parallelism:`
			`addon_module = {`
			`GPT2DoubleHeadsModel:`
			`ModulePolicyDescription(sub_module_replacement=[`
			`SubModuleReplacementDescription(`
			`suffix="lm_head", target_module=col_nn.Linear1D_Col, kwargs={"gather_output": True})`
			`])`
			`}`
			`module_policy.update(addon_module)`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`return module_policy`

			`def postprocess(self):`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 2023-07-10 02:48:53 +00:00			`if self.shard_config.enable_tensor_parallelism:`
			`binding_map = {"transformer.wte.weight": "lm_head.weight"}`
			`for k, v in binding_map.items():`
			`param = getattr_(self.model, k)`
			`setattr_(self.model, v, param)`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`return self.model`


			`# GPT2ForTokenClassification`
			`class GPT2ForTokenClassificationPolicy(GPT2Policy):`

			`def __init__(self) -> None:`
			`super().__init__()`


			`# GPT2ForSequenceClassification`
			`class GPT2ForSequenceClassificationPolicy(GPT2Policy):`

			`def __init__(self) -> None:`
			`super().__init__()`