ColossalAI/tests/test_shardformer/test_with_torch_ddp.py

from contextlib import nullcontext

import pytest
import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

import colossalai
from colossalai.cluster import DistCoordinator
from colossalai.lazy import LazyInitContext
from colossalai.logging import disable_existing_loggers
from colossalai.shardformer import ShardConfig, ShardFormer
from colossalai.testing import clear_cache_before_run, parameterize, rerun_if_address_is_in_use, spawn
from tests.kit.model_zoo import model_zoo


@parameterize("lazy_init", [True, False])
def check_shardformer_with_ddp(lazy_init: bool):
    sub_model_zoo = model_zoo.get_sub_registry("transformers_gpt")

    # create shardformer
    # ranks: [0, 1, 2, 3]
    # tp ranks = [0, 1], [2, 3]
    # dp ranks = [0, 2], [1, 3]
    dp_process_group_1 = dist.new_group([0, 2])
    dp_process_group_2 = dist.new_group([1, 3])
    tp_process_group_1 = dist.new_group([0, 1])
    tp_process_group_2 = dist.new_group([2, 3])

    coordinator = DistCoordinator()

    if coordinator.rank in [0, 1]:
        tp_process_group = tp_process_group_1
    else:
        tp_process_group = tp_process_group_2

    if coordinator.rank in [0, 2]:
        dp_process_group = dp_process_group_1
    else:
        dp_process_group = dp_process_group_2

    shard_config = ShardConfig(tensor_parallel_process_group=tp_process_group, enable_fused_normalization=True)
    shardformer = ShardFormer(shard_config=shard_config)

    ctx = LazyInitContext() if lazy_init else nullcontext()

    for name, (model_fn, data_gen_fn, output_transform_fn, loss_fn, _) in sub_model_zoo.items():
        # create and shard model
        with ctx:
            model = model_fn().cuda()
        sharded_model, _ = shardformer.optimize(model)

        # add ddp
        sharded_ddp_model = DDP(sharded_model, process_group=dp_process_group)

        # prepare input
        data = data_gen_fn()
        data = {k: v.cuda() for k, v in data.items()}

        # switch to train mode
        sharded_ddp_model.train()

        # run forward
        output = sharded_ddp_model(**data)
        loss = loss_fn(output)

        # backward
        loss.backward()
        torch.cuda.empty_cache()


def run_dist(rank, world_size, port):
    disable_existing_loggers()
    colossalai.launch(config={}, rank=rank, world_size=world_size, host="localhost", port=port, backend="nccl")
    check_shardformer_with_ddp()


@pytest.mark.dist
@rerun_if_address_is_in_use()
@clear_cache_before_run()
def test_gpt2():
    spawn(run_dist, 4)


if __name__ == "__main__":
    test_gpt2()
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`from contextlib import nullcontext`

[shardformer] integrate with data parallelism (#4103) 1 year ago			`import pytest`
			`import torch`
			`import torch.distributed as dist`
			`from torch.nn.parallel import DistributedDataParallel as DDP`

			`import colossalai`
			`from colossalai.cluster import DistCoordinator`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`from colossalai.lazy import LazyInitContext`
[shardformer] integrate with data parallelism (#4103) 1 year ago			`from colossalai.logging import disable_existing_loggers`
			`from colossalai.shardformer import ShardConfig, ShardFormer`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`from colossalai.testing import clear_cache_before_run, parameterize, rerun_if_address_is_in_use, spawn`
[shardformer] integrate with data parallelism (#4103) 1 year ago			`from tests.kit.model_zoo import model_zoo`


[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`@parameterize("lazy_init", [True, False])`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`def check_shardformer_with_ddp(lazy_init: bool):`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`sub_model_zoo = model_zoo.get_sub_registry("transformers_gpt")`
[shardformer] integrate with data parallelism (#4103) 1 year ago
			`# create shardformer`
			`# ranks: [0, 1, 2, 3]`
			`# tp ranks = [0, 1], [2, 3]`
			`# dp ranks = [0, 2], [1, 3]`
			`dp_process_group_1 = dist.new_group([0, 2])`
			`dp_process_group_2 = dist.new_group([1, 3])`
			`tp_process_group_1 = dist.new_group([0, 1])`
			`tp_process_group_2 = dist.new_group([2, 3])`

			`coordinator = DistCoordinator()`

			`if coordinator.rank in [0, 1]:`
			`tp_process_group = tp_process_group_1`
			`else:`
			`tp_process_group = tp_process_group_2`

			`if coordinator.rank in [0, 2]:`
			`dp_process_group = dp_process_group_1`
			`else:`
			`dp_process_group = dp_process_group_2`

			`shard_config = ShardConfig(tensor_parallel_process_group=tp_process_group, enable_fused_normalization=True)`
			`shardformer = ShardFormer(shard_config=shard_config)`

[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`ctx = LazyInitContext() if lazy_init else nullcontext()`

[shardformer] integrate with data parallelism (#4103) 1 year ago			`for name, (model_fn, data_gen_fn, output_transform_fn, loss_fn, _) in sub_model_zoo.items():`
			`# create and shard model`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`with ctx:`
			`model = model_fn().cuda()`
[test] update shardformer tests 1 year ago			`sharded_model, _ = shardformer.optimize(model)`
[shardformer] integrate with data parallelism (#4103) 1 year ago
			`# add ddp`
			`sharded_ddp_model = DDP(sharded_model, process_group=dp_process_group)`

			`# prepare input`
			`data = data_gen_fn()`
			`data = {k: v.cuda() for k, v in data.items()}`

			`# switch to train mode`
			`sharded_ddp_model.train()`

			`# run forward`
			`output = sharded_ddp_model(**data)`
			`loss = loss_fn(output)`

			`# backward`
			`loss.backward()`
			`torch.cuda.empty_cache()`


[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`def run_dist(rank, world_size, port):`
			`disable_existing_loggers()`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`colossalai.launch(config={}, rank=rank, world_size=world_size, host="localhost", port=port, backend="nccl")`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`check_shardformer_with_ddp()`


[shardformer] integrate with data parallelism (#4103) 1 year ago			`@pytest.mark.dist`
			`@rerun_if_address_is_in_use()`
			`@clear_cache_before_run()`
			`def test_gpt2():`
[shardformer] support lazy init (#4202) * [shardformer] support lazy init * [shardformer] linear support lazy init * [shardformer] embedding support lazy init * [shardformer] norm support lazy init * [shardformer] fused linear support lazy init * [test] update shardformer test layer * [test] shardformer with lazy init fit ddp * [lazy] hotfix deepcopy of param * [shardformer] fix bert policy and update test * [shardformer] fix bloom policy and update test * [shardformer] fix opt policy and update test * [shardformer] fix t5 policy and update test * [shardformer] fix gpt2 policy and update test * [shardformer] fix llama policy and update test 1 year ago			`spawn(run_dist, 4)`
[shardformer] integrate with data parallelism (#4103) 1 year ago

			`if __name__ == "__main__":`
			`test_gpt2()`