ColossalAI/tests/test_zero/test_low_level/test_zero_init.py

import pytest
import torch
import torch.distributed as dist
import torch.nn as nn

import colossalai
from colossalai.tensor import ProcessGroup
from colossalai.testing import spawn
from colossalai.utils import get_current_device
from colossalai.zero import ColoInitContext, LowLevelZeroOptimizer


class MlpModel(nn.Module):

    def __init__(self):
        super(MlpModel, self).__init__()
        self.linear1 = nn.Linear(128, 256)
        self.linear2 = nn.Linear(256, 512)

    def forward(self, x):
        x = self.linear1(x)
        x = self.linear2(x)
        return x


def exam_zero_init():
    dp_2_tp_2_pg = ProcessGroup(dp_degree=2, tp_degree=2)
    model1 = MlpModel().cuda()
    with ColoInitContext(device=get_current_device(), default_pg=dp_2_tp_2_pg):
        model2 = MlpModel()
    optimizer1 = LowLevelZeroOptimizer(torch.optim.Adam(model1.parameters(), lr=1))
    optimizer2 = LowLevelZeroOptimizer(torch.optim.Adam(model2.parameters(), lr=1))

    assert optimizer1._local_rank == optimizer2._local_rank
    assert optimizer1._world_size == optimizer2._world_size

    mp_group1 = optimizer1.tp_pg
    mp_group2 = optimizer2.tp_pg
    assert dist.get_world_size(mp_group1) == dist.get_world_size(mp_group2)
    assert dist.get_rank(mp_group1) == dist.get_rank(mp_group2)


def run_dist(rank, world_size, port):
    config_dict = dict(parallel=dict(data=2, tensor=dict(size=2, mode='1d')))
    colossalai.launch(config=config_dict, rank=rank, world_size=world_size, port=port, host='localhost')
    exam_zero_init()


@pytest.mark.dist
def test_zero_init():
    spawn(run_dist, 4)


if __name__ == '__main__':
    test_zero_init()
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00			`import pytest`
			`import torch`
			`import torch.distributed as dist`
			`import torch.nn as nn`

			`import colossalai`
			`from colossalai.tensor import ProcessGroup`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2023-04-06 06:51:35 +00:00			`from colossalai.testing import spawn`
			`from colossalai.utils import get_current_device`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from colossalai.zero import ColoInitContext, LowLevelZeroOptimizer`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00

[zero] fix gradient clipping in hybrid parallelism (#2521) * [zero] fix gradient clipping in hybrid parallelism * [testing] change model name to avoid pytest warning * [hotfix] fix unit testing 2023-01-29 07:09:57 +00:00			`class MlpModel(nn.Module):`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00
			`def __init__(self):`
[zero] fix gradient clipping in hybrid parallelism (#2521) * [zero] fix gradient clipping in hybrid parallelism * [testing] change model name to avoid pytest warning * [hotfix] fix unit testing 2023-01-29 07:09:57 +00:00			`super(MlpModel, self).__init__()`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00			`self.linear1 = nn.Linear(128, 256)`
			`self.linear2 = nn.Linear(256, 512)`

			`def forward(self, x):`
			`x = self.linear1(x)`
			`x = self.linear2(x)`
			`return x`


			`def exam_zero_init():`
			`dp_2_tp_2_pg = ProcessGroup(dp_degree=2, tp_degree=2)`
[zero] fix gradient clipping in hybrid parallelism (#2521) * [zero] fix gradient clipping in hybrid parallelism * [testing] change model name to avoid pytest warning * [hotfix] fix unit testing 2023-01-29 07:09:57 +00:00			`model1 = MlpModel().cuda()`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00			`with ColoInitContext(device=get_current_device(), default_pg=dp_2_tp_2_pg):`
[zero] fix gradient clipping in hybrid parallelism (#2521) * [zero] fix gradient clipping in hybrid parallelism * [testing] change model name to avoid pytest warning * [hotfix] fix unit testing 2023-01-29 07:09:57 +00:00			`model2 = MlpModel()`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00			`optimizer1 = LowLevelZeroOptimizer(torch.optim.Adam(model1.parameters(), lr=1))`
			`optimizer2 = LowLevelZeroOptimizer(torch.optim.Adam(model2.parameters(), lr=1))`

			`assert optimizer1._local_rank == optimizer2._local_rank`
			`assert optimizer1._world_size == optimizer2._world_size`

[zero] allow passing process group to zero12 (#4153) * allow passing process group to zero12 * union tp-zero and normal-zero * polish code 2023-07-04 09:41:28 +00:00			`mp_group1 = optimizer1.tp_pg`
			`mp_group2 = optimizer2.tp_pg`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00			`assert dist.get_world_size(mp_group1) == dist.get_world_size(mp_group2)`
			`assert dist.get_rank(mp_group1) == dist.get_rank(mp_group2)`


			`def run_dist(rank, world_size, port):`
			`config_dict = dict(parallel=dict(data=2, tensor=dict(size=2, mode='1d')))`
			`colossalai.launch(config=config_dict, rank=rank, world_size=world_size, port=port, host='localhost')`
			`exam_zero_init()`


			`@pytest.mark.dist`
			`def test_zero_init():`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2023-04-06 06:51:35 +00:00			`spawn(run_dist, 4)`
[zero] add unit test for low-level zero init (#2474) 2023-01-15 02:42:01 +00:00

			`if __name__ == '__main__':`
			`test_zero_init()`