ColossalAI/tests/test_ddp/test_ddp_state_dict.py

import copy
from collections import OrderedDict
from functools import partial

import pytest
import torch
import torch.multiprocessing as mp

import colossalai
from colossalai.nn.parallel import ColoDDP
from colossalai.tensor import ColoParameter, ProcessGroup
from colossalai.testing import rerun_if_address_is_in_use
from colossalai.utils import free_port
from colossalai.utils.cuda import get_current_device
from colossalai.zero import ColoInitContext
from tests.components_to_test.registry import non_distributed_component_funcs


def check_state_dict_equal(state_dict: OrderedDict, other_state_dict: OrderedDict):
    for (k1, t1), (k2, t2) in zip(state_dict.items(), other_state_dict.items()):
        assert k1 == k2

        if t1.device != t2.device:
            temp_t2 = t2.to(t1.device)
        else:
            temp_t2 = t2

        assert torch.equal(t1, temp_t2), "\t{}\n\t{}".format(t1, temp_t2)


def init_ddp(module: torch.nn.Module) -> ColoDDP:
    pg = ProcessGroup()
    return ColoDDP(module, process_group=pg)


def run_ddp_state_dict():
    get_components_func = non_distributed_component_funcs.get_callable('gpt2')
    model_builder, train_dataloader, test_dataloader, optimizer_class, criterion = get_components_func()
    torch_model = model_builder().cuda()
    with ColoInitContext(device=get_current_device()):
        model = model_builder()
    model = init_ddp(model)
    torch_state_dict = torch_model.state_dict()

    for param in model.parameters():
        if isinstance(param, ColoParameter):
            assert param.get_process_group() is not None
    model.load_state_dict(torch_state_dict)

    for param in model.parameters():
        if isinstance(param, ColoParameter):
            assert param.get_process_group() is not None

    state_dict = model.state_dict()
    check_state_dict_equal(torch_state_dict, state_dict)


def run_dist(rank, world_size, port):
    colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
    run_ddp_state_dict()


@pytest.mark.dist
@pytest.mark.parametrize('world_size', [1, 2])
@rerun_if_address_is_in_use()
def test_state_dict(world_size):
    run_func = partial(run_dist, world_size=world_size, port=free_port())
    mp.spawn(run_func, nprocs=world_size)


if __name__ == '__main__':
    test_state_dict(2)
[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00			`import copy`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from collections import OrderedDict`
			`from functools import partial`
[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`import pytest`
			`import torch`
			`import torch.multiprocessing as mp`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00
			`import colossalai`
			`from colossalai.nn.parallel import ColoDDP`
			`from colossalai.tensor import ColoParameter, ProcessGroup`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`from colossalai.testing import rerun_if_address_is_in_use`
			`from colossalai.utils import free_port`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from colossalai.utils.cuda import get_current_device`
			`from colossalai.zero import ColoInitContext`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`from tests.components_to_test.registry import non_distributed_component_funcs`


			`def check_state_dict_equal(state_dict: OrderedDict, other_state_dict: OrderedDict):`
			`for (k1, t1), (k2, t2) in zip(state_dict.items(), other_state_dict.items()):`
			`assert k1 == k2`
[colotensor] use cpu memory to store state_dict (#1367) 2022-07-26 06:13:38 +00:00
			`if t1.device != t2.device:`
			`temp_t2 = t2.to(t1.device)`
			`else:`
			`temp_t2 = t2`

[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00			`assert torch.equal(t1, temp_t2), "\t{}\n\t{}".format(t1, temp_t2)`


[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`def init_ddp(module: torch.nn.Module) -> ColoDDP:`
[refactor] remove gpc dependency in colotensor's _ops (#1189) 2022-07-04 10:54:37 +00:00			`pg = ProcessGroup()`
			`return ColoDDP(module, process_group=pg)`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00

[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00			`def run_ddp_state_dict():`
			`get_components_func = non_distributed_component_funcs.get_callable('gpt2')`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`model_builder, train_dataloader, test_dataloader, optimizer_class, criterion = get_components_func()`
			`torch_model = model_builder().cuda()`
			`with ColoInitContext(device=get_current_device()):`
			`model = model_builder()`
[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00			`model = init_ddp(model)`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`torch_state_dict = torch_model.state_dict()`
[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00
[tensor] fix some unittests (#1234) 2022-07-08 06:18:30 +00:00			`for param in model.parameters():`
			`if isinstance(param, ColoParameter):`
			`assert param.get_process_group() is not None`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`model.load_state_dict(torch_state_dict)`
[tensor] fix some unittests (#1234) 2022-07-08 06:18:30 +00:00
			`for param in model.parameters():`
			`if isinstance(param, ColoParameter):`
			`assert param.get_process_group() is not None`

[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00			`state_dict = model.state_dict()`
			`check_state_dict_equal(torch_state_dict, state_dict)`


			`def run_dist(rank, world_size, port):`
			`colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')`
[zero] alleviate memory usage in ZeRODDP state_dict (#1398) 2022-08-02 07:49:13 +00:00			`run_ddp_state_dict()`
[ddp] add save/load state dict for ColoDDP (#1127) * add save/load state dict for ColoDDP * add unit test * refactor unit test folder * polish unit test * rename unit test 2022-06-20 02:51:47 +00:00

			`@pytest.mark.dist`
			`@pytest.mark.parametrize('world_size', [1, 2])`
			`@rerun_if_address_is_in_use()`
			`def test_state_dict(world_size):`
			`run_func = partial(run_dist, world_size=world_size, port=free_port())`
			`mp.spawn(run_func, nprocs=world_size)`


			`if __name__ == '__main__':`
			`test_state_dict(2)`