ColossalAI/tests/test_legacy/test_comm/test_comm.py

import pytest
import torch
import torch.distributed as dist

from colossalai.context import ParallelMode
from colossalai.core import global_context as gpc
from colossalai.initialize import launch
from colossalai.legacy.communication import all_gather, all_reduce, reduce_scatter
from colossalai.testing import rerun_if_address_is_in_use, spawn
from colossalai.utils import get_current_device

CONFIG = dict(parallel=dict(data=8, pipeline=1, tensor=dict(mode=None, size=1)))

SIZE = 8


def check_all_gather():
    tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])
    tensor = tensor.to(get_current_device())
    print('Before:   Rank {0} - {1}'.format(dist.get_rank(), tensor))
    tensor, op = all_gather(tensor, 0, ParallelMode.GLOBAL, async_op=True)
    print('After:    Rank {0} - {1}'.format(dist.get_rank(), tensor))
    op.wait()
    print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))
    torch.cuda.synchronize()


def check_reduce_scatter():
    tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])
    tensor = tensor.to(get_current_device())
    print('Before:   Rank {0} - {1}'.format(dist.get_rank(), tensor))
    tensor, op = reduce_scatter(tensor, 0, ParallelMode.GLOBAL, async_op=True)
    print('After:    Rank {0} - {1}'.format(dist.get_rank(), tensor))
    op.wait()
    print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))
    torch.cuda.synchronize()


def check_all_reduce():
    tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])
    tensor = tensor.to(get_current_device())
    print('Before:   Rank {0} - {1}'.format(dist.get_rank(), tensor))
    tensor, op = all_reduce(tensor, ParallelMode.GLOBAL, async_op=True)
    print('After:    Rank {0} - {1}'.format(dist.get_rank(), tensor))
    op.wait()
    print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))
    torch.cuda.synchronize()


def check_layer(rank, world_size, port):
    launch(config=CONFIG, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')

    assert dist.get_rank() == gpc.get_global_rank()
    print('Rank {} / {}'.format(dist.get_rank(), dist.get_world_size()))

    check_all_gather()
    check_reduce_scatter()
    check_all_reduce()

    gpc.destroy()
    torch.cuda.empty_cache()


@pytest.mark.dist
@rerun_if_address_is_in_use()
def test_comm():
    spawn(check_layer, 4)


if __name__ == '__main__':
    test_comm()
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago			`import pytest`
			`import torch`
			`import torch.distributed as dist`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2 years ago
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago			`from colossalai.context import ParallelMode`
			`from colossalai.core import global_context as gpc`
			`from colossalai.initialize import launch`
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`from colossalai.legacy.communication import all_gather, all_reduce, reduce_scatter`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2 years ago			`from colossalai.testing import rerun_if_address_is_in_use, spawn`
			`from colossalai.utils import get_current_device`
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago
			`CONFIG = dict(parallel=dict(data=8, pipeline=1, tensor=dict(mode=None, size=1)))`

			`SIZE = 8`


			`def check_all_gather():`
			`tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])`
			`tensor = tensor.to(get_current_device())`
			`print('Before: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`tensor, op = all_gather(tensor, 0, ParallelMode.GLOBAL, async_op=True)`
			`print('After: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`op.wait()`
			`print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`torch.cuda.synchronize()`


			`def check_reduce_scatter():`
			`tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])`
			`tensor = tensor.to(get_current_device())`
			`print('Before: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`tensor, op = reduce_scatter(tensor, 0, ParallelMode.GLOBAL, async_op=True)`
			`print('After: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`op.wait()`
			`print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`torch.cuda.synchronize()`


			`def check_all_reduce():`
			`tensor = torch.tensor([dist.get_rank() * SIZE + j for j in range(SIZE)])`
			`tensor = tensor.to(get_current_device())`
			`print('Before: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`tensor, op = all_reduce(tensor, ParallelMode.GLOBAL, async_op=True)`
			`print('After: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`op.wait()`
			`print('Complete: Rank {0} - {1}'.format(dist.get_rank(), tensor))`
			`torch.cuda.synchronize()`


Hotfix/Colossalai layers (#92) * optimized 1d layer apis; reorganized nn.layer modules; fixed tests * fixed 2.5d runtime issue * reworked split batch, now called in trainer.schedule.load_batch Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago			`def check_layer(rank, world_size, port):`
			`launch(config=CONFIG, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')`
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago
			`assert dist.get_rank() == gpc.get_global_rank()`
			`print('Rank {} / {}'.format(dist.get_rank(), dist.get_world_size()))`

			`check_all_gather()`
			`check_reduce_scatter()`
			`check_all_reduce()`

			`gpc.destroy()`
			`torch.cuda.empty_cache()`


			`@pytest.mark.dist`
[test] refactored with the new rerun decorator (#763) * [test] refactored with the new rerun decorator * polish test case 3 years ago			`@rerun_if_address_is_in_use()`
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago			`def test_comm():`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2 years ago			`spawn(check_layer, 4)`
Layer integration (#83) * integrated parallel layers for ease of building models * integrated 2.5d layers * cleaned codes and unit tests * added log metric by step hook; updated imagenet benchmark; fixed some bugs * reworked initialization; cleaned codes Co-authored-by: BoxiangW <45734921+BoxiangW@users.noreply.github.com> 3 years ago

			`if __name__ == '__main__':`
			`test_comm()`