ColossalAI/tests/test_tensor/test_addmm_tp.py

import colossalai
import torch
import pytest
import torch.nn as nn
import torch.multiprocessing as mp
from colossalai.tensor import ColoTensor
from colossalai.tensor import distspec
from colossalai.tensor import TensorSpec, ComputePattern, ParallelAction, DistSpecManager
from colossalai.context import ParallelMode
from colossalai.testing import rerun_if_address_is_in_use
from colossalai.utils import free_port
from functools import partial
from colossalai.core import global_context as gpc
from _utils import tensor_shard_equal, tensor_equal


class Conv1D(nn.Module):
    """
    1D-convolutional layer as defined by Radford et al. for OpenAI GPT (and also used in GPT-2).
    Basically works like a linear layer but the weights are transposed.
    Args:
        nf (`int`): The number of output features.
        nx (`int`): The number of input features.
    """

    def __init__(self, nf, nx):
        super().__init__()
        self.nf = nf
        w = torch.empty(nx, nf)
        nn.init.normal_(w, std=0.02)
        self.weight = nn.Parameter(w)
        self.bias = nn.Parameter(torch.ones(nf))

    def forward(self, x):
        size_out = x.size()[:-1] + (self.nf,)
        x = torch.addmm(self.bias, x.view(-1, x.size(-1)), self.weight)
        x = x.view(size_out)
        return x


def init_1d_row(weight, bias):
    spec = TensorSpec(
        distspec.shard(gpc.get_group(ParallelMode.PARALLEL_1D), [0], [gpc.get_world_size(ParallelMode.PARALLEL_1D)]),
        ParallelAction(ComputePattern.TP1D))
    with DistSpecManager.no_grad():
        weight.set_spec(spec)


def init_1d_col(weight, bias):
    spec = TensorSpec(
        distspec.shard(gpc.get_group(ParallelMode.PARALLEL_1D), [-1], [gpc.get_world_size(ParallelMode.PARALLEL_1D)]),
        ParallelAction(ComputePattern.TP1D))
    with DistSpecManager.no_grad():
        weight.set_spec(spec)
        bias.set_spec(spec)


def run_with_spec(spec_init_func):
    model = Conv1D(4, 16).cuda()
    weight = ColoTensor(torch.nn.Parameter(model.weight.detach()))
    bias = ColoTensor(torch.nn.Parameter(model.bias.detach()))
    spec_init_func(weight, bias)
    x = torch.rand(2, 16).cuda()
    out = model(x)
    colo_out = torch.addmm(bias, x, weight)
    assert tensor_equal(out, colo_out)
    grad = torch.rand_like(out)
    out.backward(grad)
    colo_out.backward(grad)
    tensor_shard_equal(model.weight.grad, weight.grad)
    tensor_shard_equal(model.bias.grad, bias.grad)


def run_dist(rank, world_size, port):
    config = dict(parallel=dict(tensor=dict(mode="1d", size=world_size),))
    colossalai.launch(config=config, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
    run_with_spec(init_1d_row)
    run_with_spec(init_1d_col)


@pytest.mark.dist
@pytest.mark.parametrize('world_size', [1, 4])
@rerun_if_address_is_in_use()
def test_addmm_1d(world_size):
    run_func = partial(run_dist, world_size=world_size, port=free_port())
    mp.spawn(run_func, nprocs=world_size)


if __name__ == '__main__':
    test_addmm_1d(4)
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`import colossalai`
			`import torch`
			`import pytest`
			`import torch.nn as nn`
			`import torch.multiprocessing as mp`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`from colossalai.tensor import ColoTensor`
[tensor] refactor colo-tensor (#992) * refactor colo-tensor and update linear op * polish code * polish code * update ops and unit tests * update unit tests * polish code * rename dist_spec module * polish code * polish code * remove unneeded import * fix pipelinable 2022-05-19 04:44:59 +00:00			`from colossalai.tensor import distspec`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`from colossalai.tensor import TensorSpec, ComputePattern, ParallelAction, DistSpecManager`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`from colossalai.context import ParallelMode`
			`from colossalai.testing import rerun_if_address_is_in_use`
			`from colossalai.utils import free_port`
			`from functools import partial`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`from colossalai.core import global_context as gpc`
[unit test] refactor test tensor (#1005) * polish test_gpt * update op unit tests * update test model 2022-05-19 10:57:56 +00:00			`from _utils import tensor_shard_equal, tensor_equal`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00

			`class Conv1D(nn.Module):`
			`"""`
			`1D-convolutional layer as defined by Radford et al. for OpenAI GPT (and also used in GPT-2).`
			`Basically works like a linear layer but the weights are transposed.`
			`Args:`
			nf (`int`): The number of output features.
			nx (`int`): The number of input features.
			`"""`

			`def __init__(self, nf, nx):`
			`super().__init__()`
			`self.nf = nf`
			`w = torch.empty(nx, nf)`
			`nn.init.normal_(w, std=0.02)`
			`self.weight = nn.Parameter(w)`
			`self.bias = nn.Parameter(torch.ones(nf))`

			`def forward(self, x):`
			`size_out = x.size()[:-1] + (self.nf,)`
			`x = torch.addmm(self.bias, x.view(-1, x.size(-1)), self.weight)`
			`x = x.view(size_out)`
			`return x`


[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`def init_1d_row(weight, bias):`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`spec = TensorSpec(`
[tensor] refactor colo-tensor (#992) * refactor colo-tensor and update linear op * polish code * polish code * update ops and unit tests * update unit tests * polish code * rename dist_spec module * polish code * polish code * remove unneeded import * fix pipelinable 2022-05-19 04:44:59 +00:00			`distspec.shard(gpc.get_group(ParallelMode.PARALLEL_1D), [0], [gpc.get_world_size(ParallelMode.PARALLEL_1D)]),`
[tensor] refactor parallel action (#1007) * refactor parallel action * polish unit tests 2022-05-20 12:19:58 +00:00			`ParallelAction(ComputePattern.TP1D))`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`with DistSpecManager.no_grad():`
			`weight.set_spec(spec)`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00

[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`def init_1d_col(weight, bias):`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`spec = TensorSpec(`
[tensor] refactor colo-tensor (#992) * refactor colo-tensor and update linear op * polish code * polish code * update ops and unit tests * update unit tests * polish code * rename dist_spec module * polish code * polish code * remove unneeded import * fix pipelinable 2022-05-19 04:44:59 +00:00			`distspec.shard(gpc.get_group(ParallelMode.PARALLEL_1D), [-1], [gpc.get_world_size(ParallelMode.PARALLEL_1D)]),`
[tensor] refactor parallel action (#1007) * refactor parallel action * polish unit tests 2022-05-20 12:19:58 +00:00			`ParallelAction(ComputePattern.TP1D))`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`with DistSpecManager.no_grad():`
			`weight.set_spec(spec)`
			`bias.set_spec(spec)`


[unit test] refactor test tensor (#1005) * polish test_gpt * update op unit tests * update test model 2022-05-19 10:57:56 +00:00			`def run_with_spec(spec_init_func):`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`model = Conv1D(4, 16).cuda()`
[tensor] refactor colo-tensor (#992) * refactor colo-tensor and update linear op * polish code * polish code * update ops and unit tests * update unit tests * polish code * rename dist_spec module * polish code * polish code * remove unneeded import * fix pipelinable 2022-05-19 04:44:59 +00:00			`weight = ColoTensor(torch.nn.Parameter(model.weight.detach()))`
			`bias = ColoTensor(torch.nn.Parameter(model.bias.detach()))`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`spec_init_func(weight, bias)`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`x = torch.rand(2, 16).cuda()`
			`out = model(x)`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`colo_out = torch.addmm(bias, x, weight)`
[unit test] refactor test tensor (#1005) * polish test_gpt * update op unit tests * update test model 2022-05-19 10:57:56 +00:00			`assert tensor_equal(out, colo_out)`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`grad = torch.rand_like(out)`
			`out.backward(grad)`
			`colo_out.backward(grad)`
[unit test] refactor test tensor (#1005) * polish test_gpt * update op unit tests * update test model 2022-05-19 10:57:56 +00:00			`tensor_shard_equal(model.weight.grad, weight.grad)`
			`tensor_shard_equal(model.bias.grad, bias.grad)`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00

			`def run_dist(rank, world_size, port):`
			`config = dict(parallel=dict(tensor=dict(mode="1d", size=world_size),))`
			`colossalai.launch(config=config, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')`
[unit test] refactor test tensor (#1005) * polish test_gpt * update op unit tests * update test model 2022-05-19 10:57:56 +00:00			`run_with_spec(init_1d_row)`
			`run_with_spec(init_1d_col)`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00

			`@pytest.mark.dist`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`@pytest.mark.parametrize('world_size', [1, 4])`
[tensor] hijack addmm for colo tensor (#923) * hijack addmm for colo tensor * fix bugs * polish unit test * polish comments 2022-05-09 10:55:49 +00:00			`@rerun_if_address_is_in_use()`
			`def test_addmm_1d(world_size):`
			`run_func = partial(run_dist, world_size=world_size, port=free_port())`
			`mp.spawn(run_func, nprocs=world_size)`


			`if __name__ == '__main__':`
[tensor] design DistSpec and DistSpecManager for ColoTensor (#934) * add dist spec * update linear op * polish code * polish code * update embedding op * polish unit tests * polish unit tests * polish comments * polish code * add test_dist_spec_mgr * polish code * refactor folder structure * polish unit tests * add get_process_group() for TensorSpec * polish code 2022-05-13 07:13:52 +00:00			`test_addmm_1d(4)`