ColossalAI/tests/test_moe/test_grad_handler.py

import pytest
import torch
import torch.distributed as dist
import torch.nn as nn

import colossalai
from colossalai.accelerator import get_accelerator
from colossalai.moe import SparseMLP
from colossalai.moe.manager import MOE_MANAGER
from colossalai.testing import assert_equal_in_group, rerun_if_address_is_in_use, spawn
from tests.test_moe.moe_utils import MoeGradientHandler

BATCH_SIZE = 4
DIM = 16


def run_test(rank, world_size, port):
    colossalai.launch(
        config=dict(),
        rank=rank,
        world_size=world_size,
        host="localhost",
        port=port,
        backend="nccl",
    )

    MOE_MANAGER.setup(parallel="EP")  # MOE initialization
    num_experts_list = [1, 2, 4]
    layer_list = []
    for num_experts in num_experts_list:
        moe_layer = SparseMLP(
            hidden_size=DIM,
            intermediate_size=DIM * 4,
            num_experts=num_experts,
            router_top_k=1,
            router_noisy_policy="Jitter",
        )
        layer_list.append(moe_layer)

    model = nn.ModuleList(layer_list)
    model = model.to(get_accelerator().get_current_device())
    dist_dict = MOE_MANAGER.parallel_info_dict
    assert_equal_in_group(layer_list[0].experts.wi.data, dist_dict[1].dp_group)
    assert_equal_in_group(layer_list[0].experts.wo.data, dist_dict[1].dp_group)
    assert_equal_in_group(layer_list[1].experts.wi.data, dist_dict[2].dp_group)
    assert_equal_in_group(layer_list[1].experts.wo.data, dist_dict[2].dp_group)
    assert_equal_in_group(layer_list[2].experts.wi.data, dist_dict[4].dp_group)
    assert_equal_in_group(layer_list[2].experts.wo.data, dist_dict[4].dp_group)
    # MoE model synchronization passed

    grad_handler = MoeGradientHandler(model, 0)

    rank = dist.get_rank()
    torch.cuda.manual_seed(78 + rank)
    data = torch.randn(BATCH_SIZE, DIM, device=get_accelerator().get_current_device())
    grad = torch.randn_like(data)

    MOE_MANAGER.reset_loss()
    for layer in layer_list:
        data = layer(data)
    data.backward(grad)
    grad_handler.handle_gradient()

    assert_equal_in_group(layer_list[0].experts.wi.grad, dist_dict[1].dp_group)
    assert_equal_in_group(layer_list[0].experts.wo.grad, dist_dict[1].dp_group)
    assert_equal_in_group(layer_list[1].experts.wi.grad, dist_dict[2].dp_group)
    assert_equal_in_group(layer_list[1].experts.wo.grad, dist_dict[2].dp_group)
    assert_equal_in_group(layer_list[2].experts.wi.grad, dist_dict[4].dp_group)
    assert_equal_in_group(layer_list[2].experts.wo.grad, dist_dict[4].dp_group)
    # MoE grad handler test passed


@pytest.mark.dist
@rerun_if_address_is_in_use()
def test_grad_handler():
    spawn(run_test, 4)


if __name__ == "__main__":
    test_grad_handler()
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`import pytest`
			`import torch`
			`import torch.distributed as dist`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2023-04-06 06:51:35 +00:00			`import torch.nn as nn`

Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`import colossalai`
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 2024-01-09 02:20:05 +00:00			`from colossalai.accelerator import get_accelerator`
[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`from colossalai.moe import SparseMLP`
			`from colossalai.moe.manager import MOE_MANAGER`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2023-04-06 06:51:35 +00:00			`from colossalai.testing import assert_equal_in_group, rerun_if_address_is_in_use, spawn`
[moe] support optimizer checkpoint (#5015) * Refactor MoE Manager setup method * unshard optim ckpt * optim io * update transformer version * update requirements * update ckpt * update ckpt * update ckpt * fix engine * fix engine 2023-11-08 15:07:03 +00:00			`from tests.test_moe.moe_utils import MoeGradientHandler`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00
			`BATCH_SIZE = 4`
			`DIM = 16`


			`def run_test(rank, world_size, port):`
[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`colossalai.launch(`
			`config=dict(),`
			`rank=rank,`
			`world_size=world_size,`
			`host="localhost",`
			`port=port,`
			`backend="nccl",`
			`)`

[moe] support optimizer checkpoint (#5015) * Refactor MoE Manager setup method * unshard optim ckpt * optim io * update transformer version * update requirements * update ckpt * update ckpt * update ckpt * fix engine * fix engine 2023-11-08 15:07:03 +00:00			`MOE_MANAGER.setup(parallel="EP") # MOE initialization`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`num_experts_list = [1, 2, 4]`
			`layer_list = []`
			`for num_experts in num_experts_list:`
[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`moe_layer = SparseMLP(`
			`hidden_size=DIM,`
			`intermediate_size=DIM * 4,`
			`num_experts=num_experts,`
			`router_top_k=1,`
			`router_noisy_policy="Jitter",`
			`)`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`layer_list.append(moe_layer)`

[moe] fix moe bugs (#1633) 2022-09-23 07:33:57 +00:00			`model = nn.ModuleList(layer_list)`
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 2024-01-09 02:20:05 +00:00			`model = model.to(get_accelerator().get_current_device())`
[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`dist_dict = MOE_MANAGER.parallel_info_dict`
			`assert_equal_in_group(layer_list[0].experts.wi.data, dist_dict[1].dp_group)`
			`assert_equal_in_group(layer_list[0].experts.wo.data, dist_dict[1].dp_group)`
			`assert_equal_in_group(layer_list[1].experts.wi.data, dist_dict[2].dp_group)`
			`assert_equal_in_group(layer_list[1].experts.wo.data, dist_dict[2].dp_group)`
			`assert_equal_in_group(layer_list[2].experts.wi.data, dist_dict[4].dp_group)`
			`assert_equal_in_group(layer_list[2].experts.wo.data, dist_dict[4].dp_group)`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`# MoE model synchronization passed`

			`grad_handler = MoeGradientHandler(model, 0)`

			`rank = dist.get_rank()`
			`torch.cuda.manual_seed(78 + rank)`
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 2024-01-09 02:20:05 +00:00			`data = torch.randn(BATCH_SIZE, DIM, device=get_accelerator().get_current_device())`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`grad = torch.randn_like(data)`

[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`MOE_MANAGER.reset_loss()`
[moe] fix moe bugs (#1633) 2022-09-23 07:33:57 +00:00			`for layer in layer_list:`
[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`data = layer(data)`
[moe] fix moe bugs (#1633) 2022-09-23 07:33:57 +00:00			`data.backward(grad)`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`grad_handler.handle_gradient()`

[moe] merge moe into main (#4978) * update moe module * support openmoe 2023-11-02 02:21:24 +00:00			`assert_equal_in_group(layer_list[0].experts.wi.grad, dist_dict[1].dp_group)`
			`assert_equal_in_group(layer_list[0].experts.wo.grad, dist_dict[1].dp_group)`
			`assert_equal_in_group(layer_list[1].experts.wi.grad, dist_dict[2].dp_group)`
			`assert_equal_in_group(layer_list[1].experts.wo.grad, dist_dict[2].dp_group)`
			`assert_equal_in_group(layer_list[2].experts.wi.grad, dist_dict[4].dp_group)`
			`assert_equal_in_group(layer_list[2].experts.wo.grad, dist_dict[4].dp_group)`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`# MoE grad handler test passed`


			`@pytest.mark.dist`
[test] refactored with the new rerun decorator (#763) * [test] refactored with the new rerun decorator * polish test case 2022-04-14 16:33:04 +00:00			`@rerun_if_address_is_in_use()`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`def test_grad_handler():`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2023-04-06 06:51:35 +00:00			`spawn(run_test, 4)`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00

[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`if __name__ == "__main__":`
Refactored docstring to google style 2022-03-25 05:02:39 +00:00			`test_grad_handler()`