ColossalAI/tests/test_shardformer/test_model/test_shard_gpt2.py

import copy
from contextlib import nullcontext

import pytest
import torch
from torch import distributed as dist
from torch.optim import Adam

import colossalai
from colossalai.booster import Booster
from colossalai.booster.plugin import HybridParallelPlugin
from colossalai.lazy.lazy_init import LazyInitContext
from colossalai.logging import disable_existing_loggers
from colossalai.tensor.d_tensor.api import (
    clear_layout_converter,
    is_customized_distributed_tensor,
    is_distributed_tensor,
)
from colossalai.testing import clear_cache_before_run, parameterize, rerun_if_address_is_in_use, spawn
from tests.kit.model_zoo import model_zoo
from tests.test_shardformer.test_model._utils import build_model, check_grad, check_state_dict, run_forward


def check_forward_backward(model_fn, data_gen_fn, output_transform_fn, loss_fn, test_config):

    use_lazy_init = False
    if 'use_lazy_init' in test_config:
        use_lazy_init = test_config.pop('use_lazy_init')

    if use_lazy_init:
        ctx = LazyInitContext()
    else:
        ctx = nullcontext()

    # prepare booster
    plugin = HybridParallelPlugin(**test_config)
    booster = Booster(plugin=plugin)
    stage_manager = plugin.stage_manager

    # prepare models and optimizers
    with ctx:
        org_model = model_fn().cuda()
        sharded_model = copy.deepcopy(org_model)

    if use_lazy_init:
        org_model = ctx.materialize(org_model)

    org_optimizer = Adam(org_model.parameters(), lr=1e-3)
    sharded_optimizer = Adam(sharded_model.parameters(), lr=1e-3)
    criterion = loss_fn

    sharded_model, sharded_optimizer, criterion, _, _ = booster.boost(sharded_model, sharded_optimizer, criterion)

    def _criterion(outputs, inputs):
        outputs = output_transform_fn(outputs)
        loss = criterion(outputs)
        return loss

    # do forward and backward
    data = data_gen_fn()
    sharded_model.train()
    if stage_manager:
        data = {
            k: v.to('cuda').repeat(4, 1) if torch.is_tensor(v) or 'Tensor' in v.__class__.__name__ else v
            for k, v in data.items()
        }
        data_iter = iter([data])
        sharded_output = booster.execute_pipeline(data_iter,
                                                  sharded_model,
                                                  _criterion,
                                                  sharded_optimizer,
                                                  return_loss=True,
                                                  return_outputs=True)
        sharded_loss = sharded_output['loss']
    else:
        data = {k: v.cuda() for k, v in data.items()}
        sharded_output = sharded_model(**data)
        sharded_loss = criterion(sharded_output)
        sharded_loss.backward()

    org_model.train()
    org_output = org_model(**data)
    org_loss = criterion(org_output)
    org_loss.backward()

    if stage_manager is None or stage_manager.is_last_stage():

        # check last hidden state
        if org_model.__class__.__name__ == 'GPT2Model':
            org_hidden_state = org_output.last_hidden_state

            if stage_manager is None:
                sharded_hidden_state = sharded_output.last_hidden_state

            if stage_manager and stage_manager.is_last_stage():
                sharded_hidden_state = torch.cat([output.last_hidden_state for output in sharded_output['outputs']],
                                                 dim=0)

            assert torch.allclose(org_hidden_state, sharded_hidden_state, atol=1e-5, rtol=1e-3), \
                f"shard model's output hidden state is not equal to origin model's last hidden state\n{org_hidden_state}\n{sharded_hidden_state}"

        # check loss
        assert torch.allclose(org_loss, sharded_loss, atol=1e-5, rtol=1e-3), \
            f"shard model loss is not equal to origin model loss\n{org_loss}\n{sharded_loss}"

    # unwrap model
    if org_model.__class__.__name__ == 'GPT2Model':
        gpt2 = org_model
        sharded_gpt2 = sharded_model.unwrap()
    else:
        gpt2 = org_model.transformer
        sharded_gpt2 = sharded_model.unwrap().transformer

    # check grad
    col_layer_for_check = ['h[0].mlp.c_fc']
    row_layer_for_check = ['h[0].mlp.c_proj']
    check_grad(gpt2, sharded_gpt2, col_layer_for_check, atol=1e-6, rtol=1e-3, dim=1, verbose=False)
    check_grad(gpt2, sharded_gpt2, row_layer_for_check, atol=1e-6, rtol=1e-3, dim=0, verbose=False)

    # check weights after optimizer.step()
    org_optimizer.step()
    sharded_optimizer.step()
    if stage_manager is None or stage_manager.is_first_stage():

        org_weight = org_model.h[0].mlp.c_fc.weight
        shard_weight = sharded_model.h[0].mlp.c_fc.weight

        if is_distributed_tensor(shard_weight) or is_customized_distributed_tensor(shard_weight):
            shard_weight_list = [torch.zeros([*shard_weight.shape]).to('cuda') for _ in range(plugin.tp_size)]
            dist.all_gather(shard_weight_list, shard_weight, plugin.tp_group)
            shard_weight = torch.cat(shard_weight_list, dim=1)

        assert torch.allclose(org_weight, shard_weight, atol=5e-3, rtol=1e-3), \
            f"shard model weight is not equal to origin model weight\n{org_weight}\n{shard_weight}"

    torch.cuda.empty_cache()


@parameterize('test_config', [{
    'tp_size': 1,
    'pp_size': 2,
    'num_microbatches': 4,
    'use_lazy_init': True
}, {
    'tp_size': 2,
    'pp_size': 2,
    'num_microbatches': 4,
    'enable_fused_normalization': False,
    'use_lazy_init': False
}, {
    'tp_size': 4,
    'pp_size': 1,
    'enable_fused_normalization': True,
    'use_lazy_init': False
}])
@clear_cache_before_run()
def run_gpt2_test(test_config):

    # TODO: add plugin_config for TP+DP after supporting & debugging it
    # {'tp_size': 2, 'pp_size': 1, 'enable_fused_normalization': True}

    sub_model_zoo = model_zoo.get_sub_registry('transformers_gpt')
    test_config['precision'] = 'float'    # Do not use fp16/bf16 in testing

    for name, (model_fn, data_gen_fn, output_transform_fn, loss_fn, _) in sub_model_zoo.items():
        check_forward_backward(model_fn, data_gen_fn, output_transform_fn, loss_fn, test_config)

    clear_layout_converter()
    torch.cuda.empty_cache()


def check_gpt2(rank, world_size, port):
    disable_existing_loggers()
    colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')
    run_gpt2_test()


@pytest.mark.skip('Have some bug caused by merge')
@pytest.mark.dist
@rerun_if_address_is_in_use()
@clear_cache_before_run()
def test_gpt2():
    spawn(check_gpt2, 4)


if __name__ == "__main__":
    test_gpt2()
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`import copy`
			`from contextlib import nullcontext`

[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`import pytest`
			`import torch`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`from torch import distributed as dist`
			`from torch.optim import Adam`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00
			`import colossalai`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`from colossalai.booster import Booster`
			`from colossalai.booster.plugin import HybridParallelPlugin`
			`from colossalai.lazy.lazy_init import LazyInitContext`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`from colossalai.logging import disable_existing_loggers`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`from colossalai.tensor.d_tensor.api import (`
			`clear_layout_converter,`
			`is_customized_distributed_tensor,`
			`is_distributed_tensor,`
[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`)`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`from colossalai.testing import clear_cache_before_run, parameterize, rerun_if_address_is_in_use, spawn`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`from tests.kit.model_zoo import model_zoo`
[test] Hotfix/fix some model test and refactor check util api (#4369) * fix llama test * fix test bug of bert, blip2, bloom, gpt2 * fix llama test * fix opt test * fix sam test * fix sam test * fix t5 test * fix vit test * fix whisper test * fix whisper test * polish code * adjust allclose parameter * Add mistakenly deleted code * addjust allclose * change loss function for some base model 2023-08-03 06:51:36 +00:00			`from tests.test_shardformer.test_model._utils import build_model, check_grad, check_state_dict, run_forward`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00

[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`def check_forward_backward(model_fn, data_gen_fn, output_transform_fn, loss_fn, test_config):`

			`use_lazy_init = False`
			`if 'use_lazy_init' in test_config:`
			`use_lazy_init = test_config.pop('use_lazy_init')`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`if use_lazy_init:`
			`ctx = LazyInitContext()`
			`else:`
			`ctx = nullcontext()`

			`# prepare booster`
			`plugin = HybridParallelPlugin(**test_config)`
			`booster = Booster(plugin=plugin)`
			`stage_manager = plugin.stage_manager`

			`# prepare models and optimizers`
			`with ctx:`
			`org_model = model_fn().cuda()`
			`sharded_model = copy.deepcopy(org_model)`

			`if use_lazy_init:`
			`org_model = ctx.materialize(org_model)`

			`org_optimizer = Adam(org_model.parameters(), lr=1e-3)`
			`sharded_optimizer = Adam(sharded_model.parameters(), lr=1e-3)`
			`criterion = loss_fn`

			`sharded_model, sharded_optimizer, criterion, _, _ = booster.boost(sharded_model, sharded_optimizer, criterion)`

			`def _criterion(outputs, inputs):`
			`outputs = output_transform_fn(outputs)`
			`loss = criterion(outputs)`
			`return loss`

			`# do forward and backward`
			`data = data_gen_fn()`
			`sharded_model.train()`
			`if stage_manager:`
			`data = {`
			`k: v.to('cuda').repeat(4, 1) if torch.is_tensor(v) or 'Tensor' in v.__class__.__name__ else v`
			`for k, v in data.items()`
			`}`
			`data_iter = iter([data])`
			`sharded_output = booster.execute_pipeline(data_iter,`
			`sharded_model,`
			`_criterion,`
			`sharded_optimizer,`
			`return_loss=True,`
			`return_outputs=True)`
			`sharded_loss = sharded_output['loss']`
			`else:`
			`data = {k: v.cuda() for k, v in data.items()}`
			`sharded_output = sharded_model(**data)`
			`sharded_loss = criterion(sharded_output)`
			`sharded_loss.backward()`

			`org_model.train()`
			`org_output = org_model(**data)`
			`org_loss = criterion(org_output)`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`org_loss.backward()`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`if stage_manager is None or stage_manager.is_last_stage():`

			`# check last hidden state`
			`if org_model.__class__.__name__ == 'GPT2Model':`
			`org_hidden_state = org_output.last_hidden_state`

			`if stage_manager is None:`
			`sharded_hidden_state = sharded_output.last_hidden_state`

			`if stage_manager and stage_manager.is_last_stage():`
			`sharded_hidden_state = torch.cat([output.last_hidden_state for output in sharded_output['outputs']],`
			`dim=0)`

			`assert torch.allclose(org_hidden_state, sharded_hidden_state, atol=1e-5, rtol=1e-3), \`
			`f"shard model's output hidden state is not equal to origin model's last hidden state\n{org_hidden_state}\n{sharded_hidden_state}"`

			`# check loss`
			`assert torch.allclose(org_loss, sharded_loss, atol=1e-5, rtol=1e-3), \`
			`f"shard model loss is not equal to origin model loss\n{org_loss}\n{sharded_loss}"`
[shardformer] added embedding gradient check (#4124) 2023-06-30 08:16:44 +00:00
			`# unwrap model`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`if org_model.__class__.__name__ == 'GPT2Model':`
[test] Hotfix/fix some model test and refactor check util api (#4369) * fix llama test * fix test bug of bert, blip2, bloom, gpt2 * fix llama test * fix opt test * fix sam test * fix sam test * fix t5 test * fix vit test * fix whisper test * fix whisper test * polish code * adjust allclose parameter * Add mistakenly deleted code * addjust allclose * change loss function for some base model 2023-08-03 06:51:36 +00:00			`gpt2 = org_model`
			`sharded_gpt2 = sharded_model.unwrap()`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`else:`
[test] Hotfix/fix some model test and refactor check util api (#4369) * fix llama test * fix test bug of bert, blip2, bloom, gpt2 * fix llama test * fix opt test * fix sam test * fix sam test * fix t5 test * fix vit test * fix whisper test * fix whisper test * polish code * adjust allclose parameter * Add mistakenly deleted code * addjust allclose * change loss function for some base model 2023-08-03 06:51:36 +00:00			`gpt2 = org_model.transformer`
			`sharded_gpt2 = sharded_model.unwrap().transformer`
[shardformer] added embedding gradient check (#4124) 2023-06-30 08:16:44 +00:00
[test] Hotfix/fix some model test and refactor check util api (#4369) * fix llama test * fix test bug of bert, blip2, bloom, gpt2 * fix llama test * fix opt test * fix sam test * fix sam test * fix t5 test * fix vit test * fix whisper test * fix whisper test * polish code * adjust allclose parameter * Add mistakenly deleted code * addjust allclose * change loss function for some base model 2023-08-03 06:51:36 +00:00			`# check grad`
			`col_layer_for_check = ['h[0].mlp.c_fc']`
			`row_layer_for_check = ['h[0].mlp.c_proj']`
			`check_grad(gpt2, sharded_gpt2, col_layer_for_check, atol=1e-6, rtol=1e-3, dim=1, verbose=False)`
			`check_grad(gpt2, sharded_gpt2, row_layer_for_check, atol=1e-6, rtol=1e-3, dim=0, verbose=False)`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00
			`# check weights after optimizer.step()`
			`org_optimizer.step()`
			`sharded_optimizer.step()`
			`if stage_manager is None or stage_manager.is_first_stage():`

			`org_weight = org_model.h[0].mlp.c_fc.weight`
			`shard_weight = sharded_model.h[0].mlp.c_fc.weight`

			`if is_distributed_tensor(shard_weight) or is_customized_distributed_tensor(shard_weight):`
			`shard_weight_list = [torch.zeros([*shard_weight.shape]).to('cuda') for _ in range(plugin.tp_size)]`
			`dist.all_gather(shard_weight_list, shard_weight, plugin.tp_group)`
			`shard_weight = torch.cat(shard_weight_list, dim=1)`

			`assert torch.allclose(org_weight, shard_weight, atol=5e-3, rtol=1e-3), \`
			`f"shard model weight is not equal to origin model weight\n{org_weight}\n{shard_weight}"`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00
[pipeline] Add Pipeline Forward for GPT2Model Shardformer (#4224) * * fix typehint & docstring in sharder.py * * update pipeline forward for GPT2Model * * add test for pipeline forward of GPT2Model * * add cache cleaning in gpt2 test * * change assert to raise command 2023-07-13 07:34:06 +00:00			`torch.cuda.empty_cache()`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00

[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`@parameterize('test_config', [{`
			`'tp_size': 1,`
			`'pp_size': 2,`
			`'num_microbatches': 4,`
			`'use_lazy_init': True`
			`}, {`
			`'tp_size': 2,`
			`'pp_size': 2,`
			`'num_microbatches': 4,`
			`'enable_fused_normalization': False,`
			`'use_lazy_init': False`
			`}, {`
			`'tp_size': 4,`
			`'pp_size': 1,`
			`'enable_fused_normalization': True,`
			`'use_lazy_init': False`
			`}])`
[pipeline] add bloom model pipeline (#4210) * bloom policy * llama pipeline forward and tests * fix the output and attention_mask * fix name * bind argument to policy * finish bloom model * test shard gpt2 * clear cache 2023-07-13 04:47:26 +00:00			`@clear_cache_before_run()`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`def run_gpt2_test(test_config):`

			`# TODO: add plugin_config for TP+DP after supporting & debugging it`
			`# {'tp_size': 2, 'pp_size': 1, 'enable_fused_normalization': True}`

support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`sub_model_zoo = model_zoo.get_sub_registry('transformers_gpt')`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`test_config['precision'] = 'float' # Do not use fp16/bf16 in testing`

support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`for name, (model_fn, data_gen_fn, output_transform_fn, loss_fn, _) in sub_model_zoo.items():`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`check_forward_backward(model_fn, data_gen_fn, output_transform_fn, loss_fn, test_config)`
[pipeline] Add Pipeline Forward for GPT2Model Shardformer (#4224) * * fix typehint & docstring in sharder.py * * update pipeline forward for GPT2Model * * add test for pipeline forward of GPT2Model * * add cache cleaning in gpt2 test * * change assert to raise command 2023-07-13 07:34:06 +00:00
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`clear_layout_converter()`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`torch.cuda.empty_cache()`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00

[shardformer] made tensor parallelism configurable (#4144) * [shardformer] made tensor parallelism configurable * polish code 2023-07-04 01:57:03 +00:00			`def check_gpt2(rank, world_size, port):`
			`disable_existing_loggers()`
			`colossalai.launch(config={}, rank=rank, world_size=world_size, host='localhost', port=port, backend='nccl')`
			`run_gpt2_test()`


[test] Hotfix/fix some model test and refactor check util api (#4369) * fix llama test * fix test bug of bert, blip2, bloom, gpt2 * fix llama test * fix opt test * fix sam test * fix sam test * fix t5 test * fix vit test * fix whisper test * fix whisper test * polish code * adjust allclose parameter * Add mistakenly deleted code * addjust allclose * change loss function for some base model 2023-08-03 06:51:36 +00:00			`@pytest.mark.skip('Have some bug caused by merge')`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`@pytest.mark.dist`
			`@rerun_if_address_is_in_use()`
support kit use for bert/gpt test (#4055) * support kit use for bert test * support kit test for gpt2 2023-06-22 02:33:06 +00:00			`@clear_cache_before_run()`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00			`def test_gpt2():`
[pipeline] support fp32 for HybridPlugin/merge shardformer test and pipeline test into one file (#4354) * add naive optimizer for 3DPlugin/refactor gpt2 shardformer test * merge tests of PP/DP/TP combinations into one test file * fix bug when sync grad for dp in HybridPlugin * update supported precisions for 3DPlugin/fix bug when shifting tp_degree * improve the passing of lazy_init * modify lazy_init/use sync_shared_params 2023-08-01 09:29:09 +00:00			`spawn(check_gpt2, 4)`
[shardformer] add gpt2 test and layer class refactor (#4041) * add gpt2 test and layer class refactor * add dropout in gpt2 policy 2023-06-20 03:45:16 +00:00

			`if __name__ == "__main__":`
			`test_gpt2()`