ColossalAI/tests/test_trainer/configs/test_trainer_vit_2d.py

import os
from pathlib import Path

from colossalai.engine import AMP_TYPE

BATCH_SIZE = 512
IMG_SIZE = 32
PATCH_SIZE = 4
DIM = 512
NUM_ATTENTION_HEADS = 8
SUMMA_DIM = 2
NUM_CLASSES = 10
DEPTH = 6

train_data = dict(
    dataset=dict(type='CIFAR10Dataset',
                 root=Path(os.environ['DATA']),
                 transform_pipeline=[
                     dict(type='Resize', size=IMG_SIZE),
                     dict(type='RandomCrop', size=IMG_SIZE, padding=4),
                     dict(type='RandomHorizontalFlip'),
                     dict(type='ToTensor'),
                     dict(type='Normalize',
                          mean=[0.4914, 0.4822, 0.4465],
                          std=[0.2023, 0.1994, 0.2010]),
                 ]),
    dataloader=dict(
        batch_size=BATCH_SIZE,
        pin_memory=True,
        # num_workers=1,
        shuffle=True,
    ))

test_data = dict(
    dataset=dict(type='CIFAR10Dataset',
                 root=Path(os.environ['DATA']),
                 train=False,
                 transform_pipeline=[
                     dict(type='Resize', size=IMG_SIZE),
                     dict(type='ToTensor'),
                     dict(type='Normalize',
                          mean=[0.4914, 0.4822, 0.4465],
                          std=[0.2023, 0.1994, 0.2010]),
                 ]),
    dataloader=dict(
        batch_size=400,
        pin_memory=True,
        # num_workers=1,
    ))

optimizer = dict(type='Adam', lr=0.001, weight_decay=0)

loss = dict(type='CrossEntropyLoss2D', )

# model = dict(
#     type='VanillaResNet',
#     block_type='ResNetBasicBlock',
#     layers=[2, 2, 2, 2],
#     num_cls=10
# )

model = dict(
    type='VisionTransformerFromConfig',
    tensor_splitting_cfg=dict(type='ViTInputSplitter2D', ),
    embedding_cfg=dict(
        type='ViTPatchEmbedding2D',
        img_size=IMG_SIZE,
        patch_size=PATCH_SIZE,
        embed_dim=DIM,
    ),
    token_fusion_cfg=dict(type='ViTTokenFuser2D',
                          img_size=IMG_SIZE,
                          patch_size=PATCH_SIZE,
                          embed_dim=DIM,
                          drop_rate=0.1),
    norm_cfg=dict(
        type='LayerNorm2D',
        normalized_shape=DIM,
        eps=1e-6,
    ),
    block_cfg=dict(
        type='ViTBlock',
        attention_cfg=dict(
            type='ViTSelfAttention2D',
            hidden_size=DIM,
            num_attention_heads=NUM_ATTENTION_HEADS,
            attention_dropout_prob=0.,
            hidden_dropout_prob=0.1,
        ),
        droppath_cfg=dict(type='VanillaViTDropPath', ),
        mlp_cfg=dict(type='ViTMLP2D',
                     in_features=DIM,
                     dropout_prob=0.1,
                     mlp_ratio=1),
        norm_cfg=dict(
            type='LayerNorm2D',
            normalized_shape=DIM,
            eps=1e-6,
        ),
    ),
    head_cfg=dict(
        type='ViTHead2D',
        hidden_size=DIM,
        num_classes=NUM_CLASSES,
    ),
    embed_dim=DIM,
    depth=DEPTH,
    drop_path_rate=0.,
)

hooks = [
    dict(type='LogMetricByEpochHook'),
    dict(type='LogTimingByEpochHook'),
    dict(type='Accuracy2DHook'),
    dict(type='LossHook'),
    dict(type='TensorboardHook', log_dir='./tfb_logs'),
    dict(type='SaveCheckpointHook', interval=5, checkpoint_dir='./ckpt'),
    # dict(type='LoadCheckpointHook', epoch=20, checkpoint_dir='./ckpt')
]

parallel = dict(
    pipeline=dict(size=1),
    tensor=dict(size=4, mode='2d'),
)

fp16 = dict(mode=AMP_TYPE.PARALLEL, initial_scale=2 ** 8)

lr_scheduler = dict(type='LinearWarmupLR', warmup_epochs=5)

schedule = dict(num_microbatches=1)

num_epochs = 60
num_microbatches = 1

logging = dict(root_path='./logs')
Migrated project 2021-10-28 16:21:23 +00:00			`import os`
			`from pathlib import Path`

			`from colossalai.engine import AMP_TYPE`

			`BATCH_SIZE = 512`
			`IMG_SIZE = 32`
			`PATCH_SIZE = 4`
			`DIM = 512`
			`NUM_ATTENTION_HEADS = 8`
			`SUMMA_DIM = 2`
			`NUM_CLASSES = 10`
			`DEPTH = 6`

			`train_data = dict(`
			`dataset=dict(type='CIFAR10Dataset',`
			`root=Path(os.environ['DATA']),`
			`transform_pipeline=[`
			`dict(type='Resize', size=IMG_SIZE),`
			`dict(type='RandomCrop', size=IMG_SIZE, padding=4),`
			`dict(type='RandomHorizontalFlip'),`
			`dict(type='ToTensor'),`
			`dict(type='Normalize',`
			`mean=[0.4914, 0.4822, 0.4465],`
			`std=[0.2023, 0.1994, 0.2010]),`
			`]),`
			`dataloader=dict(`
			`batch_size=BATCH_SIZE,`
			`pin_memory=True,`
			`# num_workers=1,`
			`shuffle=True,`
			`))`

			`test_data = dict(`
			`dataset=dict(type='CIFAR10Dataset',`
			`root=Path(os.environ['DATA']),`
			`train=False,`
			`transform_pipeline=[`
			`dict(type='Resize', size=IMG_SIZE),`
			`dict(type='ToTensor'),`
			`dict(type='Normalize',`
			`mean=[0.4914, 0.4822, 0.4465],`
			`std=[0.2023, 0.1994, 0.2010]),`
			`]),`
			`dataloader=dict(`
			`batch_size=400,`
			`pin_memory=True,`
			`# num_workers=1,`
			`))`

			`optimizer = dict(type='Adam', lr=0.001, weight_decay=0)`

			`loss = dict(type='CrossEntropyLoss2D', )`

			`# model = dict(`
			`# type='VanillaResNet',`
			`# block_type='ResNetBasicBlock',`
			`# layers=[2, 2, 2, 2],`
			`# num_cls=10`
			`# )`

			`model = dict(`
			`type='VisionTransformerFromConfig',`
			`tensor_splitting_cfg=dict(type='ViTInputSplitter2D', ),`
			`embedding_cfg=dict(`
			`type='ViTPatchEmbedding2D',`
			`img_size=IMG_SIZE,`
			`patch_size=PATCH_SIZE,`
			`embed_dim=DIM,`
			`),`
			`token_fusion_cfg=dict(type='ViTTokenFuser2D',`
			`img_size=IMG_SIZE,`
			`patch_size=PATCH_SIZE,`
			`embed_dim=DIM,`
			`drop_rate=0.1),`
			`norm_cfg=dict(`
			`type='LayerNorm2D',`
			`normalized_shape=DIM,`
			`eps=1e-6,`
			`),`
			`block_cfg=dict(`
			`type='ViTBlock',`
			`attention_cfg=dict(`
			`type='ViTSelfAttention2D',`
			`hidden_size=DIM,`
			`num_attention_heads=NUM_ATTENTION_HEADS,`
			`attention_dropout_prob=0.,`
			`hidden_dropout_prob=0.1,`
			`),`
			`droppath_cfg=dict(type='VanillaViTDropPath', ),`
			`mlp_cfg=dict(type='ViTMLP2D',`
			`in_features=DIM,`
			`dropout_prob=0.1,`
			`mlp_ratio=1),`
			`norm_cfg=dict(`
			`type='LayerNorm2D',`
			`normalized_shape=DIM,`
			`eps=1e-6,`
			`),`
			`),`
			`head_cfg=dict(`
			`type='ViTHead2D',`
			`hidden_size=DIM,`
			`num_classes=NUM_CLASSES,`
			`),`
			`embed_dim=DIM,`
			`depth=DEPTH,`
			`drop_path_rate=0.,`
			`)`

			`hooks = [`
			`dict(type='LogMetricByEpochHook'),`
			`dict(type='LogTimingByEpochHook'),`
			`dict(type='Accuracy2DHook'),`
			`dict(type='LossHook'),`
			`dict(type='TensorboardHook', log_dir='./tfb_logs'),`
			`dict(type='SaveCheckpointHook', interval=5, checkpoint_dir='./ckpt'),`
			`# dict(type='LoadCheckpointHook', epoch=20, checkpoint_dir='./ckpt')`
			`]`

			`parallel = dict(`
			`pipeline=dict(size=1),`
			`tensor=dict(size=4, mode='2d'),`
			`)`

			`fp16 = dict(mode=AMP_TYPE.PARALLEL, initial_scale=2 ** 8)`

			`lr_scheduler = dict(type='LinearWarmupLR', warmup_epochs=5)`

			`schedule = dict(num_microbatches=1)`

			`num_epochs = 60`
			`num_microbatches = 1`

			`logging = dict(root_path='./logs')`