ColossalAI/examples/language/gpt/titans/train_gpt.py

import argparse
import contextlib
import os

import torch
import torch.nn as nn
from dataset.webtext import WebtextDataset
from titans.model.gpt import GPTLMLoss

import colossalai
import colossalai.utils as utils
from colossalai.legacy.context.parallel_mode import ParallelMode
from colossalai.legacy.core import global_context as gpc
from colossalai.legacy.trainer import Trainer, hooks
from colossalai.legacy.zero.init_ctx import ZeroInitContext
from colossalai.logging import disable_existing_loggers, get_dist_logger
from colossalai.nn import LinearWarmupLR
from colossalai.utils import is_using_pp
from colossalai.utils.timer import MultiTimer


def calc_local_model_size(model: torch.nn.Module):
    numel_per_device = 0
    for p in model.parameters():
        numel_per_device += p.numel()
    return numel_per_device


VOCAB_SIZE = 50257


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--from_torch", default=False, action="store_true")
    parser.add_argument("--use_dummy_dataset", default=False, action="store_true")
    args = parser.parse_args()
    disable_existing_loggers()
    if args.from_torch:
        colossalai.launch_from_torch(config=args.config)
    else:
        colossalai.launch_from_slurm(config=args.config, host=args.host, port=29500, seed=42)
    logger = get_dist_logger()

    data_path = None if args.use_dummy_dataset else os.environ["DATA"]
    logger.info(f"Build data loader from path {data_path}", ranks=[0])

    train_ds = WebtextDataset(path=data_path, seq_len=gpc.config.SEQ_LEN)
    train_dataloader = utils.get_dataloader(
        train_ds, seed=42, batch_size=gpc.config.BATCH_SIZE, pin_memory=True, shuffle=True, drop_last=True
    )

    logger.info("Build model", ranks=[0])
    use_pipeline = is_using_pp()
    use_interleaved = hasattr(gpc.config.model, "num_chunks")
    use_zero3 = hasattr(gpc.config, "zero")
    ctx = contextlib.nullcontext()
    if use_zero3:
        ctx = ZeroInitContext(
            target_device=torch.cuda.current_device(),
            shard_strategy=gpc.config.zero.model_config.shard_strategy,
            shard_param=True,
        )
    with ctx:
        model = gpc.config.model.pop("type")(**gpc.config.model)
    if use_pipeline and use_interleaved and not isinstance(model, nn.ModuleList):
        model = nn.ModuleList([model])

    if use_zero3:
        numel = ctx.model_numel_tensor.item()
    else:
        numel = calc_local_model_size(model)

    tflop = (
        numel
        * gpc.config.BATCH_SIZE
        * gpc.config.SEQ_LEN
        * gpc.get_world_size(ParallelMode.MODEL)
        * gpc.get_world_size(ParallelMode.DATA)
        * 8
        / (1024**4)
    )

    criterion = getattr(gpc.config, "loss_fn", None)
    if criterion is not None:
        criterion = criterion.type()
    else:
        criterion = GPTLMLoss()
    logger.info("Build optimizer", ranks=[0])
    optimizer = gpc.config.optimizer.pop("type")(model.parameters(), **gpc.config.optimizer)
    lr_scheduler = LinearWarmupLR(optimizer, total_steps=gpc.config.NUM_EPOCHS, warmup_steps=5)
    engine, train_dataloader, _, lr_scheduler = colossalai.initialize(
        model, optimizer, criterion, train_dataloader=train_dataloader, lr_scheduler=lr_scheduler
    )
    global_batch_size = (
        gpc.config.BATCH_SIZE * gpc.get_world_size(ParallelMode.DATA) * getattr(gpc.config, "gradient_accumulation", 1)
    )
    logger.info(f"Init done, global batch size = {global_batch_size}", ranks=[0])
    timier = MultiTimer()
    trainer = Trainer(engine=engine, logger=logger, timer=timier)
    hook_list = [
        hooks.LossHook(),
        hooks.LRSchedulerHook(lr_scheduler=lr_scheduler, by_epoch=True),
        hooks.LogMetricByEpochHook(logger),
        hooks.ThroughputHook(ignored_steps=10, tflop_per_step=tflop),
        hooks.LogMetricByStepHook(),
        hooks.LogMemoryByEpochHook(logger),
        # hooks.LogMemoryByEpochHook(logger),
        # hooks.LogTimingByEpochHook(timer, logger),
    ]
    trainer.fit(
        train_dataloader=train_dataloader,
        epochs=gpc.config.NUM_EPOCHS,
        test_interval=1,
        hooks=hook_list,
        display_progress=True,
        return_output_label=False,
    )


if __name__ == "__main__":
    main()
[bug] fix get_default_parser in examples (#4764) 1 year ago			`import argparse`
[example] titans for gpt (#2484) 2 years ago			`import contextlib`
			`import os`

			`import torch`
			`import torch.nn as nn`
[hotfix] gpt example titans bug #2493 (#2494) 2 years ago			`from dataset.webtext import WebtextDataset`
[example] titans for gpt (#2484) 2 years ago			`from titans.model.gpt import GPTLMLoss`

			`import colossalai`
			`import colossalai.utils as utils`
[legacy] clean up legacy code (#4743) * [legacy] remove outdated codes of pipeline (#4692) * [legacy] remove cli of benchmark and update optim (#4690) * [legacy] remove cli of benchmark and update optim * [doc] fix cli doc test * [legacy] fix engine clip grad norm * [legacy] remove outdated colo tensor (#4694) * [legacy] remove outdated colo tensor * [test] fix test import * [legacy] move outdated zero to legacy (#4696) * [legacy] clean up utils (#4700) * [legacy] clean up utils * [example] update examples * [legacy] clean up amp * [legacy] fix amp module * [legacy] clean up gpc (#4742) * [legacy] clean up context * [legacy] clean core, constants and global vars * [legacy] refactor initialize * [example] fix examples ci * [example] fix examples ci * [legacy] fix tests * [example] fix gpt example * [example] fix examples ci * [devops] fix ci installation * [example] fix examples ci 1 year ago			`from colossalai.legacy.context.parallel_mode import ParallelMode`
			`from colossalai.legacy.core import global_context as gpc`
[legacy] move trainer to legacy (#4545) * [legacy] move trainer to legacy * [doc] update docs related to trainer * [test] ignore legacy test 1 year ago			`from colossalai.legacy.trainer import Trainer, hooks`
[legacy] clean up legacy code (#4743) * [legacy] remove outdated codes of pipeline (#4692) * [legacy] remove cli of benchmark and update optim (#4690) * [legacy] remove cli of benchmark and update optim * [doc] fix cli doc test * [legacy] fix engine clip grad norm * [legacy] remove outdated colo tensor (#4694) * [legacy] remove outdated colo tensor * [test] fix test import * [legacy] move outdated zero to legacy (#4696) * [legacy] clean up utils (#4700) * [legacy] clean up utils * [example] update examples * [legacy] clean up amp * [legacy] fix amp module * [legacy] clean up gpc (#4742) * [legacy] clean up context * [legacy] clean core, constants and global vars * [legacy] refactor initialize * [example] fix examples ci * [example] fix examples ci * [legacy] fix tests * [example] fix gpt example * [example] fix examples ci * [devops] fix ci installation * [example] fix examples ci 1 year ago			`from colossalai.legacy.zero.init_ctx import ZeroInitContext`
[example] titans for gpt (#2484) 2 years ago			`from colossalai.logging import disable_existing_loggers, get_dist_logger`
			`from colossalai.nn import LinearWarmupLR`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`from colossalai.utils import is_using_pp`
[example] titans for gpt (#2484) 2 years ago			`from colossalai.utils.timer import MultiTimer`


			`def calc_local_model_size(model: torch.nn.Module):`
			`numel_per_device = 0`
			`for p in model.parameters():`
			`numel_per_device += p.numel()`
			`return numel_per_device`


			`VOCAB_SIZE = 50257`


			`def main():`
[bug] fix get_default_parser in examples (#4764) 1 year ago			`parser = argparse.ArgumentParser()`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`parser.add_argument("--from_torch", default=False, action="store_true")`
			`parser.add_argument("--use_dummy_dataset", default=False, action="store_true")`
[example] titans for gpt (#2484) 2 years ago			`args = parser.parse_args()`
			`disable_existing_loggers()`
			`if args.from_torch:`
			`colossalai.launch_from_torch(config=args.config)`
			`else:`
			`colossalai.launch_from_slurm(config=args.config, host=args.host, port=29500, seed=42)`
			`logger = get_dist_logger()`

[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`data_path = None if args.use_dummy_dataset else os.environ["DATA"]`
			`logger.info(f"Build data loader from path {data_path}", ranks=[0])`
[example] titans for gpt (#2484) 2 years ago
[hotfix] gpt example titans bug #2493 (#2494) 2 years ago			`train_ds = WebtextDataset(path=data_path, seq_len=gpc.config.SEQ_LEN)`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`train_dataloader = utils.get_dataloader(`
			`train_ds, seed=42, batch_size=gpc.config.BATCH_SIZE, pin_memory=True, shuffle=True, drop_last=True`
			`)`

			`logger.info("Build model", ranks=[0])`
[example] titans for gpt (#2484) 2 years ago			`use_pipeline = is_using_pp()`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`use_interleaved = hasattr(gpc.config.model, "num_chunks")`
			`use_zero3 = hasattr(gpc.config, "zero")`
[example] titans for gpt (#2484) 2 years ago			`ctx = contextlib.nullcontext()`
			`if use_zero3:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`ctx = ZeroInitContext(`
			`target_device=torch.cuda.current_device(),`
			`shard_strategy=gpc.config.zero.model_config.shard_strategy,`
			`shard_param=True,`
			`)`
[example] titans for gpt (#2484) 2 years ago			`with ctx:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`model = gpc.config.model.pop("type")(**gpc.config.model)`
[example] titans for gpt (#2484) 2 years ago			`if use_pipeline and use_interleaved and not isinstance(model, nn.ModuleList):`
			`model = nn.ModuleList([model])`

			`if use_zero3:`
			`numel = ctx.model_numel_tensor.item()`
			`else:`
			`numel = calc_local_model_size(model)`

[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`tflop = (`
			`numel`
			`* gpc.config.BATCH_SIZE`
			`* gpc.config.SEQ_LEN`
			`* gpc.get_world_size(ParallelMode.MODEL)`
			`* gpc.get_world_size(ParallelMode.DATA)`
			`* 8`
			`/ (1024**4)`
			`)`

			`criterion = getattr(gpc.config, "loss_fn", None)`
[example] titans for gpt (#2484) 2 years ago			`if criterion is not None:`
			`criterion = criterion.type()`
			`else:`
			`criterion = GPTLMLoss()`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`logger.info("Build optimizer", ranks=[0])`
			`optimizer = gpc.config.optimizer.pop("type")(model.parameters(), **gpc.config.optimizer)`
[example] titans for gpt (#2484) 2 years ago			`lr_scheduler = LinearWarmupLR(optimizer, total_steps=gpc.config.NUM_EPOCHS, warmup_steps=5)`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`engine, train_dataloader, _, lr_scheduler = colossalai.initialize(`
			`model, optimizer, criterion, train_dataloader=train_dataloader, lr_scheduler=lr_scheduler`
			`)`
			`global_batch_size = (`
			`gpc.config.BATCH_SIZE * gpc.get_world_size(ParallelMode.DATA) * getattr(gpc.config, "gradient_accumulation", 1)`
			`)`
			`logger.info(f"Init done, global batch size = {global_batch_size}", ranks=[0])`
[example] titans for gpt (#2484) 2 years ago			`timier = MultiTimer()`
			`trainer = Trainer(engine=engine, logger=logger, timer=timier)`
			`hook_list = [`
			`hooks.LossHook(),`
			`hooks.LRSchedulerHook(lr_scheduler=lr_scheduler, by_epoch=True),`
			`hooks.LogMetricByEpochHook(logger),`
			`hooks.ThroughputHook(ignored_steps=10, tflop_per_step=tflop),`
			`hooks.LogMetricByStepHook(),`
			`hooks.LogMemoryByEpochHook(logger),`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`# hooks.LogMemoryByEpochHook(logger),`
			`# hooks.LogTimingByEpochHook(timer, logger),`
[example] titans for gpt (#2484) 2 years ago			`]`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`trainer.fit(`
			`train_dataloader=train_dataloader,`
			`epochs=gpc.config.NUM_EPOCHS,`
			`test_interval=1,`
			`hooks=hook_list,`
			`display_progress=True,`
			`return_output_label=False,`
			`)`
[example] titans for gpt (#2484) 2 years ago

[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`if __name__ == "__main__":`
[example] titans for gpt (#2484) 2 years ago			`main()`