ColossalAI/examples/language/palm/train.py

import gzip
import random

import numpy as np
import torch
import torch.optim as optim
import tqdm
from packaging import version
from palm_pytorch import PaLM
from palm_pytorch.autoregressive_wrapper import AutoregressiveWrapper
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset

import colossalai
from colossalai.logging import disable_existing_loggers, get_dist_logger
from colossalai.nn.optimizer.gemini_optimizer import GeminiAdamOptimizer
from colossalai.nn.parallel import GeminiDDP, ZeroDDP
from colossalai.tensor import ColoParameter, ComputePattern, ComputeSpec, ProcessGroup, ReplicaSpec, ShardSpec
from colossalai.utils import MultiTimer, get_current_device
from colossalai.utils.model.colo_init_context import ColoInitContext

# constants

NUM_BATCHES = int(20)
BATCH_SIZE = 4
GRADIENT_ACCUMULATE_EVERY = 1
LEARNING_RATE = 2e-4
VALIDATE_EVERY = 100
GENERATE_EVERY = 500
GENERATE_LENGTH = 512
SEQ_LEN = 1024
TPDEGREE = 1
USE_SHARD_INIT = False
placement = 'cpu'


# helpers
def cycle(loader):
    while True:
        for data in loader:
            yield data


def decode_token(token):
    return str(chr(max(32, token)))


def decode_tokens(tokens):
    return "".join(list(map(decode_token, tokens)))


# Gemini + ZeRO DDP
def gemini_zero_dpp(model: torch.nn.Module, pg: ProcessGroup, placememt_policy: str = "auto"):
    cai_version = colossalai.__version__
    if version.parse(cai_version) > version.parse("0.1.10"):
        from colossalai.nn.parallel import GeminiDDP
        model = GeminiDDP(model,
                          device=get_current_device(),
                          placement_policy=placememt_policy,
                          pin_memory=True,
                          search_range_mb=32)
    elif version.parse(cai_version) <= version.parse("0.1.10") and version.parse(cai_version) >= version.parse("0.1.9"):
        from colossalai.gemini import ChunkManager, GeminiManager
        chunk_size = ChunkManager.search_chunk_size(model, 64 * 1024**2, 32)
        gemini_manager = GeminiManager(placememt_policy, chunk_manager)
        chunk_manager = ChunkManager(chunk_size,
                                     pg,
                                     enable_distributed_storage=True,
                                     init_device=GeminiManager.get_default_device(placememt_policy))
        model = ZeroDDP(model, gemini_manager)
    else:
        raise NotImplemented(f"CAI version {cai_version} is not supported")
    return model


# instantiate GPT-like decoder model

parser = colossalai.get_default_parser()
args = parser.parse_args()
disable_existing_loggers()
colossalai.launch_from_torch(config=args.config, seed=42)

# instantiate GPT-like decoder model

default_pg = ProcessGroup(tp_degree=TPDEGREE)
default_dist_spec = ShardSpec([-1], [TPDEGREE]) if USE_SHARD_INIT else None
ctx = ColoInitContext(device='cpu', default_dist_spec=default_dist_spec, default_pg=default_pg)

with ctx:
    model = PaLM(num_tokens=256, dim=512, depth=8)
    model = AutoregressiveWrapper(model, max_seq_len=SEQ_LEN)

with gzip.open("./data/enwik8.gz") as file:
    X = np.fromstring(file.read(int(95e6)), dtype=np.uint8)
    trX, vaX = np.split(X, [int(90e6)])
    data_train, data_val = torch.from_numpy(trX), torch.from_numpy(vaX)


class TextSamplerDataset(Dataset):

    def __init__(self, data, seq_len):
        super().__init__()
        self.data = data
        self.seq_len = seq_len

    def __getitem__(self, index):
        rand_start = torch.randint(0, self.data.size(0) - self.seq_len, (1,))
        full_seq = self.data[rand_start:rand_start + self.seq_len + 1].long()
        return full_seq.cuda()

    def __len__(self):
        return self.data.size(0) // self.seq_len


train_dataset = TextSamplerDataset(data_train, SEQ_LEN)
val_dataset = TextSamplerDataset(data_val, SEQ_LEN)
train_loader = cycle(DataLoader(train_dataset, batch_size=BATCH_SIZE))
val_loader = cycle(DataLoader(val_dataset, batch_size=BATCH_SIZE))

#tensor_parallelize(model, pg)

pg = default_pg
model = gemini_zero_dpp(model, pg, placement)

#optimizer

optimizer = GeminiAdamOptimizer(model, lr=1e-7, initial_scale=2**5)

# training
model.train()

for i in tqdm.tqdm(range(NUM_BATCHES), mininterval=10.0, desc="training"):

    optimizer.zero_grad()

    loss = model(next(train_loader))
    # loss.backward()
    optimizer.backward(loss)

    print(f"training loss: {loss.item()}")
    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
    # optim.step()
    # optim.zero_grad()
    optimizer.step()

    # TODO
    # if i % VALIDATE_EVERY == 0:
    #     model.eval()
    #     with torch.no_grad():
    #         loss = model(next(val_loader))
    #         print(f"validation loss: {loss.item()}")

    # if i % GENERATE_EVERY == 0:
    #     model.eval()
    #     inp = random.choice(val_dataset)[:-1]
    #     prime = decode_tokens(inp)
    #     print(f"%s \n\n %s", (prime, "*" * 100))

    #     sample = model.generate(inp[None, ...], GENERATE_LENGTH)
    #     output_str = decode_tokens(sample[0])
    #     print(output_str)
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`import gzip`
			`import random`

			`import numpy as np`
			`import torch`
			`import torch.optim as optim`
			`import tqdm`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`from packaging import version`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`from palm_pytorch import PaLM`
			`from palm_pytorch.autoregressive_wrapper import AutoregressiveWrapper`
			`from torch.nn import functional as F`
			`from torch.utils.data import DataLoader, Dataset`
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00
			`import colossalai`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`from colossalai.logging import disable_existing_loggers, get_dist_logger`
			`from colossalai.nn.optimizer.gemini_optimizer import GeminiAdamOptimizer`
			`from colossalai.nn.parallel import GeminiDDP, ZeroDDP`
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`from colossalai.tensor import ColoParameter, ComputePattern, ComputeSpec, ProcessGroup, ReplicaSpec, ShardSpec`
			`from colossalai.utils import MultiTimer, get_current_device`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`from colossalai.utils.model.colo_init_context import ColoInitContext`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
			`# constants`

[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`NUM_BATCHES = int(20)`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`BATCH_SIZE = 4`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`GRADIENT_ACCUMULATE_EVERY = 1`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`LEARNING_RATE = 2e-4`
			`VALIDATE_EVERY = 100`
			`GENERATE_EVERY = 500`
			`GENERATE_LENGTH = 512`
			`SEQ_LEN = 1024`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`TPDEGREE = 1`
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`USE_SHARD_INIT = False`
			`placement = 'cpu'`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00

[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`# helpers`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`def cycle(loader):`
			`while True:`
			`for data in loader:`
			`yield data`


			`def decode_token(token):`
			`return str(chr(max(32, token)))`


			`def decode_tokens(tokens):`
			`return "".join(list(map(decode_token, tokens)))`

[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`# Gemini + ZeRO DDP`
			`def gemini_zero_dpp(model: torch.nn.Module, pg: ProcessGroup, placememt_policy: str = "auto"):`
			`cai_version = colossalai.__version__`
			`if version.parse(cai_version) > version.parse("0.1.10"):`
			`from colossalai.nn.parallel import GeminiDDP`
			`model = GeminiDDP(model,`
			`device=get_current_device(),`
			`placement_policy=placememt_policy,`
			`pin_memory=True,`
			`search_range_mb=32)`
			`elif version.parse(cai_version) <= version.parse("0.1.10") and version.parse(cai_version) >= version.parse("0.1.9"):`
			`from colossalai.gemini import ChunkManager, GeminiManager`
			`chunk_size = ChunkManager.search_chunk_size(model, 64 * 1024**2, 32)`
			`gemini_manager = GeminiManager(placememt_policy, chunk_manager)`
			`chunk_manager = ChunkManager(chunk_size,`
			`pg,`
			`enable_distributed_storage=True,`
			`init_device=GeminiManager.get_default_device(placememt_policy))`
			`model = ZeroDDP(model, gemini_manager)`
			`else:`
			`raise NotImplemented(f"CAI version {cai_version} is not supported")`
			`return model`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00

[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`# instantiate GPT-like decoder model`

			`parser = colossalai.get_default_parser()`
			`args = parser.parse_args()`
			`disable_existing_loggers()`
			`colossalai.launch_from_torch(config=args.config, seed=42)`

[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`# instantiate GPT-like decoder model`

[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`default_pg = ProcessGroup(tp_degree=TPDEGREE)`
			`default_dist_spec = ShardSpec([-1], [TPDEGREE]) if USE_SHARD_INIT else None`
			`ctx = ColoInitContext(device='cpu', default_dist_spec=default_dist_spec, default_pg=default_pg)`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`with ctx:`
			`model = PaLM(num_tokens=256, dim=512, depth=8)`
			`model = AutoregressiveWrapper(model, max_seq_len=SEQ_LEN)`
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00			`with gzip.open("./data/enwik8.gz") as file:`
			`X = np.fromstring(file.read(int(95e6)), dtype=np.uint8)`
			`trX, vaX = np.split(X, [int(90e6)])`
			`data_train, data_val = torch.from_numpy(trX), torch.from_numpy(vaX)`


			`class TextSamplerDataset(Dataset):`

			`def __init__(self, data, seq_len):`
			`super().__init__()`
			`self.data = data`
			`self.seq_len = seq_len`

			`def __getitem__(self, index):`
			`rand_start = torch.randint(0, self.data.size(0) - self.seq_len, (1,))`
			`full_seq = self.data[rand_start:rand_start + self.seq_len + 1].long()`
			`return full_seq.cuda()`

			`def __len__(self):`
			`return self.data.size(0) // self.seq_len`


			`train_dataset = TextSamplerDataset(data_train, SEQ_LEN)`
			`val_dataset = TextSamplerDataset(data_val, SEQ_LEN)`
			`train_loader = cycle(DataLoader(train_dataset, batch_size=BATCH_SIZE))`
			`val_loader = cycle(DataLoader(val_dataset, batch_size=BATCH_SIZE))`

[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`#tensor_parallelize(model, pg)`

			`pg = default_pg`
			`model = gemini_zero_dpp(model, pg, placement)`

			`#optimizer`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`optimizer = GeminiAdamOptimizer(model, lr=1e-7, initial_scale=2**5)`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
			`# training`
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`model.train()`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
			`for i in tqdm.tqdm(range(NUM_BATCHES), mininterval=10.0, desc="training"):`

[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`optimizer.zero_grad()`

			`loss = model(next(train_loader))`
			`# loss.backward()`
			`optimizer.backward(loss)`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
			`print(f"training loss: {loss.item()}")`
			`torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)`
[example] Palm adding gemini, still has bugs (#2221) 2022-12-29 06:01:09 +00:00			`# optim.step()`
			`# optim.zero_grad()`
			`optimizer.step()`
[example] add palm pytorch version (#2172) 2022-12-22 02:15:34 +00:00
[example] make palm + GeminiDPP work (#2227) 2022-12-29 06:28:31 +00:00			`# TODO`
			`# if i % VALIDATE_EVERY == 0:`
			`# model.eval()`
			`# with torch.no_grad():`
			`# loss = model(next(val_loader))`
			`# print(f"validation loss: {loss.item()}")`

			`# if i % GENERATE_EVERY == 0:`
			`# model.eval()`
			`# inp = random.choice(val_dataset)[:-1]`
			`# prime = decode_tokens(inp)`
			`# print(f"%s \n\n %s", (prime, "" 100))`

			`# sample = model.generate(inp[None, ...], GENERATE_LENGTH)`
			`# output_str = decode_tokens(sample[0])`
			`# print(output_str)`