ColossalAI/applications/ChatGPT/examples/train_reward_model.py

import argparse

import loralib as lora
import torch
from chatgpt.dataset import RewardDataset
from chatgpt.models.base import RewardModel
from chatgpt.models.bloom import BLOOMRM
from chatgpt.models.gpt import GPTRM
from chatgpt.models.opt import OPTRM
from chatgpt.trainer import RewardModelTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy, DDPStrategy, NaiveStrategy
from datasets import load_dataset
from torch.optim import Adam
from transformers import AutoTokenizer, BloomTokenizerFast
from transformers.models.gpt2.tokenization_gpt2 import GPT2Tokenizer

from colossalai.nn.optimizer import HybridAdam


def train(args):
    # configure strategy
    if args.strategy == 'naive':
        strategy = NaiveStrategy()
    elif args.strategy == 'ddp':
        strategy = DDPStrategy()
    elif args.strategy == 'colossalai_gemini':
        strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')
    elif args.strategy == 'colossalai_zero2':
        strategy = ColossalAIStrategy(stage=2, placement_policy='cuda')
    else:
        raise ValueError(f'Unsupported strategy "{args.strategy}"')

    # configure model
    with strategy.model_init_context():
        if args.model == 'bloom':
            model = BLOOMRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()
        elif args.model == 'opt':
            model = OPTRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()
        elif args.model == 'gpt2':
            model = GPTRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()
        else:
            raise ValueError(f'Unsupported model "{args.model}"')

    # configure tokenizer
    if args.model == 'gpt2':
        tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
        tokenizer.pad_token = tokenizer.eos_token
    elif args.model == 'bloom':
        tokenizer = BloomTokenizerFast.from_pretrained(args.pretrain)
        tokenizer.pad_token = tokenizer.eos_token
    elif args.model == 'opt':
        tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")
    else:
        raise ValueError(f'Unsupported model "{args.model}"')
    tokenizer.pad_token = tokenizer.eos_token

    max_len = 512

    # configure optimizer
    if args.strategy.startswith('colossalai'):
        optim = HybridAdam(model.parameters(), lr=5e-5)
    else:
        optim = Adam(model.parameters(), lr=5e-5)

    # prepare for data and dataset
    data = load_dataset(args.dataset)
    train_data = data["train"]
    eval_data = data['test']
    train_dataset = RewardDataset(train_data, tokenizer, max_len)
    eval_dataset = RewardDataset(eval_data, tokenizer, max_len)

    trainer = RewardModelTrainer(model=model,
                                 strategy=strategy,
                                 optim=optim,
                                 train_dataset=train_dataset,
                                 eval_dataset=eval_dataset,
                                 batch_size=args.batch_size,
                                 max_epochs=args.max_epochs)

    trainer.fit(use_lora=args.lora_rank)

    # save model checkpoint after fitting on only rank0
    strategy.save_model(model, 'rm_checkpoint.pt', only_rank0=True)
    # save optimizer checkpoint on all ranks
    strategy.save_optimizer(optim, 'rm_optim_checkpoint_%d.pt' % (torch.cuda.current_device()), only_rank0=False)


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--strategy',
                        choices=['naive', 'ddp', 'colossalai_gemini', 'colossalai_zero2'],
                        default='naive')
    parser.add_argument('--model', choices=['gpt2', 'bloom', 'opt'], default='bloom')
    parser.add_argument('--pretrain', type=str, default=None)
    parser.add_argument('--dataset', type=str, default='Dahoas/rm-static')
    parser.add_argument('--save_path', type=str, default='rm_ckpt.pth')
    parser.add_argument('--max_epochs', type=int, default=1)
    parser.add_argument('--batch_size', type=int, default=4)
    parser.add_argument('--lora_rank', type=int, default=0, help="low-rank adaptation matrices rank")
    args = parser.parse_args()
    train(args)
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`import argparse`

			`import loralib as lora`
			`import torch`
			`from chatgpt.dataset import RewardDataset`
change nn to models (#3032) 2023-03-07 08:34:22 +00:00			`from chatgpt.models.base import RewardModel`
			`from chatgpt.models.bloom import BLOOMRM`
			`from chatgpt.models.gpt import GPTRM`
			`from chatgpt.models.opt import OPTRM`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`from chatgpt.trainer import RewardModelTrainer`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`from chatgpt.trainer.strategies import ColossalAIStrategy, DDPStrategy, NaiveStrategy`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`from datasets import load_dataset`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`from torch.optim import Adam`
[chatgpt]support opt & gpt for rm training (#2876) 2023-02-22 08:58:11 +00:00			`from transformers import AutoTokenizer, BloomTokenizerFast`
			`from transformers.models.gpt2.tokenization_gpt2 import GPT2Tokenizer`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`from colossalai.nn.optimizer import HybridAdam`

[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00
			`def train(args):`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`# configure strategy`
			`if args.strategy == 'naive':`
			`strategy = NaiveStrategy()`
			`elif args.strategy == 'ddp':`
			`strategy = DDPStrategy()`
			`elif args.strategy == 'colossalai_gemini':`
			`strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')`
			`elif args.strategy == 'colossalai_zero2':`
			`strategy = ColossalAIStrategy(stage=2, placement_policy='cuda')`
			`else:`
			`raise ValueError(f'Unsupported strategy "{args.strategy}"')`

			`# configure model`
[chatgpt] fix rm eval (#2829) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 * [chatgpt]fix rm eval typo * fix rm eval * fix pre commit 2023-02-21 03:35:45 +00:00			`with strategy.model_init_context():`
[chatgpt]support opt & gpt for rm training (#2876) 2023-02-22 08:58:11 +00:00			`if args.model == 'bloom':`
			`model = BLOOMRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()`
			`elif args.model == 'opt':`
			`model = OPTRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()`
			`elif args.model == 'gpt2':`
			`model = GPTRM(pretrained=args.pretrain, lora_rank=args.lora_rank).cuda()`
			`else:`
			`raise ValueError(f'Unsupported model "{args.model}"')`

			`# configure tokenizer`
			`if args.model == 'gpt2':`
			`tokenizer = GPT2Tokenizer.from_pretrained('gpt2')`
			`tokenizer.pad_token = tokenizer.eos_token`
			`elif args.model == 'bloom':`
			`tokenizer = BloomTokenizerFast.from_pretrained(args.pretrain)`
			`tokenizer.pad_token = tokenizer.eos_token`
			`elif args.model == 'opt':`
			`tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")`
			`else:`
			`raise ValueError(f'Unsupported model "{args.model}"')`
			`tokenizer.pad_token = tokenizer.eos_token`

			`max_len = 512`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`# configure optimizer`
			`if args.strategy.startswith('colossalai'):`
			`optim = HybridAdam(model.parameters(), lr=5e-5)`
			`else:`
			`optim = Adam(model.parameters(), lr=5e-5)`

[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`# prepare for data and dataset`
			`data = load_dataset(args.dataset)`
[chatgpt]fix lora bug (#2974) * fix lora bug * polish 2023-03-02 09:51:44 +00:00			`train_data = data["train"]`
			`eval_data = data['test']`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`train_dataset = RewardDataset(train_data, tokenizer, max_len)`
			`eval_dataset = RewardDataset(eval_data, tokenizer, max_len)`

			`trainer = RewardModelTrainer(model=model,`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`strategy=strategy,`
			`optim=optim,`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`train_dataset=train_dataset,`
			`eval_dataset=eval_dataset,`
			`batch_size=args.batch_size,`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`max_epochs=args.max_epochs)`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00
			`trainer.fit(use_lora=args.lora_rank)`

[chatgpt]support opt & gpt for rm training (#2876) 2023-02-22 08:58:11 +00:00			`# save model checkpoint after fitting on only rank0`
			`strategy.save_model(model, 'rm_checkpoint.pt', only_rank0=True)`
			`# save optimizer checkpoint on all ranks`
			`strategy.save_optimizer(optim, 'rm_optim_checkpoint_%d.pt' % (torch.cuda.current_device()), only_rank0=False)`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00

			`if __name__ == '__main__':`
			`parser = argparse.ArgumentParser()`
[chatgpt] support colossalai strategy to train rm (#2742) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 2023-02-16 03:24:07 +00:00			`parser.add_argument('--strategy',`
			`choices=['naive', 'ddp', 'colossalai_gemini', 'colossalai_zero2'],`
			`default='naive')`
[chatgpt]support opt & gpt for rm training (#2876) 2023-02-22 08:58:11 +00:00			`parser.add_argument('--model', choices=['gpt2', 'bloom', 'opt'], default='bloom')`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`parser.add_argument('--pretrain', type=str, default=None)`
			`parser.add_argument('--dataset', type=str, default='Dahoas/rm-static')`
			`parser.add_argument('--save_path', type=str, default='rm_ckpt.pth')`
[chatgpt]fix lora bug (#2974) * fix lora bug * polish 2023-03-02 09:51:44 +00:00			`parser.add_argument('--max_epochs', type=int, default=1)`
[chatgpt] fix rm eval (#2829) * [chatgpt]fix train_rm bug with lora * [chatgpt]support colossalai strategy to train rm * fix pre-commit * fix pre-commit 2 * [chatgpt]fix rm eval typo * fix rm eval * fix pre commit 2023-02-21 03:35:45 +00:00			`parser.add_argument('--batch_size', type=int, default=4)`
[app] add chatgpt application (#2698) 2023-02-14 14:17:25 +00:00			`parser.add_argument('--lora_rank', type=int, default=0, help="low-rank adaptation matrices rank")`
			`args = parser.parse_args()`
			`train(args)`