ColossalAI/applications/Chat/examples/test_ci.sh

#!/usr/bin/env bash

set -xue

if [ -z "$PROMPT_PATH" ]; then
    echo "Please set \$PROMPT_PATH to the path to prompts csv."
    exit 1
fi

BASE=$(realpath $(dirname $0))

export OMP_NUM_THREADS=8

# install requirements
pip install -r ${BASE}/requirements.txt

# train dummy
python ${BASE}/train_dummy.py --strategy naive --num_episodes 1 \
                              --max_timesteps 2 --update_timesteps 2 \
                              --max_epochs 1 --train_batch_size 2 --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \
         --strategy colossalai_gemini --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'facebook/opt-350m' --model opt --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_dummy.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'facebook/opt-350m' --model opt

torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \
         --strategy ddp --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'facebook/opt-350m' --model opt --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_dummy.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'facebook/opt-350m' --model opt

torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \
         --strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'gpt2' --model gpt2 --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_dummy.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'gpt2' --model gpt2

torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \
         --strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'roberta-base' --model roberta --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_dummy.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'roberta-base' --model roberta

rm -rf ${BASE}/actor_checkpoint_dummy.pt

# train prompts
python ${BASE}/train_prompts.py $PROMPT_PATH --strategy naive --num_episodes 1 \
                                             --max_timesteps 2 --update_timesteps 2 \
                                             --max_epochs 1 --train_batch_size 2 --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \
         --strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'facebook/opt-350m' --model opt --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_prompts.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'facebook/opt-350m' --model opt

torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \
         --strategy ddp --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'gpt2' --model gpt2 --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_prompts.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'gpt2' --model gpt2

torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \
         --strategy colossalai_gemini --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'gpt2' --model gpt2 --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_prompts.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'gpt2' --model gpt2

torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \
         --strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \
         --update_timesteps 2 --max_epochs 1 --train_batch_size 2\
         --pretrain 'roberta-base' --model roberta --lora_rank 4\
         --save_path ${BASE}/actor_checkpoint_prompts.pt
python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'roberta-base' --model roberta

rm -rf ${BASE}/actor_checkpoint_prompts.pt

# train rm
torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \
                             --pretrain 'facebook/opt-350m' --model 'opt' \
                             --strategy colossalai_zero2 --loss_fn 'log_sig'\
                             --dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\
                             --test True --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \
                             --pretrain 'gpt2' --model 'gpt2' \
                             --strategy colossalai_gemini --loss_fn 'log_exp'\
                             --dataset 'Dahoas/rm-static' --test True --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \
                             --pretrain 'bigscience/bloom-560m' --model 'bloom' \
                             --strategy colossalai_zero2 --loss_fn 'log_sig'\
                             --dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\
                             --test True --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \
                             --pretrain 'microsoft/deberta-v3-large' --model 'deberta' \
                             --strategy colossalai_zero2 --loss_fn 'log_sig'\
                             --dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\
                             --test True --lora_rank 4

torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \
                             --pretrain 'roberta-base' --model 'roberta' \
                             --strategy colossalai_zero2 --loss_fn 'log_exp'\
                             --dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\
                             --test True --lora_rank 4

rm -rf ${BASE}/rm_ckpt.pt
[Coati] first commit (#3283) 2023-03-28 12:25:36 +00:00			`#!/usr/bin/env bash`

			`set -xue`

			`if [ -z "$PROMPT_PATH" ]; then`
			`echo "Please set \$PROMPT_PATH to the path to prompts csv."`
			`exit 1`
			`fi`

			`BASE=$(realpath $(dirname $0))`

			`export OMP_NUM_THREADS=8`

			`# install requirements`
			`pip install -r ${BASE}/requirements.txt`

			`# train dummy`
			`python ${BASE}/train_dummy.py --strategy naive --num_episodes 1 \`
			`--max_timesteps 2 --update_timesteps 2 \`
			`--max_epochs 1 --train_batch_size 2 --lora_rank 4`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \`
			`--strategy colossalai_gemini --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'facebook/opt-350m' --model opt --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_dummy.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'facebook/opt-350m' --model opt`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \`
			`--strategy ddp --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'facebook/opt-350m' --model opt --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_dummy.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'facebook/opt-350m' --model opt`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \`
			`--strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'gpt2' --model gpt2 --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_dummy.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'gpt2' --model gpt2`

[chatgpt] add pre-trained model RoBERTa for RLHF stage 2 & 3 (#3223) * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * add test for reward model training * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * update roberta with coati 2023-04-03 02:11:03 +00:00			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_dummy.py \`
			`--strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'roberta-base' --model roberta --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_dummy.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_dummy.pt --pretrain 'roberta-base' --model roberta`

[Coati] first commit (#3283) 2023-03-28 12:25:36 +00:00			`rm -rf ${BASE}/actor_checkpoint_dummy.pt`

			`# train prompts`
			`python ${BASE}/train_prompts.py $PROMPT_PATH --strategy naive --num_episodes 1 \`
			`--max_timesteps 2 --update_timesteps 2 \`
			`--max_epochs 1 --train_batch_size 2 --lora_rank 4`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \`
			`--strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'facebook/opt-350m' --model opt --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_prompts.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'facebook/opt-350m' --model opt`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \`
			`--strategy ddp --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'gpt2' --model gpt2 --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_prompts.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'gpt2' --model gpt2`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \`
			`--strategy colossalai_gemini --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'gpt2' --model gpt2 --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_prompts.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'gpt2' --model gpt2`

[chatgpt] add pre-trained model RoBERTa for RLHF stage 2 & 3 (#3223) * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * add test for reward model training * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * update roberta with coati 2023-04-03 02:11:03 +00:00			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_prompts.py $PROMPT_PATH \`
			`--strategy colossalai_zero2 --num_episodes 1 --max_timesteps 2 \`
			`--update_timesteps 2 --max_epochs 1 --train_batch_size 2\`
			`--pretrain 'roberta-base' --model roberta --lora_rank 4\`
			`--save_path ${BASE}/actor_checkpoint_prompts.pt`
			`python ${BASE}/inference.py --model_path ${BASE}/actor_checkpoint_prompts.pt --pretrain 'roberta-base' --model roberta`

[Coati] first commit (#3283) 2023-03-28 12:25:36 +00:00			`rm -rf ${BASE}/actor_checkpoint_prompts.pt`

			`# train rm`
			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \`
			`--pretrain 'facebook/opt-350m' --model 'opt' \`
			`--strategy colossalai_zero2 --loss_fn 'log_sig'\`
			`--dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\`
			`--test True --lora_rank 4`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \`
			`--pretrain 'gpt2' --model 'gpt2' \`
			`--strategy colossalai_gemini --loss_fn 'log_exp'\`
			`--dataset 'Dahoas/rm-static' --test True --lora_rank 4`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \`
			`--pretrain 'bigscience/bloom-560m' --model 'bloom' \`
			`--strategy colossalai_zero2 --loss_fn 'log_sig'\`
			`--dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\`
			`--test True --lora_rank 4`

			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \`
			`--pretrain 'microsoft/deberta-v3-large' --model 'deberta' \`
			`--strategy colossalai_zero2 --loss_fn 'log_sig'\`
			`--dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\`
			`--test True --lora_rank 4`

[chatgpt] add pre-trained model RoBERTa for RLHF stage 2 & 3 (#3223) * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * add test for reward model training * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * Add RoBERTa for RLHF Stage 2 & 3 (test) RoBERTa for RLHF Stage 2 & 3 (still in testing) * Revert "Add RoBERTa for RLHF Stage 2 & 3 (test)" This reverts commit 06741d894dcbe958acd4e10d771f22275e20e368. * Add RoBERTa for RLHF stage 2 & 3 1. add roberta folder under model folder 2. add roberta option in train_reward_model.py 3. add some test in testci * Update test_ci.sh * Revert "Update test_ci.sh" This reverts commit 9c7352b81766f3177d31eeec0ec178a301df966a. * update roberta with coati 2023-04-03 02:11:03 +00:00			`torchrun --standalone --nproc_per_node=2 ${BASE}/train_reward_model.py \`
			`--pretrain 'roberta-base' --model 'roberta' \`
			`--strategy colossalai_zero2 --loss_fn 'log_exp'\`
			`--dataset 'Anthropic/hh-rlhf' --subset 'harmless-base'\`
			`--test True --lora_rank 4`

[Coati] first commit (#3283) 2023-03-28 12:25:36 +00:00			`rm -rf ${BASE}/rm_ckpt.pt`