finetune t5

2023-12-29 19:13:59 +08:00 · 2023-12-29 19:13:59 +08:00 · 78abaa4b71
parent d4048deebf
commit 78abaa4b71
5 changed files with 240 additions and 75 deletions
--- a/finetune/finetune-opt-lora.py
+++ b/finetune/finetune-opt-lora.py
--- a/finetune/finetune-t5.py
+++ b/finetune/finetune-t5.py
@ -0,0 +1,78 @@
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM, Seq2SeqTrainer, Seq2SeqTrainingArguments, DataCollatorForSeq2Seq
 import torch
 device = torch.device("cpu")
 checkpoint = "/Users/hhwang/models/t5-small"
 # checkpoint = "/Users/hhwang/models/flan-t5-small"
 print('********* before finetune ***********')
 tokenizer = AutoTokenizer.from_pretrained(checkpoint,use_fast=False)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 # print(model.config)
 inputs = tokenizer.encode("translate English to Chinese: That is good", return_tensors="pt")
 outputs = model.generate(inputs, max_new_tokens=20)
 print('result: ',tokenizer.batch_decode(outputs))
 data = [
    {"question": "今天天真好", "answer": "那一起打篮球去吧"},
    {"question": "translate English to Chinese: That is good", "answer": "Not bad"}
 ]
 def preprocess_function(examples):
    inputs = tokenizer(examples["question"], max_length=32, truncation=True)
    labels = tokenizer(examples["answer"], max_length=32, truncation=True)
    inputs["labels"] = labels["input_ids"]
    return inputs
 from datasets import Dataset, load_dataset
 dataset = Dataset.from_list(data)
 dataset = dataset.map(preprocess_function, batched=True, remove_columns=dataset.column_names)
 print(dataset)
 data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
 # print(data_collator([dataset[0], dataset[1]]))
 training_args = Seq2SeqTrainingArguments(
    output_dir="checkpoints",
    overwrite_output_dir=True,
    use_cpu=True,
    do_train=True,
    do_eval=True,
    learning_rate=1e-3,
    lr_scheduler_type="constant",
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01,
    save_steps=10,
    save_total_limit=5,
    logging_first_step=True,
    logging_steps=1,
    # logging_dir="./",
    eval_steps=1,
    evaluation_strategy="steps",
    load_best_model_at_end=True
 )
 trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    eval_dataset=dataset,
    data_collator=data_collator,
    # compute_metrics=compute_metrics
 )
 print('begin train')
 trainer.train()
 print('done train')
 finetune_mode = "/tmp/outputs/t5-small"
 trainer.save_model(finetune_mode)
 print('********* after finetune ***********')
 prompt = "translate English to Chinese: That is good"
 model = AutoModelForSeq2SeqLM.from_pretrained(finetune_mode)
 generator = pipeline("summarization", model=model, tokenizer=tokenizer)
 print(generator(prompt))
--- a/finetune/finetune-use.py
+++ b/finetune/finetune-use.py
@ -1,75 +0,0 @@
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, AutoModel, AutoModelForCausalLM
 from transformers import pipeline
 checkpoint = "bigscience/mt0-large"
 checkpoint = "/Users/hhwang/models/gpt2"
 checkpoint = "/Users/hhwang/models/opt-125m"
 checkpoint = "/Users/hhwang/models/opt-350m"
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 # inputs = tokenizer.encode("Write a short story", return_tensors="pt")
 # outputs = model.generate(inputs)
 # print(tokenizer.decode(outputs[0]))
 # case 1
 # pipe = pipeline(task='text-generation', model=checkpoint)
 # print(pipe)
 # result = pipe("tell me a joke")
 # print('result: ',result)
 # case 2
 # from transformers import GPT2Tokenizer, GPT2LMHeadModel
 # tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 # model = GPT2LMHeadModel.from_pretrained(checkpoint)
 # text = "Replace me by any text you'd like."
 # encoded_input = tokenizer.encode(text, return_tensors='pt')
 # outputs = model.generate(encoded_input, max_length=50, num_return_sequences=1)
 # generated_texts = tokenizer.batch_decode(outputs, skip_special_tokens=True)
 # for i, generated_text in enumerate(generated_texts):
 #     print(f"Generated text {i + 1}: {generated_text}")
 # # case 3
 # from transformers import GPT2Tokenizer, GPT2Model
 # tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 # model = GPT2Model.from_pretrained(checkpoint)
 # text = "Replace me by any text you'd like."
 # encoded_input = tokenizer(text, return_tensors='pt')
 # outputs = model(**encoded_input)
 # print(outputs)
 # last_hidden_states = outputs.last_hidden_state
 # print(last_hidden_states)
 # case 4
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModel.from_pretrained(checkpoint)
 # inputs = tokenizer.encode("Write a short story", return_tensors="pt")
 # model = model.eval()
 # print(inputs)
 # outputs = model(inputs)
 # print(outputs)
 # case 5
 print('********* case 5 ***********')
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained(checkpoint)
 inputs = tokenizer.encode("Write a short story", return_tensors="pt")
 outputs = model.generate(inputs)
 print('result: ',tokenizer.batch_decode(outputs))
 # case 6
 print('********* case 6 ***********')
 from transformers import GPT2Tokenizer, OPTForCausalLM
 model = OPTForCausalLM.from_pretrained(checkpoint)
 tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 prompt = "Anti Vaccine Movemenet"
 inputs = tokenizer(prompt, return_tensors="pt").input_ids
 gen_tokens = model.generate(inputs,do_sample=True,temperature=0.9,max_length=100)
 gen_text = tokenizer.batch_decode(gen_tokens)[0]
 print('gen_text', gen_text)
 # generate_ids = model.generate(inputs,max_length=2000,early_stopping= True,do_sample=True,min_length=2000,top_k=125,top_p=0.92,temperature= 0.85,repetition_penalty=1.5,num_return_sequences=3)
 # for i, sample_output in enumerate(generate_ids):
 #     result = tokenizer.decode(sample_output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
 #     print(result) 
--- a/finetune/gpt-opt-use.py
+++ b/finetune/gpt-opt-use.py
@ -0,0 +1,138 @@
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, AutoModel, AutoModelForCausalLM
 from transformers import pipeline
 import torch
 device = torch.device("cpu")
 checkpoint = "bigscience/mt0-large"
 checkpoint = "/Users/hhwang/models/gpt2"
 # checkpoint = "/Users/hhwang/models/opt-125m"
 # checkpoint = "/Users/hhwang/models/opt-350m"
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 # inputs = tokenizer.encode("Write a short story", return_tensors="pt")
 # outputs = model.generate(inputs)
 # print(tokenizer.decode(outputs[0]))
 # case 1
 # pipe = pipeline(task='text-generation', model=checkpoint)
 # print(pipe)
 # result = pipe("tell me a joke")
 # print('result: ',result)
 # case 2
 print('********* case 2 ***********')
 from transformers import GPT2Tokenizer, GPT2LMHeadModel
 tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 model = GPT2LMHeadModel.from_pretrained(checkpoint)
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer.encode(text, return_tensors='pt')
 outputs = model.generate(encoded_input, max_length=50, num_return_sequences=1)
 print('outputs:', outputs)
 print(outputs.shape)
 generated_texts = tokenizer.batch_decode(outputs, skip_special_tokens=True)
 for i, generated_text in enumerate(generated_texts):
    print(f"Generated text {i + 1}: {generated_text}")
 # case 3
 print('********* case 3 ***********')
 from transformers import GPT2Tokenizer, GPT2Model
 tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 model = GPT2Model.from_pretrained(checkpoint)
 print('config', model.config)
 # print('model', model)
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer(text, return_tensors='pt')
 outputs = model(**encoded_input)
 # print(outputs)
 last_hidden_states = outputs.last_hidden_state
 print('last_hidden_states', last_hidden_states)
 print(last_hidden_states.shape)
 print(len(last_hidden_states[0][0]))
 import torch.nn as nn
 lm_head = nn.Linear(model.config.n_embd, model.config.vocab_size, bias=False)
 lm_logits = lm_head(last_hidden_states)
 print('lm_logits', lm_logits)
 print(lm_logits.shape)
 # case 4
 # print('********* case 4 ***********')
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModel.from_pretrained(checkpoint)
 # encoded_input = tokenizer.encode("Write a short story", return_tensors="pt")
 # model = model.eval()
 # print('config', model.config)
 # print('model', model)
 # print('inputs', encoded_input)
 # outputs = model(encoded_input)
 # print(outputs)
 # case 5
 # print('********* case 5 ***********')
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModelForCausalLM.from_pretrained(checkpoint)
 # inputs = tokenizer.encode("Write a short story", return_tensors="pt")
 # outputs = model.generate(inputs)
 # print('result: ',tokenizer.batch_decode(outputs))
 # case 6
 # print('********* case 6 ***********')
 # from transformers import GPT2Tokenizer, OPTForCausalLM
 # model = OPTForCausalLM.from_pretrained(checkpoint)
 # tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 # prompt = "Anti Vaccine Movemenet"
 # inputs = tokenizer(prompt, return_tensors="pt").input_ids
 # gen_tokens = model.generate(inputs,do_sample=True,temperature=0.9,max_length=100)
 # gen_text = tokenizer.batch_decode(gen_tokens)[0]
 # print('gen_text', gen_text)
 # generate_ids = model.generate(inputs,max_length=2000,early_stopping= True,do_sample=True,min_length=2000,top_k=125,top_p=0.92,temperature= 0.85,repetition_penalty=1.5,num_return_sequences=3)
 # for i, sample_output in enumerate(generate_ids):
 #     result = tokenizer.decode(sample_output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
 #     print(result) 
 # case 7
 # print('********* case 7 ***********')
 # generator = pipeline('text-generation', model=checkpoint, device="cpu")
 # text_inputs = ["tell me joke", "How do you", "Would you help", "I like apple", "This is something"]
 # sent_gen = generator(text_inputs, max_length=50, num_return_sequences=2, repetition_penalty=1.3, top_k = 20) 
 # #返回的sent_gen 形如#[[{'generated_text':"..."},{}],[{},{}]]
 # for i in sent_gen:
 #     print(i)
 # case 8
 # print('********* case 8 ***********')
 # from transformers import GPT2Tokenizer, GPT2LMHeadModel, TextGenerationPipeline
 # tokenizer = GPT2Tokenizer.from_pretrained(checkpoint)
 # model = GPT2LMHeadModel.from_pretrained(checkpoint)
 # text_generator = TextGenerationPipeline(model, tokenizer, batch_size=3, device="cpu")
 # text_generator.tokenizer.pad_token_id = model.config.eos_token_id
 # text_inputs = ["tell me joke", "How do you", "Would you help", "I like apple", "This is something"]
 # gen = text_generator(text_inputs, max_length=50, repetition_penalty=10.0, do_sample=True,  num_beams=5, top_k=10)
 # for sent in gen:
 #     gen_seq = sent[0]["generated_text"]
 #     print("")
 #     print(gen_seq)
 # case 9
 # print('********* case 9 ***********')
 # from transformers import AutoTokenizer, AutoModelWithLMHead
 # import torch
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModelWithLMHead.from_pretrained(checkpoint)
 # config=model.config
 # # print('config', config)
 # print(model)
 # device = 'cuda' if torch.cuda.is_available() else 'cpu'
 # model = model.to(device)
 # texts = ["tell me joke", "How do you", "Would you help", "I like apple", "This is something"]
 # #用batch输入的时候一定要设置padding
 # tokenizer.pad_token = tokenizer.eos_token
 # encoding = tokenizer(texts, return_tensors='pt', padding=True).to(device)
 # with torch.no_grad():
 #     generated_ids = model.generate(**encoding, max_length=50, do_sample=True, top_k=20, repetition_penalty=3.0) 
 # generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
 # for l in generated_texts:
 #     print(l)
--- a/finetune/t5-use.py
+++ b/finetune/t5-use.py
@ -0,0 +1,24 @@
 from transformers import  AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
 device = torch.device("cpu")
 checkpoint = "/Users/hhwang/models/t5-small"
 checkpoint = "/Users/hhwang/models/flan-t5-small"
 print('********* case 1 ***********')
 # tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 # # print(model.config)
 # inputs = tokenizer.encode("translate English to German: That is good", return_tensors="pt")
 # outputs = model.generate(inputs, max_new_tokens=20)
 # print('result: ',tokenizer.batch_decode(outputs))
 print('********* case 2 ***********')
 from transformers import pipeline
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 prompt = "translate English to German: That is good?"
 generator = pipeline("summarization", model=model, tokenizer=tokenizer)
 print(generator(prompt))