ColossalAI/examples/language/opt/data.py

import torch
from datasets import load_dataset
from torch.utils.data import Dataset


class NetflixDataset(Dataset):
    def __init__(self, tokenizer):
        super().__init__()

        self.tokenizer = tokenizer
        self.input_ids = []
        self.attn_masks = []
        self.labels = []
        self.txt_list = netflix_descriptions = load_dataset("hugginglearners/netflix-shows", split="train")[
            "description"
        ]
        self.max_length = max([len(self.tokenizer.encode(description)) for description in netflix_descriptions])

        for txt in self.txt_list:
            encodings_dict = self.tokenizer(
                "</s>" + txt + "</s>", truncation=True, max_length=self.max_length, padding="max_length"
            )
            self.input_ids.append(torch.tensor(encodings_dict["input_ids"]))
            self.attn_masks.append(torch.tensor(encodings_dict["attention_mask"]))

    def __len__(self):
        return len(self.input_ids)

    def __getitem__(self, idx):
        return self.input_ids[idx], self.attn_masks[idx]


def netflix_collator(data):
    return {
        "input_ids": torch.stack([x[0] for x in data]),
        "attention_mask": torch.stack([x[1] for x in data]),
        "labels": torch.stack([x[0] for x in data]),
    }
[example] update opt example using booster api (#3918) 2023-06-08 03:27:05 +00:00			`import torch`
			`from datasets import load_dataset`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`from torch.utils.data import Dataset`
[example] update opt example using booster api (#3918) 2023-06-08 03:27:05 +00:00

			`class NetflixDataset(Dataset):`
			`def __init__(self, tokenizer):`
			`super().__init__()`

			`self.tokenizer = tokenizer`
			`self.input_ids = []`
			`self.attn_masks = []`
			`self.labels = []`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`self.txt_list = netflix_descriptions = load_dataset("hugginglearners/netflix-shows", split="train")[`
			`"description"`
			`]`
[example] update opt example using booster api (#3918) 2023-06-08 03:27:05 +00:00			`self.max_length = max([len(self.tokenizer.encode(description)) for description in netflix_descriptions])`

			`for txt in self.txt_list:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`encodings_dict = self.tokenizer(`
			`"</s>" + txt + "</s>", truncation=True, max_length=self.max_length, padding="max_length"`
			`)`
			`self.input_ids.append(torch.tensor(encodings_dict["input_ids"]))`
			`self.attn_masks.append(torch.tensor(encodings_dict["attention_mask"]))`
[example] update opt example using booster api (#3918) 2023-06-08 03:27:05 +00:00
			`def __len__(self):`
			`return len(self.input_ids)`

			`def __getitem__(self, idx):`
			`return self.input_ids[idx], self.attn_masks[idx]`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00
[example] update opt example using booster api (#3918) 2023-06-08 03:27:05 +00:00
			`def netflix_collator(data):`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`return {`
			`"input_ids": torch.stack([x[0] for x in data]),`
			`"attention_mask": torch.stack([x[1] for x in data]),`
			`"labels": torch.stack([x[0] for x in data]),`
			`}`