ColossalAI/colossalai/legacy/zero/sharded_param/sharded_tensor.py

import torch

from colossalai.legacy.zero.gemini.stateful_tensor import StatefulTensor, TensorState


class ShardedTensor(StatefulTensor):
    def __init__(self, tensor: torch.Tensor, state: TensorState = TensorState.HOLD) -> None:
        r"""
        A tensor sharded in multiple processes. Constructed from an existing torch.Tensor instance.
        """
        assert tensor.requires_grad is False
        super().__init__(tensor, state)

        # kept the shape, numel and dtype of the init tensor.
        self._origin_shape = tensor.shape
        self._origin_numel = tensor.numel()
        self._origin_dtype = tensor.dtype
        self._is_sharded = False

    @property
    def dtype(self) -> torch.dtype:
        assert self._payload.dtype == self._origin_dtype
        return self._payload.dtype

    @property
    def origin_numel(self) -> int:
        return self._origin_numel

    @property
    def origin_shape(self) -> int:
        return self._origin_shape

    @property
    def is_sharded(self):
        return self._is_sharded

    @is_sharded.setter
    def is_sharded(self, flag: bool):
        self._is_sharded = flag
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00			`import torch`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00
[legacy] clean up legacy code (#4743) * [legacy] remove outdated codes of pipeline (#4692) * [legacy] remove cli of benchmark and update optim (#4690) * [legacy] remove cli of benchmark and update optim * [doc] fix cli doc test * [legacy] fix engine clip grad norm * [legacy] remove outdated colo tensor (#4694) * [legacy] remove outdated colo tensor * [test] fix test import * [legacy] move outdated zero to legacy (#4696) * [legacy] clean up utils (#4700) * [legacy] clean up utils * [example] update examples * [legacy] clean up amp * [legacy] fix amp module * [legacy] clean up gpc (#4742) * [legacy] clean up context * [legacy] clean core, constants and global vars * [legacy] refactor initialize * [example] fix examples ci * [example] fix examples ci * [legacy] fix tests * [example] fix gpt example * [example] fix examples ci * [devops] fix ci installation * [example] fix examples ci 2023-09-18 08:31:06 +00:00			`from colossalai.legacy.zero.gemini.stateful_tensor import StatefulTensor, TensorState`
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00

[zero] add stateful tensor (#549) 2022-03-30 05:51:37 +00:00			`class ShardedTensor(StatefulTensor):`
[zero] label state for param fp16 and grad (#551) 2022-03-30 07:57:46 +00:00			`def __init__(self, tensor: torch.Tensor, state: TensorState = TensorState.HOLD) -> None:`
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00			`r"""`
[zero] global model data memory tracer (#360) 2022-03-10 03:20:04 +00:00			`A tensor sharded in multiple processes. Constructed from an existing torch.Tensor instance.`
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00			`"""`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`assert tensor.requires_grad is False`
[zero] label state for param fp16 and grad (#551) 2022-03-30 07:57:46 +00:00			`super().__init__(tensor, state)`
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00
[zero] label state for param fp16 and grad (#551) 2022-03-30 07:57:46 +00:00			`# kept the shape, numel and dtype of the init tensor.`
[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00			`self._origin_shape = tensor.shape`
			`self._origin_numel = tensor.numel()`
			`self._origin_dtype = tensor.dtype`
[zero] add stateful tensor (#549) 2022-03-30 05:51:37 +00:00			`self._is_sharded = False`

[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`@property`
			`def dtype(self) -> torch.dtype:`
revert zero tensors back (#829) 2022-04-22 04:12:35 +00:00			`assert self._payload.dtype == self._origin_dtype`
			`return self._payload.dtype`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`@property`
[zero] add stateful tensor (#549) 2022-03-30 05:51:37 +00:00			`def origin_numel(self) -> int:`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`return self._origin_numel`

			`@property`
[zero] add stateful tensor (#549) 2022-03-30 05:51:37 +00:00			`def origin_shape(self) -> int:`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`return self._origin_shape`

[zero] sharded tensor (#305) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code 2022-03-04 02:46:13 +00:00			`@property`
			`def is_sharded(self):`
			`return self._is_sharded`

[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`@is_sharded.setter`
			`def is_sharded(self, flag: bool):`
			`self._is_sharded = flag`