ColossalAI/colossalai/legacy/zero/shard_utils/tensor_shard_strategy.py

from typing import List, Optional

import torch
import torch.distributed as dist

from colossalai.accelerator import get_accelerator
from colossalai.legacy.zero.gemini.tensor_utils import colo_model_data_tensor_move_inline
from colossalai.legacy.zero.shard_utils import BaseShardStrategy
from colossalai.legacy.zero.shard_utils.commons import get_shard
from colossalai.legacy.zero.sharded_param.sharded_tensor import ShardedTensor


class TensorShardStrategy(BaseShardStrategy):
    """
    A naive implementation which shard each tensor evenly over all ranks
    """

    def shard(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        for t in tensor_list:
            self._shard_tensor(t, process_group)

    def gather(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        for t in tensor_list:
            self._gather_tensor(t, process_group)

    def _shard_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):
        """Shard tensor among processes.

        Args:
            t (ShardedTensor): a tensor to be sharded.
            process_group (Optional[dist.ProcessGroup], optional): the process group among which tensor shards.
            Defaults to None.
        """
        if t.is_sharded:
            return
        if t.payload.device.type == "cuda":
            assert t.payload.device == get_accelerator().get_current_device(), (
                f"shard tensor on cuda device index {t.payload.device.index},"
                f" but current cuda device is {get_accelerator().get_current_device()}"
            )
        sharded_payload, _ = get_shard(t.payload, dist.get_rank(process_group), dist.get_world_size(process_group))
        t.payload_reset(sharded_payload)
        t.is_sharded = True

    def _gather_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):
        if not t.is_sharded:
            return
        target_device = t.device
        payload_numel = t.payload.numel()
        world_size = dist.get_world_size(process_group)
        rank = dist.get_rank(process_group)

        buffer = torch.empty(
            payload_numel * world_size, dtype=t.payload.dtype, device=get_accelerator().get_current_device()
        )
        buffer_list = list(torch.chunk(buffer, chunks=world_size, dim=0))
        buffer_list[rank].copy_(t.payload)

        dist.all_gather(buffer_list, buffer_list[rank], group=process_group, async_op=False)
        gathered_payload = torch.narrow(buffer, 0, 0, t.origin_numel).reshape(t.origin_shape)
        t.payload_reset(gathered_payload)
        colo_model_data_tensor_move_inline(t, target_device)
        t.is_sharded = False
[zero] a shard strategy in granularity of tensor (#307) 3 years ago			`from typing import List, Optional`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago
[zero] Update sharded model v2 using sharded param v2 (#323) 3 years ago			`import torch`
			`import torch.distributed as dist`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2 years ago
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 11 months ago			`from colossalai.accelerator import get_accelerator`
[legacy] clean up legacy code (#4743) * [legacy] remove outdated codes of pipeline (#4692) * [legacy] remove cli of benchmark and update optim (#4690) * [legacy] remove cli of benchmark and update optim * [doc] fix cli doc test * [legacy] fix engine clip grad norm * [legacy] remove outdated colo tensor (#4694) * [legacy] remove outdated colo tensor * [test] fix test import * [legacy] move outdated zero to legacy (#4696) * [legacy] clean up utils (#4700) * [legacy] clean up utils * [example] update examples * [legacy] clean up amp * [legacy] fix amp module * [legacy] clean up gpc (#4742) * [legacy] clean up context * [legacy] clean core, constants and global vars * [legacy] refactor initialize * [example] fix examples ci * [example] fix examples ci * [legacy] fix tests * [example] fix gpt example * [example] fix examples ci * [devops] fix ci installation * [example] fix examples ci 1 year ago			`from colossalai.legacy.zero.gemini.tensor_utils import colo_model_data_tensor_move_inline`
			`from colossalai.legacy.zero.shard_utils import BaseShardStrategy`
			`from colossalai.legacy.zero.shard_utils.commons import get_shard`
			`from colossalai.legacy.zero.sharded_param.sharded_tensor import ShardedTensor`
[zero] a shard strategy in granularity of tensor (#307) 3 years ago

			`class TensorShardStrategy(BaseShardStrategy):`
[zero] refactor model data tracing (#522) 3 years ago			`"""`
			`A naive implementation which shard each tensor evenly over all ranks`
[doc] Update docstring for ZeRO (#459) * polish sharded model docstr * polish sharded optim docstr * polish zero docstr * polish shard strategy docstr 3 years ago			`"""`
[zero] a shard strategy in granularity of tensor (#307) 3 years ago
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`def shard(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):`
[zero] a shard strategy in granularity of tensor (#307) 3 years ago			`for t in tensor_list:`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`self._shard_tensor(t, process_group)`
[zero] a shard strategy in granularity of tensor (#307) 3 years ago
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`def gather(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):`
[zero] a shard strategy in granularity of tensor (#307) 3 years ago			`for t in tensor_list:`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`self._gather_tensor(t, process_group)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`def _shard_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`"""Shard tensor among processes.`
[zero] refactor model data tracing (#522) 3 years ago
			`Args:`
			`t (ShardedTensor): a tensor to be sharded.`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2 years ago			`process_group (Optional[dist.ProcessGroup], optional): the process group among which tensor shards.`
[zero] refactor model data tracing (#522) 3 years ago			`Defaults to None.`
			`"""`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago			`if t.is_sharded:`
			`return`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`if t.payload.device.type == "cuda":`
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 11 months ago			`assert t.payload.device == get_accelerator().get_current_device(), (`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`f"shard tensor on cuda device index {t.payload.device.index},"`
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 11 months ago			`f" but current cuda device is {get_accelerator().get_current_device()}"`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`)`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`sharded_payload, _ = get_shard(t.payload, dist.get_rank(process_group), dist.get_world_size(process_group))`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 3 years ago			`t.payload_reset(sharded_payload)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago			`t.is_sharded = True`

[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`def _gather_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago			`if not t.is_sharded:`
			`return`
[zero] able to place params on cpu after zero init context (#365) * place params on cpu after zero init context * polish code 3 years ago			`target_device = t.device`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago			`payload_numel = t.payload.numel()`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`world_size = dist.get_world_size(process_group)`
			`rank = dist.get_rank(process_group)`
[zero] refactor shard and gather operation (#773) 3 years ago
[npu] change device to accelerator api (#5239) * update accelerator * fix timer * fix amp * update * fix * update bug * add error raise * fix autocast * fix set device * remove doc accelerator * update doc * update doc * update doc * use nullcontext * update cpu * update null context * change time limit for example * udpate * update * update * update * [npu] polish accelerator code --------- Co-authored-by: Xuanlei Zhao <xuanlei.zhao@gmail.com> Co-authored-by: zxl <43881818+oahzxl@users.noreply.github.com> 11 months ago			`buffer = torch.empty(`
			`payload_numel * world_size, dtype=t.payload.dtype, device=get_accelerator().get_current_device()`
			`)`
[zero] refactor shard and gather operation (#773) 3 years ago			`buffer_list = list(torch.chunk(buffer, chunks=world_size, dim=0))`
			`buffer_list[rank].copy_(t.payload)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 3 years ago			`dist.all_gather(buffer_list, buffer_list[rank], group=process_group, async_op=False)`
[zero] refactor shard and gather operation (#773) 3 years ago			`gathered_payload = torch.narrow(buffer, 0, 0, t.origin_numel).reshape(t.origin_shape)`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 3 years ago			`t.payload_reset(gathered_payload)`
[zero] non model data tracing (#545) 3 years ago			`colo_model_data_tensor_move_inline(t, target_device)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 3 years ago			`t.is_sharded = False`