ColossalAI/colossalai/zero/shard_utils/tensor_shard_strategy.py

from typing import List, Optional

import torch
import torch.distributed as dist
from colossalai.utils import get_current_device
from colossalai.utils.memory_utils.utils import colo_model_data_tensor_move_inline
from colossalai.zero.shard_utils import BaseShardStrategy
from colossalai.zero.shard_utils.commons import get_shard
from colossalai.zero.sharded_param.sharded_tensor import ShardedTensor


class TensorShardStrategy(BaseShardStrategy):
    """
    A naive implementation which shard each tensor evenly over all ranks
    """

    def shard(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        for t in tensor_list:
            self._shard_tensor(t, process_group)

    def gather(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        for t in tensor_list:
            self._gather_tensor(t, process_group)

    def _shard_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):
        """ Shard tensor among processes.

        Args:
            t (ShardedTensor): a tensor to be sharded.
            process_group (Optional[dist.ProcessGroup], optional): the process group among which tensor shards. 
            Defaults to None.
        """
        if t.is_sharded:
            return
        if t.payload.device.type == 'cuda':
            assert t.payload.device.index == get_current_device(), f"shard tensor on cuda device index {t.payload.device.index},"\
                f" but current cuda device is {get_current_device()}"
        sharded_payload, _ = get_shard(t.payload, dist.get_rank(process_group), dist.get_world_size(process_group))
        t.reset_payload(sharded_payload)
        t.is_sharded = True

    def _gather_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):
        if not t.is_sharded:
            return
        target_device = t.device
        buffer_list = []
        payload_numel = t.payload.numel()
        world_size = dist.get_world_size(process_group)
        rank = dist.get_rank(process_group)
        for i in range(world_size):
            if i == rank:
                buffer_list.append(t.payload.cuda(get_current_device()))
            else:
                buffer_list.append(torch.zeros(payload_numel, dtype=t.dtype, device=get_current_device()))

        dist.all_gather(buffer_list, buffer_list[rank], group=process_group, async_op=False)
        gathered_payload = torch.narrow(torch.cat(buffer_list), 0, 0, t.origin_numel).reshape(t.origin_shape)
        t.reset_payload(gathered_payload)
        colo_model_data_tensor_move_inline(t, target_device)
        t.is_sharded = False
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00			`from typing import List, Optional`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`import torch`
			`import torch.distributed as dist`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`from colossalai.utils import get_current_device`
[zero] non model data tracing (#545) 2022-03-29 07:45:48 +00:00			`from colossalai.utils.memory_utils.utils import colo_model_data_tensor_move_inline`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`from colossalai.zero.shard_utils import BaseShardStrategy`
[refactor] remove old zero code (#517) 2022-03-25 06:54:39 +00:00			`from colossalai.zero.shard_utils.commons import get_shard`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`from colossalai.zero.sharded_param.sharded_tensor import ShardedTensor`
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00

			`class TensorShardStrategy(BaseShardStrategy):`
[zero] refactor model data tracing (#522) 2022-03-25 10:03:32 +00:00			`"""`
			`A naive implementation which shard each tensor evenly over all ranks`
[doc] Update docstring for ZeRO (#459) * polish sharded model docstr * polish sharded optim docstr * polish zero docstr * polish shard strategy docstr 2022-03-18 08:48:20 +00:00			`"""`
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`def shard(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):`
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00			`for t in tensor_list:`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`self._shard_tensor(t, process_group)`
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`def gather(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):`
[zero] a shard strategy in granularity of tensor (#307) 2022-03-04 03:59:35 +00:00			`for t in tensor_list:`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`self._gather_tensor(t, process_group)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`def _shard_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):`
[zero] refactor model data tracing (#522) 2022-03-25 10:03:32 +00:00			`""" Shard tensor among processes.`

			`Args:`
			`t (ShardedTensor): a tensor to be sharded.`
			`process_group (Optional[dist.ProcessGroup], optional): the process group among which tensor shards.`
			`Defaults to None.`
			`"""`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`if t.is_sharded:`
			`return`
[zero] fix init device bug in zero init context unittest (#516) 2022-03-25 04:24:18 +00:00			`if t.payload.device.type == 'cuda':`
			`assert t.payload.device.index == get_current_device(), f"shard tensor on cuda device index {t.payload.device.index},"\`
			`f" but current cuda device is {get_current_device()}"`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`sharded_payload, _ = get_shard(t.payload, dist.get_rank(process_group), dist.get_world_size(process_group))`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`t.reset_payload(sharded_payload)`
			`t.is_sharded = True`

[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`def _gather_tensor(self, t: ShardedTensor, process_group: Optional[dist.ProcessGroup] = None):`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`if not t.is_sharded:`
			`return`
[zero] able to place params on cpu after zero init context (#365) * place params on cpu after zero init context * polish code 2022-03-10 06:08:58 +00:00			`target_device = t.device`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`buffer_list = []`
			`payload_numel = t.payload.numel()`
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`world_size = dist.get_world_size(process_group)`
			`rank = dist.get_rank(process_group)`
			`for i in range(world_size):`
			`if i == rank:`
[hotfix] fixed bugs in ShardStrategy and PcieProfiler (#394) 2022-03-11 10:12:46 +00:00			`buffer_list.append(t.payload.cuda(get_current_device()))`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`else:`
[hotfix] fixed bugs in ShardStrategy and PcieProfiler (#394) 2022-03-11 10:12:46 +00:00			`buffer_list.append(torch.zeros(payload_numel, dtype=t.dtype, device=get_current_device()))`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00
[zero] Update initialize for ZeRO (#458) * polish code * shard strategy receive pg in shard() / gather() * update zero engine * polish code 2022-03-18 08:18:31 +00:00			`dist.all_gather(buffer_list, buffer_list[rank], group=process_group, async_op=False)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`gathered_payload = torch.narrow(torch.cat(buffer_list), 0, 0, t.origin_numel).reshape(t.origin_shape)`
			`t.reset_payload(gathered_payload)`
[zero] non model data tracing (#545) 2022-03-29 07:45:48 +00:00			`colo_model_data_tensor_move_inline(t, target_device)`
[zero] polish shard strategy (#310) * init shard param from shape tuple * add more unitest for shard param * add set_payload method for ShardedParam * [zero] add shareded tensor class * polish code * add shard stratgy * move shard and gather logic to shard strategy from shard tensor. * polish code 2022-03-04 07:35:07 +00:00			`t.is_sharded = False`