ColossalAI/colossalai/zero/sharded_param/sharded_param.py

import torch
from typing import Optional, Tuple
from colossalai.zero.sharded_param.sharded_tensor import ShardedTensor
from colossalai.gemini.tensor_utils import colo_tensor_mem_usage
from colossalai.gemini.stateful_tensor import StatefulTensor, TensorState
from typing import List

EMPTY_TENSOR_DICT = {}


def get_empty_tensor(device: torch.device, dtype: torch.dtype):
    key = (device, dtype)
    if key not in EMPTY_TENSOR_DICT:
        EMPTY_TENSOR_DICT[key] = torch.empty(0, dtype=dtype, device=device)

    return EMPTY_TENSOR_DICT[key]


class ShardedParamV2(object):

    def __init__(self, param: torch.nn.Parameter, set_data_none: bool = False) -> None:
        self._sharded_data_tensor: ShardedTensor = ShardedTensor(param.data)
        self.saved_grad: StatefulTensor = StatefulTensor(None, TensorState.FREE)
        # This attribute must be initialized in ShardedModel
        self.offload_grad: bool = False

        # make sure the shared param is the only owner of payload
        # The param.data maybe used to init the other part of the model.
        # For example: File "resnet.py", line 190, in __init__
        # nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
        # So we can not empty the .data at this time
        self.param = param
        if set_data_none:
            self.set_data_none()

    def get_payload_tensors(self) -> List[StatefulTensor]:
        """returns stateful tensors kept by this class.
        """
        return [self._sharded_data_tensor]

    def set_data_none(self):
        self.param.data = get_empty_tensor(self.sharded_data_tensor.device, self.sharded_data_tensor.dtype)

    def set_grad_none(self):
        self.saved_grad.set_null()

    @property
    def sharded_data_tensor(self):
        return self._sharded_data_tensor

    @property
    def data_payload(self):
        assert not self.sharded_data_tensor.is_null()
        return self.sharded_data_tensor.payload

    @property
    def grad_payload(self):
        assert not self.saved_grad.is_null()
        return self.saved_grad.payload

    @property
    def param_is_sharded(self):
        return self.sharded_data_tensor.is_sharded

    def data_payload_reset(self, tensor: torch.Tensor):
        assert type(tensor) is torch.Tensor
        assert tensor.requires_grad is False
        self.sharded_data_tensor.payload_reset(tensor)

    def grad_payload_reset(self, tensor: torch.Tensor):
        assert type(tensor) is torch.Tensor
        assert tensor.requires_grad is False
        self.saved_grad.payload_reset(tensor)

    def get_memory_usage(self) -> Tuple[int, int]:
        """
        get the memory usage of the param, including data and grad
        Returns:
            Tuple[int, int]: cuda mem usage in Byte, cpu memory usage in Byte
        """
        cuda_mem_use, cpu_mem_use = 0, 0

        def _update_mem_use(t: Optional[torch.Tensor]):
            if t is None:
                return
            assert isinstance(t, torch.Tensor)
            nonlocal cuda_mem_use
            nonlocal cpu_mem_use
            t_cuda, t_cpu = colo_tensor_mem_usage(t)
            cuda_mem_use += t_cuda
            cpu_mem_use += t_cpu

        address_set = set()
        _update_mem_use(self.data_payload)
        address_set.add(self.data_payload.data_ptr())

        if not self.saved_grad.is_null() and self.saved_grad.data_ptr() not in address_set:
            _update_mem_use(self.grad_payload)
            address_set.add(self.saved_grad.data_ptr())

        if self.param.data is not None and self.param.data.data_ptr() not in address_set:
            _update_mem_use(self.param.data)
            address_set.add(self.param.data.data_ptr())

        if self.param.grad is not None and self.param.grad.data_ptr() not in address_set:
            _update_mem_use(self.param.grad)

        return cuda_mem_use, cpu_mem_use
Feature/zero (#279) * add zero1 (#209) * add zero1 * add test zero1 * update zero stage 1 develop (#212) * Implement naive zero3 (#240) * naive zero3 works well * add zero3 param manager * add TODOs in comments * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * fix bugs of hook and add unit tests (#252) * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * polish code and add state dict hook * fix bug * update unit test * refactor reconstructed zero code * clip_grad support zero3 and add unit test * add unit test for Zero3ParameterManager * [WIP] initialize the shard param class * [WIP] Yet another sharded model implementation (#274) * [WIP] initialize the shard param class * [WIP] Yes another implementation of shardModel. Using a better hook method. * torch.concat -> torch.cat * fix test_zero_level_1.py::test_zero_level_1 unitest * remove deepspeed implementation and refactor for the reconstructed zero module * polish zero dp unittests Co-authored-by: ver217 <lhx0217@gmail.com> Co-authored-by: Frank Lee <somerlee.9@gmail.com> 2022-03-01 10:17:01 +00:00			`import torch`
[zero] get memory usage for sharded param (#536) 2022-03-28 07:01:21 +00:00			`from typing import Optional, Tuple`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`from colossalai.zero.sharded_param.sharded_tensor import ShardedTensor`
			`from colossalai.gemini.tensor_utils import colo_tensor_mem_usage`
			`from colossalai.gemini.stateful_tensor import StatefulTensor, TensorState`
[zero] initialize a stateful tensor manager (#614) 2022-04-06 08:18:49 +00:00			`from typing import List`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`EMPTY_TENSOR_DICT = {}`


			`def get_empty_tensor(device: torch.device, dtype: torch.dtype):`
			`key = (device, dtype)`
			`if key not in EMPTY_TENSOR_DICT:`
[hotfix] fix memory leak in zero (#781) 2022-04-18 05:57:03 +00:00			`EMPTY_TENSOR_DICT[key] = torch.empty(0, dtype=dtype, device=device)`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00
			`return EMPTY_TENSOR_DICT[key]`

[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
			`class ShardedParamV2(object):`

[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`def __init__(self, param: torch.nn.Parameter, set_data_none: bool = False) -> None:`
[zero] label state for param fp16 and grad (#551) 2022-03-30 07:57:46 +00:00			`self._sharded_data_tensor: ShardedTensor = ShardedTensor(param.data)`
[zero] hijack p.grad in sharded model (#554) * hijack p.grad in sharded model * polish comments * polish comments 2022-03-30 10:14:50 +00:00			`self.saved_grad: StatefulTensor = StatefulTensor(None, TensorState.FREE)`
[zero] sharded optim support hybrid cpu adam (#486) * sharded optim support hybrid cpu adam * update unit test * polish docstring 2022-03-22 06:56:59 +00:00			`# This attribute must be initialized in ShardedModel`
[zero] sharded model support the reuse of fp16 shard (#495) * sharded model supports reuse fp16 shard * rename variable * polish code * polish code * polish code 2022-03-23 06:59:59 +00:00			`self.offload_grad: bool = False`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
			`# make sure the shared param is the only owner of payload`
[zero] update zero context init with the updated test utils (#327) 2022-03-08 06:45:01 +00:00			`# The param.data maybe used to init the other part of the model.`
			`# For example: File "resnet.py", line 190, in __init__`
			`# nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')`
			`# So we can not empty the .data at this time`
			`self.param = param`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`if set_data_none:`
			`self.set_data_none()`
[zero] update zero context init with the updated test utils (#327) 2022-03-08 06:45:01 +00:00
[zero] initialize a stateful tensor manager (#614) 2022-04-06 08:18:49 +00:00			`def get_payload_tensors(self) -> List[StatefulTensor]:`
			`"""returns stateful tensors kept by this class.`
			`"""`
[zero] stateful tensor manager (#687) * [WIP] stateful tensor manager * add eviction strategy * polish code * polish code * polish comment * add unit test * fix sampler bug * polish code * fix max sampling cnt resetting bug * fix sampler bug * polish code * fix bug * fix unit test Co-authored-by: jiaruifang <fangjiarui123@gmail.com> 2022-04-08 09:51:34 +00:00			`return [self._sharded_data_tensor]`
[zero] initialize a stateful tensor manager (#614) 2022-04-06 08:18:49 +00:00
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`def set_data_none(self):`
			`self.param.data = get_empty_tensor(self.sharded_data_tensor.device, self.sharded_data_tensor.dtype)`

			`def set_grad_none(self):`
			`self.saved_grad.set_null()`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
			`@property`
[zero] polish sharded param name (#484) * [zero] polish sharded param name * polish code * polish * polish code * polish * polsih * polish 2022-03-22 06:36:16 +00:00			`def sharded_data_tensor(self):`
			`return self._sharded_data_tensor`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`@property`
			`def data_payload(self):`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`assert not self.sharded_data_tensor.is_null()`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`return self.sharded_data_tensor.payload`

			`@property`
			`def grad_payload(self):`
			`assert not self.saved_grad.is_null()`
			`return self.saved_grad.payload`

[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`@property`
			`def param_is_sharded(self):`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`return self.sharded_data_tensor.is_sharded`

[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`def data_payload_reset(self, tensor: torch.Tensor):`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`assert type(tensor) is torch.Tensor`
			`assert tensor.requires_grad is False`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`self.sharded_data_tensor.payload_reset(tensor)`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`def grad_payload_reset(self, tensor: torch.Tensor):`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`assert type(tensor) is torch.Tensor`
			`assert tensor.requires_grad is False`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`self.saved_grad.payload_reset(tensor)`
[zero] get memory usage for sharded param (#536) 2022-03-28 07:01:21 +00:00
			`def get_memory_usage(self) -> Tuple[int, int]:`
			`"""`
			`get the memory usage of the param, including data and grad`
			`Returns:`
			`Tuple[int, int]: cuda mem usage in Byte, cpu memory usage in Byte`
			`"""`
			`cuda_mem_use, cpu_mem_use = 0, 0`

			`def _update_mem_use(t: Optional[torch.Tensor]):`
			`if t is None:`
			`return`
			`assert isinstance(t, torch.Tensor)`
			`nonlocal cuda_mem_use`
			`nonlocal cpu_mem_use`
[zero] get memory usage of sharded optim v2. (#542) 2022-03-29 01:08:18 +00:00			`t_cuda, t_cpu = colo_tensor_mem_usage(t)`
			`cuda_mem_use += t_cuda`
			`cpu_mem_use += t_cpu`
[zero] get memory usage for sharded param (#536) 2022-03-28 07:01:21 +00:00
[zero] improve the accuracy of get_memory_usage of sharded param (#538) 2022-03-28 08:19:19 +00:00			`address_set = set()`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`_update_mem_use(self.data_payload)`
			`address_set.add(self.data_payload.data_ptr())`
[zero] improve the accuracy of get_memory_usage of sharded param (#538) 2022-03-28 08:19:19 +00:00
[zero] hijack p.grad in sharded model (#554) * hijack p.grad in sharded model * polish comments * polish comments 2022-03-30 10:14:50 +00:00			`if not self.saved_grad.is_null() and self.saved_grad.data_ptr() not in address_set:`
[zero] refactor ShardedParamV2 for convenience (#742) 2022-04-13 06:54:26 +00:00			`_update_mem_use(self.grad_payload)`
[zero] hijack p.grad in sharded model (#554) * hijack p.grad in sharded model * polish comments * polish comments 2022-03-30 10:14:50 +00:00			`address_set.add(self.saved_grad.data_ptr())`
[zero] improve the accuracy of get_memory_usage of sharded param (#538) 2022-03-28 08:19:19 +00:00
			`if self.param.data is not None and self.param.data.data_ptr() not in address_set:`
			`_update_mem_use(self.param.data)`
			`address_set.add(self.param.data.data_ptr())`

			`if self.param.grad is not None and self.param.grad.data_ptr() not in address_set:`
			`_update_mem_use(self.param.grad)`
[zero] get memory usage for sharded param (#536) 2022-03-28 07:01:21 +00:00
			`return cuda_mem_use, cpu_mem_use`