ColossalAI/colossalai/zero/sharded_param/sharded_param.py

import torch
import torch.distributed as dist
from colossalai.zero.sharded_param import ShardedTensor
from typing import Optional


class ShardedParamV2(object):

    def __init__(self,
                 param: torch.nn.Parameter,
                 process_group: Optional[dist.ProcessGroup] = None,
                 rm_torch_payload=False) -> None:
        self._sharded_data_tensor: ShardedTensor = ShardedTensor(param.data, process_group)
        self.fp16_grad: Optional[torch.Tensor] = None
        self.fp32_grad: Optional[torch.Tensor] = None

        # make sure the shared param is the only owner of payload
        # The param.data maybe used to init the other part of the model.
        # For example: File "resnet.py", line 190, in __init__
        # nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
        # So we can not empty the .data at this time
        self.param = param
        if rm_torch_payload:
            self.remove_torch_payload()

        # Backward count for handle local grad accumulation
        # This value will increment by 1 in every pre-bwd hook
        # And will be reset to 0 in every final-bwd hook
        self.bwd_count = 0

    def remove_torch_payload(self):
        self.param.data = torch.empty([], dtype=self.param.dtype, device=self.param.device)

    @property
    def sharded_data_tensor(self):
        return self._sharded_data_tensor

    @property
    def param_is_sharded(self):
        return self._sharded_data_tensor.is_sharded
Feature/zero (#279) * add zero1 (#209) * add zero1 * add test zero1 * update zero stage 1 develop (#212) * Implement naive zero3 (#240) * naive zero3 works well * add zero3 param manager * add TODOs in comments * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * fix bugs of hook and add unit tests (#252) * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * polish code and add state dict hook * fix bug * update unit test * refactor reconstructed zero code * clip_grad support zero3 and add unit test * add unit test for Zero3ParameterManager * [WIP] initialize the shard param class * [WIP] Yet another sharded model implementation (#274) * [WIP] initialize the shard param class * [WIP] Yes another implementation of shardModel. Using a better hook method. * torch.concat -> torch.cat * fix test_zero_level_1.py::test_zero_level_1 unitest * remove deepspeed implementation and refactor for the reconstructed zero module * polish zero dp unittests Co-authored-by: ver217 <lhx0217@gmail.com> Co-authored-by: Frank Lee <somerlee.9@gmail.com> 2022-03-01 10:17:01 +00:00			`import torch`
[zero] add sharded grad and refactor grad hooks for ShardedModel (#287) 2022-03-02 10:28:29 +00:00			`import torch.distributed as dist`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00			`from colossalai.zero.sharded_param import ShardedTensor`
[zero] polish sharded param name (#484) * [zero] polish sharded param name * polish code * polish * polish code * polish * polsih * polish 2022-03-22 06:36:16 +00:00			`from typing import Optional`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00

			`class ShardedParamV2(object):`

[zero] update zero context init with the updated test utils (#327) 2022-03-08 06:45:01 +00:00			`def __init__(self,`
			`param: torch.nn.Parameter,`
			`process_group: Optional[dist.ProcessGroup] = None,`
			`rm_torch_payload=False) -> None:`
[zero] polish sharded param name (#484) * [zero] polish sharded param name * polish code * polish * polish code * polish * polsih * polish 2022-03-22 06:36:16 +00:00			`self._sharded_data_tensor: ShardedTensor = ShardedTensor(param.data, process_group)`
use double buffer to handle grad 2022-03-15 09:07:35 +00:00			`self.fp16_grad: Optional[torch.Tensor] = None`
			`self.fp32_grad: Optional[torch.Tensor] = None`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
			`# make sure the shared param is the only owner of payload`
[zero] update zero context init with the updated test utils (#327) 2022-03-08 06:45:01 +00:00			`# The param.data maybe used to init the other part of the model.`
			`# For example: File "resnet.py", line 190, in __init__`
			`# nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')`
			`# So we can not empty the .data at this time`
			`self.param = param`
			`if rm_torch_payload:`
			`self.remove_torch_payload()`

[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`# Backward count for handle local grad accumulation`
			`# This value will increment by 1 in every pre-bwd hook`
			`# And will be reset to 0 in every final-bwd hook`
			`self.bwd_count = 0`

[zero] update zero context init with the updated test utils (#327) 2022-03-08 06:45:01 +00:00			`def remove_torch_payload(self):`
			`self.param.data = torch.empty([], dtype=self.param.dtype, device=self.param.device)`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
			`@property`
[zero] polish sharded param name (#484) * [zero] polish sharded param name * polish code * polish * polish code * polish * polsih * polish 2022-03-22 06:36:16 +00:00			`def sharded_data_tensor(self):`
			`return self._sharded_data_tensor`
[zero] yet an improved sharded param (#311) 2022-03-04 07:49:23 +00:00
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`@property`
			`def param_is_sharded(self):`
[zero] polish sharded param name (#484) * [zero] polish sharded param name * polish code * polish * polish code * polish * polsih * polish 2022-03-22 06:36:16 +00:00			`return self._sharded_data_tensor.is_sharded`