[doc] Update docstring for ZeRO (#459)

* polish sharded model docstr * polish sharded optim docstr * polish zero docstr * polish shard strategy docstr
2022-03-18 16:48:20 +08:00 · 2022-03-18 16:48:20 +08:00 · fc8e6db005
parent 84fd7c1d4d
commit fc8e6db005
4 changed files with 73 additions and 48 deletions
--- a/colossalai/zero/shard_utils/bucket_tensor_shard_strategy.py
+++ b/colossalai/zero/shard_utils/bucket_tensor_shard_strategy.py
@ -10,6 +10,11 @@ from .tensor_shard_strategy import TensorShardStrategy


 class BucketTensorShardStrategy(TensorShardStrategy):
+    """Use the same shard scheme as `TensorShardStrategy`'s, but it gathers tensors of a sub-module together, 
+    which will fully utilize network bandwidth. 
+    It is especially useful when sub-module contains bias, 
+    since we cannot utilize network bandwidth well if we only gather a bias tensor (bias is usaully small).
+    """

    def gather(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        tensor_list: List[ShardedTensor] = [t for t in tensor_list if t.is_sharded]
--- a/colossalai/zero/shard_utils/tensor_shard_strategy.py
+++ b/colossalai/zero/shard_utils/tensor_shard_strategy.py
@ -9,6 +9,8 @@ from colossalai.zero.sharded_param.sharded_tensor import ShardedTensor


 class TensorShardStrategy(BaseShardStrategy):
+    """A naive implementation which shard each tensor evenly over all ranks
+    """

    def shard(self, tensor_list: List[ShardedTensor], process_group: Optional[dist.ProcessGroup] = None):
        for t in tensor_list:
--- a/colossalai/zero/sharded_model/sharded_model_v2.py
+++ b/colossalai/zero/sharded_model/sharded_model_v2.py
@ -1,6 +1,6 @@
 import functools
 from collections import OrderedDict
-from typing import Any, Optional, Type
+from typing import Any, Optional

 import torch
 import torch.distributed as dist
@ -16,7 +16,6 @@ from colossalai.utils.memory_tracer.allocator import col_move_to_cpu
 from colossalai.utils.memory_tracer.memstats_collector import MemStatsCollector
 from colossalai.zero.shard_utils import BaseShardStrategy
 from colossalai.zero.sharded_model.reduce_scatter import ReduceScatterBucketer
-from colossalai.zero.sharded_param import ShardedParamV2
 from torch.distributed import ProcessGroup
 from torch.nn.parameter import Parameter

@ -25,10 +24,34 @@ from ._zero3_utils import (cast_float_arguments, cast_tensor_to_fp16, cast_tenso


 class ShardedModelV2(nn.Module):
+    """A wrapper for a sharded module, which implements Zero Redundancy Optimizer (ZeRO) stage 3.
+    Parameter, gradient and optimizer states are sharded, so memory efficiency is boosted drastically 
+    compared to classic data parallelism while the computational granularity and communication efficiency are retained.
+    Note that you must use `ShardedModelV2` with `ShardedOptimizerV2`.
+
+    :param module: A sharded module, which must be initialized by `ZeroInitContext`.
+    :type module: nn.Module
+    :param shard_strategy: A shard strategy to manage shard behavior.
+    :type shard_strategy: BaseShardStrategy
+    :param process_group: Data parallel process group, defaults to None
+    :type process_group: Optional[ProcessGroup], optional
+    :param reduce_scatter_process_group: Reduce-scatter process group, defaults to None. Generally, it should be `None`.
+    :type reduce_scatter_process_group: Optional[ProcessGroup], optional
+    :param reduce_scatter_bucket_size_mb: Reduce-scatter bucket size in *MB*, defaults to 25
+    :type reduce_scatter_bucket_size_mb: int, optional
+    :param fp32_reduce_scatter: If set to `True`, gradients are forced to FP32 before reduce-scatter, defaults to False
+    :type fp32_reduce_scatter: bool, optional
+    :param offload_config: We currently only support CPU offload. Set to `{"device": "cpu"}` to enable CPU offload, defaults to None
+    :type offload_config: Optional[dict], optional
+    :param gradient_predivide_factor: Gradient is divived by this value before reduce-scatter, defaults to 1.0
+    :type gradient_predivide_factor: Optional[float], optional
+    :param use_memory_tracer: Whether to use memoty tracer, defaults to False
+    :type use_memory_tracer: bool, optional
+    """

    def __init__(self,
                 module: nn.Module,
-                 shard_strategy: Type[BaseShardStrategy],
+                 shard_strategy: BaseShardStrategy,
                 process_group: Optional[ProcessGroup] = None,
                 reduce_scatter_process_group: Optional[ProcessGroup] = None,
                 reduce_scatter_bucket_size_mb: int = 25,
@ -36,10 +59,6 @@ class ShardedModelV2(nn.Module):
                 offload_config: Optional[dict] = None,
                 gradient_predivide_factor: Optional[float] = 1.0,
                 use_memory_tracer: bool = False):
-        r"""
-        A demo to reconfigure zero1 shared_model.
-        Currently do not consider the Optimizer States.
-        """
        super().__init__()
        self.logger = get_dist_logger()

--- a/colossalai/zero/sharded_optim/sharded_optim_v2.py
+++ b/colossalai/zero/sharded_optim/sharded_optim_v2.py
@ -25,6 +25,46 @@ class OptimState(Enum):


 class ShardedOptimizerV2(ColossalaiOptimizer):
+    """A wrapper for optimizer. `ShardedOptimizerV2` and `ShardedModelV2` implement Zero Redundancy Optimizer (ZeRO) stage 3.
+    You must use `ShardedOptimizerV2` with `ShardedModelV2`.
+
+    :param sharded_model: A sharded model initialized by class ShardedModelV2. The optimizer will use the
+    shard strategy provided by sharded model to shard param fp32 tensors.
+    :type sharded_model: sharded_model
+
+    :param optimizer: A Optimizer instance.
+    :type optimizer: Optimizer
+
+    :param cpu_offload: is offloading the optimizer states to CPU.
+    :type cpu_offload: bool
+
+    :param initial_scale: initial scale used by DynamicGradScaler
+    :type initial_scale: float
+
+    :param min_scale: min scale used by DynamicGradScaler
+    :type min_scale: float
+
+    :param growth_factor: growth_factor used by DynamicGradScaler
+    :type growth_factor: float
+
+    :param backoff_factor: backoff_factor used by DynamicGradScaler
+    :type backoff_factor: float
+
+    :param growth_interval: growth_interval used by DynamicGradScaler
+    :type growth_interval: float
+
+    :param hysteresis: hysteresis used by DynamicGradScaler
+    :type hysteresis: float
+
+    :param max_scale: max_scale used by DynamicGradScaler
+    :type max_scale: float
+
+    :param dp_process_group: data paralle process group
+    :type dp_process_group: Optional[ProcessGroup]
+
+    :param mp_process_group: model paralle process group
+    :type mp_process_group: Optional[ProcessGroup]
+        """

    def __init__(self,
                 sharded_model: ShardedModelV2,
@ -39,47 +79,6 @@ class ShardedOptimizerV2(ColossalaiOptimizer):
                 max_scale: int = 2**32,
                 dp_process_group: Optional[ProcessGroup] = None,
                 mp_process_group: Optional[ProcessGroup] = None) -> None:
-        """
-        :param sharded_model: A sharded model initialized by class ShardedModelV2. The optimizer will use the
-        shard strategy provided by sharded model to shard param fp32 tensors.
-        :type sharded_model: sharded_model
-
-        :param optimizer_class: A class type of Optimizer
-        :type optimizer_class: Type[Optimizer]
-
-        :param cpu_offload: is offloading the optimizer states to CPU.
-        :type cpu_offload: bool
-
-        :param initial_scale: initial scale used by DynamicGradScaler
-        :type initial_scale: float
-
-        :param min_scale: min scale used by DynamicGradScaler
-        :type min_scale: float
-
-        :param growth_factor: growth_factor used by DynamicGradScaler
-        :type growth_factor: float
-
-        :param backoff_factor: backoff_factor used by DynamicGradScaler
-        :type backoff_factor: float
-
-        :param growth_interval: growth_interval used by DynamicGradScaler
-        :type growth_interval: float
-
-        :param hysteresis: hysteresis used by DynamicGradScaler
-        :type hysteresis: float
-
-        :param max_scale: max_scale used by DynamicGradScaler
-        :type max_scale: float
-
-        :param dp_process_group: data paralle process group
-        :type dp_process_group: Optional[ProcessGroup]
-
-        :param mp_process_group: model paralle process group
-        :type mp_process_group: Optional[ProcessGroup]
-
-        :**defaults: any trailing arguments, which are forwarded to the local optimizer.
-        :type defaults: dict()
-        """
        assert isinstance(sharded_model, ShardedModelV2), 'model must be wrapped with ShardedModel'

        super().__init__(optimizer)