ColossalAI/colossalai/engine/ophooks/__init__.py

from typing import List, Callable, Optional

import torch

from ._base_ophook import BaseOpHook
from ._memtracer_ophook import MemTracerOpHook
from ._shard_grad_ophook import ShardGradHook
from ._shard_param_ophook import ShardParamHook

all = ["BaseOpHook", "MemTracerOpHook", "register_ophooks_recursively", "ShardParamHook", "ShardGradHook"]


# apply torch.autograd.Function that calls a backward_function to tensors in output
def _apply_to_tensors_only(module, functional, backward_function, outputs):
    if type(outputs) is tuple:
        touched_outputs = []
        for output in outputs:
            touched_output = _apply_to_tensors_only(module, functional, backward_function, output)
            touched_outputs.append(touched_output)
        return tuple(touched_outputs)
    elif type(outputs) is torch.Tensor:
        return functional.apply(module, backward_function, outputs)
    else:
        return outputs


class PreBackwardFunction(torch.autograd.Function):

    @staticmethod
    def forward(ctx, module, pre_backward_function, outputs):
        ctx.module = module
        ctx.pre_backward_function = pre_backward_function
        module.applied_pre_backward = False
        outputs = outputs.detach()
        return outputs

    @staticmethod
    def backward(ctx, *args):
        ctx.pre_backward_function(ctx.module)
        return (None, None) + args


class PostBackwardFunction(torch.autograd.Function):

    @staticmethod
    def forward(ctx, module, pre_backward_function, output):
        ctx.module = module
        output = output.detach()
        ctx.pre_backward_function = pre_backward_function
        return output

    @staticmethod
    def backward(ctx, *args):
        """
        Args:
            activation_grad of the next layer.
        Returns:
            grad of the input activation.
        """
        ctx.pre_backward_function(ctx.module)
        return (None, None) + args


def register_ophooks_recursively(module: torch.nn.Module,
                                 ophook_list: List[BaseOpHook] = None,
                                 name: str = "",
                                 filter_fn: Optional[Callable] = None):
    r"""Recursilvely register pre/post hooks for all submodules in the module in FWD and BWD."""
    assert isinstance(module, torch.nn.Module)

    # Add hooks for submodules
    for child_name, child in module.named_children():
        register_ophooks_recursively(child, ophook_list, name + child_name, filter_fn)

    # Early return on modules with no parameters.
    if len(list(module.parameters(recurse=False))) == 0:
        return

    # return from flitered module
    if filter_fn is not None and filter_fn(module):
        return

    if ophook_list is not None:
        for hook in ophook_list:
            assert (isinstance(hook, BaseOpHook))

    def _pre_forward_module_hook(submodule, *args):
        for hook in ophook_list:
            assert isinstance(submodule, torch.nn.Module)
            hook.pre_fwd_exec(submodule, *args)

    def _post_forward_module_hook(submodule, *args):
        for hook in ophook_list:
            assert isinstance(submodule, torch.nn.Module)
            hook.post_fwd_exec(submodule, *args)

    def _pre_backward_module_hook(submodule, inputs, output):

        def _run_before_backward_function(submodule):
            for hook in ophook_list:
                assert isinstance(submodule, torch.nn.Module)
                hook.pre_bwd_exec(submodule, inputs, output)

        return _apply_to_tensors_only(submodule, PreBackwardFunction, _run_before_backward_function, output)

    def _post_backward_module_hook(submodule, inputs):

        def _run_after_backward_function(submodule):
            for hook in ophook_list:
                assert isinstance(submodule, torch.nn.Module)
                hook.post_bwd_exec(submodule, inputs)

        return _apply_to_tensors_only(submodule, PostBackwardFunction, _run_after_backward_function, inputs)

    module.register_forward_pre_hook(_pre_forward_module_hook)
    module.register_forward_hook(_post_forward_module_hook)

    module.register_forward_hook(_pre_backward_module_hook)
    module.register_forward_pre_hook(_post_backward_module_hook)
[zero] adapt zero for unsharded parameters (#561) * support existing sharded and unsharded parameters in zero * add unitest for moe-zero model init * polish moe gradient handler 2022-03-31 10:34:11 +00:00			`from typing import List, Callable, Optional`
[zero] add sharded grad and refactor grad hooks for ShardedModel (#287) 2022-03-02 10:28:29 +00:00
			`import torch`

add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`from ._base_ophook import BaseOpHook`
			`from ._memtracer_ophook import MemTracerOpHook`
[zero] add sharded grad and refactor grad hooks for ShardedModel (#287) 2022-03-02 10:28:29 +00:00			`from ._shard_grad_ophook import ShardGradHook`
Feature/zero (#279) * add zero1 (#209) * add zero1 * add test zero1 * update zero stage 1 develop (#212) * Implement naive zero3 (#240) * naive zero3 works well * add zero3 param manager * add TODOs in comments * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * fix bugs of hook and add unit tests (#252) * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * polish code and add state dict hook * fix bug * update unit test * refactor reconstructed zero code * clip_grad support zero3 and add unit test * add unit test for Zero3ParameterManager * [WIP] initialize the shard param class * [WIP] Yet another sharded model implementation (#274) * [WIP] initialize the shard param class * [WIP] Yes another implementation of shardModel. Using a better hook method. * torch.concat -> torch.cat * fix test_zero_level_1.py::test_zero_level_1 unitest * remove deepspeed implementation and refactor for the reconstructed zero module * polish zero dp unittests Co-authored-by: ver217 <lhx0217@gmail.com> Co-authored-by: Frank Lee <somerlee.9@gmail.com> 2022-03-01 10:17:01 +00:00			`from ._shard_param_ophook import ShardParamHook`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00
[zero] add sharded grad and refactor grad hooks for ShardedModel (#287) 2022-03-02 10:28:29 +00:00			`all = ["BaseOpHook", "MemTracerOpHook", "register_ophooks_recursively", "ShardParamHook", "ShardGradHook"]`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00

			`# apply torch.autograd.Function that calls a backward_function to tensors in output`
			`def _apply_to_tensors_only(module, functional, backward_function, outputs):`
			`if type(outputs) is tuple:`
			`touched_outputs = []`
			`for output in outputs:`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`touched_output = _apply_to_tensors_only(module, functional, backward_function, output)`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`touched_outputs.append(touched_output)`
			`return tuple(touched_outputs)`
			`elif type(outputs) is torch.Tensor:`
			`return functional.apply(module, backward_function, outputs)`
			`else:`
			`return outputs`


			`class PreBackwardFunction(torch.autograd.Function):`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`@staticmethod`
			`def forward(ctx, module, pre_backward_function, outputs):`
			`ctx.module = module`
			`ctx.pre_backward_function = pre_backward_function`
			`module.applied_pre_backward = False`
			`outputs = outputs.detach()`
			`return outputs`

			`@staticmethod`
			`def backward(ctx, *args):`
			`ctx.pre_backward_function(ctx.module)`
			`return (None, None) + args`


			`class PostBackwardFunction(torch.autograd.Function):`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`@staticmethod`
			`def forward(ctx, module, pre_backward_function, output):`
			`ctx.module = module`
			`output = output.detach()`
			`ctx.pre_backward_function = pre_backward_function`
			`return output`

			`@staticmethod`
			`def backward(ctx, *args):`
			`"""`
			`Args:`
			`activation_grad of the next layer.`
			`Returns:`
			`grad of the input activation.`
			`"""`
			`ctx.pre_backward_function(ctx.module)`
			`return (None, None) + args`


[zero] adapt zero for unsharded parameters (#561) * support existing sharded and unsharded parameters in zero * add unitest for moe-zero model init * polish moe gradient handler 2022-03-31 10:34:11 +00:00			`def register_ophooks_recursively(module: torch.nn.Module,`
			`ophook_list: List[BaseOpHook] = None,`
			`name: str = "",`
			`filter_fn: Optional[Callable] = None):`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`r"""Recursilvely register pre/post hooks for all submodules in the module in FWD and BWD."""`
			`assert isinstance(module, torch.nn.Module)`
[zero] adapt for no-leaf module in zero (#535) only process module's own parameters in Zero context add zero hooks for all modules that contrain parameters gather parameters only belonging to module itself 2022-03-28 09:42:18 +00:00
			`# Add hooks for submodules`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`for child_name, child in module.named_children():`
[zero] adapt zero for unsharded parameters (#561) * support existing sharded and unsharded parameters in zero * add unitest for moe-zero model init * polish moe gradient handler 2022-03-31 10:34:11 +00:00			`register_ophooks_recursively(child, ophook_list, name + child_name, filter_fn)`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00
[zero] adapt for no-leaf module in zero (#535) only process module's own parameters in Zero context add zero hooks for all modules that contrain parameters gather parameters only belonging to module itself 2022-03-28 09:42:18 +00:00			`# Early return on modules with no parameters.`
			`if len(list(module.parameters(recurse=False))) == 0:`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`return`

[zero] adapt zero for unsharded parameters (#561) * support existing sharded and unsharded parameters in zero * add unitest for moe-zero model init * polish moe gradient handler 2022-03-31 10:34:11 +00:00			`# return from flitered module`
			`if filter_fn is not None and filter_fn(module):`
			`return`

add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`if ophook_list is not None:`
			`for hook in ophook_list:`
			`assert (isinstance(hook, BaseOpHook))`

			`def _pre_forward_module_hook(submodule, *args):`
			`for hook in ophook_list:`
			`assert isinstance(submodule, torch.nn.Module)`
			`hook.pre_fwd_exec(submodule, *args)`

			`def _post_forward_module_hook(submodule, *args):`
			`for hook in ophook_list:`
			`assert isinstance(submodule, torch.nn.Module)`
			`hook.post_fwd_exec(submodule, *args)`

			`def _pre_backward_module_hook(submodule, inputs, output):`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`def _run_before_backward_function(submodule):`
			`for hook in ophook_list:`
			`assert isinstance(submodule, torch.nn.Module)`
			`hook.pre_bwd_exec(submodule, inputs, output)`

[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`return _apply_to_tensors_only(submodule, PreBackwardFunction, _run_before_backward_function, output)`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00
			`def _post_backward_module_hook(submodule, inputs):`
[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00			`def _run_after_backward_function(submodule):`
			`for hook in ophook_list:`
			`assert isinstance(submodule, torch.nn.Module)`
			`hook.post_bwd_exec(submodule, inputs)`

[zero] Update sharded model v2 using sharded param v2 (#323) 2022-03-08 10:18:06 +00:00			`return _apply_to_tensors_only(submodule, PostBackwardFunction, _run_after_backward_function, inputs)`
add pytorch hooks (#179) * add pytorch hooks fix #175 * remove licenses in src code * add gpu memory tracer * replacing print with logger in ophooks. 2022-01-25 14:20:54 +00:00
			`module.register_forward_pre_hook(_pre_forward_module_hook)`
			`module.register_forward_hook(_post_forward_module_hook)`

			`module.register_forward_hook(_pre_backward_module_hook)`
			`module.register_forward_pre_hook(_post_backward_module_hook)`