ColossalAI/colossalai/tensor/param_op_hook.py

from abc import ABC, abstractmethod
from contextlib import contextmanager
from typing import Any, List, Tuple

import torch

from colossalai.tensor.colo_tensor import ColoTensor
from colossalai.tensor.tensor_spec import ColoTensorSpec


class ColoParamOpHook(ABC):
    """
    Hook which is triggered by each operation when operands contain ColoParameter.
    To customize it, you must inherit this abstract class, and implement ``pre_forward``,
    ``post_forward``, ``pre_backward`` and ``post_backward``.
    These four methods apply a list of ColoParameter as input args.
    """

    @abstractmethod
    def pre_forward(self, params: List[torch.Tensor]) -> None:
        pass

    @abstractmethod
    def post_forward(self, params: List[torch.Tensor]) -> None:
        pass

    @abstractmethod
    def pre_backward(self, params: List[torch.Tensor]) -> None:
        pass

    @abstractmethod
    def post_backward(self, params: List[torch.Tensor]) -> None:
        pass


class ColoParamOpHookManager:
    """
    Manage your param op hooks. It only has static methods.
    The only static method you should call is ``use_hooks(*hooks)``.
    """
    hooks: Tuple[ColoParamOpHook, ...] = tuple()

    @staticmethod
    @contextmanager
    def use_hooks(*hooks: ColoParamOpHook):
        """Change the param op hooks you use. Nested calling is allowed.

        Example:
            >>> with ColoParamOpHookManager.use_hooks(*hooks):
            >>>     do_something()
            >>>     with ColoParamOpHookManager.use_hooks():
            >>>         // clear hooks
            >>>         do_something()
        """
        try:
            old_param_op_hooks = ColoParamOpHookManager.hooks
            ColoParamOpHookManager.hooks = hooks
            yield
        finally:
            ColoParamOpHookManager.hooks = old_param_op_hooks

    @staticmethod
    def _trigger_pre_forward(params: List[torch.Tensor]) -> None:
        for hook in ColoParamOpHookManager.hooks:
            hook.pre_forward(params)

    @staticmethod
    def _trigger_post_forward(params: List[torch.Tensor]) -> None:
        for hook in ColoParamOpHookManager.hooks:
            hook.post_forward(params)

    @staticmethod
    def _trigger_pre_backward(params: List[torch.Tensor]) -> None:
        for hook in ColoParamOpHookManager.hooks:
            hook.pre_backward(params)

    @staticmethod
    def _trigger_post_backward(params: List[torch.Tensor]) -> None:
        for hook in ColoParamOpHookManager.hooks:
            hook.post_backward(params)

    @staticmethod
    def pre_op(params: List[torch.Tensor], *args: Any) -> list:
        ColoParamOpHookManager._trigger_pre_forward(params)
        grad_args, rear_args = _get_grad_args(*args)
        colo_info = _get_colo_tensors_info(*grad_args)
        rets = PreFwdPostBwd.apply(params, *grad_args)
        update_args = _update_colo_tensors(colo_info, *rets)
        if rear_args is None:
            return update_args
        else:
            arg_zero = (tuple(update_args),)
            return arg_zero + rear_args

    @staticmethod
    def post_op(params: List[torch.Tensor], arg: Any) -> Any:
        ColoParamOpHookManager._trigger_post_forward(params)
        colo_info = _get_colo_tensors_info(arg)
        ret = PostFwdPreBwd.apply(params, arg)
        res = _update_colo_tensors(colo_info, ret)
        if len(res) == 1:
            return res[0]
        else:
            return res

    @staticmethod
    def has_hook() -> bool:
        return len(ColoParamOpHookManager.hooks) > 0


class PreFwdPostBwd(torch.autograd.Function):

    @staticmethod
    def forward(ctx, params, *args):
        ctx.params = params
        return args

    @staticmethod
    def backward(ctx, *grads):
        ColoParamOpHookManager._trigger_post_backward(ctx.params)
        return (None,) + grads


class PostFwdPreBwd(torch.autograd.Function):

    @staticmethod
    def forward(ctx, params, args):
        ctx.params = params
        return args

    @staticmethod
    def backward(ctx, *grads):
        ColoParamOpHookManager._trigger_pre_backward(ctx.params)
        return (None,) + grads


def _is_grad_tensor(obj) -> bool:
    if torch.is_tensor(obj):
        if obj.grad_fn is not None or obj.requires_grad:
            return True
    return False


def _has_grad_tensor(obj) -> bool:
    if isinstance(obj, tuple) or isinstance(obj, list):
        for x in obj:
            if _has_grad_tensor(x):
                return True
        return False
    elif isinstance(obj, dict):
        for x in obj.values():
            if _has_grad_tensor(x):
                return True
        return False
    else:
        return _is_grad_tensor(obj)


def _get_grad_args(*args):
    # if there is no grad tensors, do nothing
    if not _has_grad_tensor(args):
        return args, None
    # returns the identical args if there is a grad tensor
    for obj in args:
        if _is_grad_tensor(obj):
            return args, None
    # otherwise, the first arguement should be a tuple of grad tensors
    # if there is no grad tensor, the backward of PreFwdPostBwd can't be triggered
    arg_zero = args[0]
    if not isinstance(arg_zero, tuple):
        raise NotImplementedError("Some torch function is incompatible because of its complcated inputs.")
    check_grad_flag = False
    for obj in arg_zero:
        check_grad_flag |= _is_grad_tensor(obj)
    if not check_grad_flag:
        raise NotImplementedError("Some torch function is incompatible because of its complcated inputs.")
    return arg_zero, args[1:]


def _get_colo_tensors_info(*args) -> list:
    info = []
    for arg in args:
        if isinstance(arg, ColoTensor):
            info.append((arg.__class__, ColoTensorSpec(arg.get_process_group(), arg.dist_spec, arg.compute_spec)))
        else:
            info.append(None)
    return info


def _update_colo_tensors(info, *args) -> list:
    ret = []
    for t_info, arg in zip(info, args):
        if t_info is not None:
            t_cls, spec = t_info
            arg = t_cls.from_torch_tensor(arg, spec=spec)
        ret.append(arg)
    return ret
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`from abc import ABC, abstractmethod`
[autoparallel] fix bugs caused by negative dim key (#1808) * [autoparallel] fix bugs caused by negative dim key * fix import error * fix matmul test issue * fix unit test issue 2022-11-08 09:03:50 +00:00			`from contextlib import contextmanager`
			`from typing import Any, List, Tuple`

			`import torch`

[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00			`from colossalai.tensor.colo_tensor import ColoTensor`
[autoparallel] fix bugs caused by negative dim key (#1808) * [autoparallel] fix bugs caused by negative dim key * fix import error * fix matmul test issue * fix unit test issue 2022-11-08 09:03:50 +00:00			`from colossalai.tensor.tensor_spec import ColoTensorSpec`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00

[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`class ColoParamOpHook(ABC):`
[NFC] polish comments for Chunk class (#2116) 2022-12-12 07:39:31 +00:00			`"""`
			`Hook which is triggered by each operation when operands contain ColoParameter.`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			To customize it, you must inherit this abstract class, and implement ``pre_forward``,
[NFC] polish comments for Chunk class (#2116) 2022-12-12 07:39:31 +00:00			``post_forward``, ``pre_backward`` and ``post_backward``.
			`These four methods apply a list of ColoParameter as input args.`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`"""`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00
			`@abstractmethod`
			`def pre_forward(self, params: List[torch.Tensor]) -> None:`
			`pass`

			`@abstractmethod`
			`def post_forward(self, params: List[torch.Tensor]) -> None:`
			`pass`

			`@abstractmethod`
			`def pre_backward(self, params: List[torch.Tensor]) -> None:`
			`pass`

			`@abstractmethod`
			`def post_backward(self, params: List[torch.Tensor]) -> None:`
			`pass`


[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`class ColoParamOpHookManager:`
[NFC] polish comments for Chunk class (#2116) 2022-12-12 07:39:31 +00:00			`"""`
			`Manage your param op hooks. It only has static methods.`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			The only static method you should call is ``use_hooks(*hooks)``.
			`"""`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`hooks: Tuple[ColoParamOpHook, ...] = tuple()`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`@staticmethod`
			`@contextmanager`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`def use_hooks(*hooks: ColoParamOpHook):`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`"""Change the param op hooks you use. Nested calling is allowed.`

[doc] update rst and docstring (#1351) * update rst * add zero docstr * fix docstr * remove fx.tracer.meta_patch * fix docstr * fix docstr * update fx rst * fix fx docstr * remove useless rst 2022-07-21 07:54:53 +00:00			`Example:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`>>> with ColoParamOpHookManager.use_hooks(*hooks):`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`>>> do_something()`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`>>> with ColoParamOpHookManager.use_hooks():`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`>>> // clear hooks`
			`>>> do_something()`
			`"""`
			`try:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`old_param_op_hooks = ColoParamOpHookManager.hooks`
			`ColoParamOpHookManager.hooks = hooks`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`yield`
			`finally:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`ColoParamOpHookManager.hooks = old_param_op_hooks`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00
			`@staticmethod`
			`def _trigger_pre_forward(params: List[torch.Tensor]) -> None:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`for hook in ColoParamOpHookManager.hooks:`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`hook.pre_forward(params)`

			`@staticmethod`
			`def _trigger_post_forward(params: List[torch.Tensor]) -> None:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`for hook in ColoParamOpHookManager.hooks:`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`hook.post_forward(params)`

			`@staticmethod`
			`def _trigger_pre_backward(params: List[torch.Tensor]) -> None:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`for hook in ColoParamOpHookManager.hooks:`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`hook.pre_backward(params)`

			`@staticmethod`
			`def _trigger_post_backward(params: List[torch.Tensor]) -> None:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`for hook in ColoParamOpHookManager.hooks:`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00			`hook.post_backward(params)`

			`@staticmethod`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00			`def pre_op(params: List[torch.Tensor], *args: Any) -> list:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`ColoParamOpHookManager._trigger_pre_forward(params)`
[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`grad_args, rear_args = _get_grad_args(*args)`
			`colo_info = _get_colo_tensors_info(*grad_args)`
			`rets = PreFwdPostBwd.apply(params, *grad_args)`
			`update_args = _update_colo_tensors(colo_info, *rets)`
			`if rear_args is None:`
			`return update_args`
			`else:`
			`arg_zero = (tuple(update_args),)`
			`return arg_zero + rear_args`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00
			`@staticmethod`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00			`def post_op(params: List[torch.Tensor], arg: Any) -> Any:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`ColoParamOpHookManager._trigger_post_forward(params)`
[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`colo_info = _get_colo_tensors_info(arg)`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00			`ret = PostFwdPreBwd.apply(params, arg)`
[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`res = _update_colo_tensors(colo_info, ret)`
			`if len(res) == 1:`
			`return res[0]`
			`else:`
			`return res`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00
			`@staticmethod`
			`def has_hook() -> bool:`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`return len(ColoParamOpHookManager.hooks) > 0`
[tensor] refactor param op hook (#1097) * refactor param op hook * add docstr * fix bug 2022-06-13 08:11:53 +00:00
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00
			`class PreFwdPostBwd(torch.autograd.Function):`

			`@staticmethod`
			`def forward(ctx, params, *args):`
			`ctx.params = params`
[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`return args`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00
			`@staticmethod`
			`def backward(ctx, *grads):`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`ColoParamOpHookManager._trigger_post_backward(ctx.params)`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`return (None,) + grads`


			`class PostFwdPreBwd(torch.autograd.Function):`

			`@staticmethod`
			`def forward(ctx, params, args):`
			`ctx.params = params`
			`return args`

			`@staticmethod`
			`def backward(ctx, *grads):`
[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`ColoParamOpHookManager._trigger_pre_backward(ctx.params)`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`return (None,) + grads`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00

[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`def _is_grad_tensor(obj) -> bool:`
			`if torch.is_tensor(obj):`
			`if obj.grad_fn is not None or obj.requires_grad:`
			`return True`
			`return False`


[hotfix] fix implement error in diffusers 2023-01-06 10:37:18 +00:00			`def _has_grad_tensor(obj) -> bool:`
			`if isinstance(obj, tuple) or isinstance(obj, list):`
			`for x in obj:`
			`if _has_grad_tensor(x):`
			`return True`
			`return False`
			`elif isinstance(obj, dict):`
			`for x in obj.values():`
			`if _has_grad_tensor(x):`
			`return True`
			`return False`
			`else:`
			`return _is_grad_tensor(obj)`


[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`def _get_grad_args(*args):`
[hotfix] fix implement error in diffusers 2023-01-06 10:37:18 +00:00			`# if there is no grad tensors, do nothing`
			`if not _has_grad_tensor(args):`
			`return args, None`
[zero] fix error for BEiT models (#2169) * [zero] fix error for BEiT models * [ColoParameter] add unpack operation for tuple arguments * fix bugs * fix chunkv2 unit testing * add assertion for gradient state 2022-12-26 07:03:54 +00:00			`# returns the identical args if there is a grad tensor`
			`for obj in args:`
			`if _is_grad_tensor(obj):`
			`return args, None`
			`# otherwise, the first arguement should be a tuple of grad tensors`
			`# if there is no grad tensor, the backward of PreFwdPostBwd can't be triggered`
			`arg_zero = args[0]`
			`if not isinstance(arg_zero, tuple):`
			`raise NotImplementedError("Some torch function is incompatible because of its complcated inputs.")`
			`check_grad_flag = False`
			`for obj in arg_zero:`
			`check_grad_flag \|= _is_grad_tensor(obj)`
			`if not check_grad_flag:`
			`raise NotImplementedError("Some torch function is incompatible because of its complcated inputs.")`
			`return arg_zero, args[1:]`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00

			`def _get_colo_tensors_info(*args) -> list:`
			`info = []`
			`for arg in args:`
			`if isinstance(arg, ColoTensor):`
[refactor] move process group from _DistSpec to ColoTensor. (#1203) 2022-07-06 08:15:16 +00:00			`info.append((arg.__class__, ColoTensorSpec(arg.get_process_group(), arg.dist_spec, arg.compute_spec)))`
[hotfix] fix param op hook (#1131) * fix param op hook * update zero tp test * fix bugs 2022-06-17 08:12:05 +00:00			`else:`
			`info.append(None)`
			`return info`


			`def _update_colo_tensors(info, *args) -> list:`
			`ret = []`
			`for t_info, arg in zip(info, args):`
			`if t_info is not None:`
			`t_cls, spec = t_info`
			`arg = t_cls.from_torch_tensor(arg, spec=spec)`
			`ret.append(arg)`
			`return ret`