ColossalAI/colossalai/zero/legacy/gemini/ophooks/runtime_mem_tracer_hook.py

from contextlib import contextmanager
from enum import Enum
from functools import partial
from typing import List

import torch

from colossalai.tensor.param_op_hook import ColoParamOpHook
from colossalai.zero.gemini.memory_tracer import MemStats, SyncCudaMemoryMonitor
from colossalai.zero.legacy.gemini.tensor_utils import alloc_storage, free_storage


class TrainingPhase(Enum):
    FORWARD = 0
    BACKWARD = 1


class GradMemStats():

    def __init__(self) -> None:
        self.unreleased_grad_flag = {}
        self.unreleased_grad_volume = 0

    def clear(self):
        self.unreleased_grad_flag.clear()
        self.unreleased_grad_volume = 0


class GradMemTracerHook():

    def __init__(self, grad_stats: GradMemStats):
        self.grad_hook_list = []
        self._grad_stats = grad_stats

    def grad_handle(self, p, grad):
        assert self._grad_stats.unreleased_grad_flag[p]
        free_storage(grad)
        self._grad_stats.unreleased_grad_volume -= grad.numel() * grad.element_size()
        self._grad_stats.unreleased_grad_flag[p] = False

    def register_grad_hook(self, module: torch.nn.Module):
        for p in module.parameters():
            if p.requires_grad:
                self.grad_hook_list.append(p.register_hook(partial(self.grad_handle, p)))
                self._grad_stats.unreleased_grad_flag[p] = False

    def remove_grad_hook(self):
        for hook in self.grad_hook_list:
            hook.remove()


class ParamMemTracerHook(ColoParamOpHook):

    def __init__(self, memstats: MemStats, gradstats: GradMemStats) -> None:
        super().__init__()
        self._training_phase = TrainingPhase.FORWARD
        self._memstats = memstats
        self._grad_stats = gradstats
        self.mem_monitor = SyncCudaMemoryMonitor()

    def _free_cuda_params(self, params):
        for p in params:
            if p.data.device.type == "cpu":
                raise NotImplementedError("Only free cuda memory")
            free_storage(p.data)

    def _allocate_params_on_cuda(self, params: List[torch.nn.Parameter]):
        """
        move params to cuda

        Args:
            params (List[torch.nn.Parameter]): target params

        Raises:
            NotImplementedError: raise error when param has cpu grad
        """
        for p in params:
            cur_dev = p.data.device.type
            if cur_dev == "cpu":
                if p.grad is not None and p.grad.device.type == "cpu":
                    raise NotImplementedError("Only run in forward propagation")
                p.data = torch.empty(p.data.shape,
                                     device="cuda",
                                     dtype=p.data.dtype,
                                     requires_grad=p.data.requires_grad)
            elif cur_dev == "cuda":
                alloc_storage(p.data)

    def record_model_data_volume(self, params):
        """
        get cuda model data used by params
        """
        data_volume = self._grad_stats.unreleased_grad_volume
        for p in params:
            cur_model_data_volume = p.data.numel() * p.data.element_size()
            data_volume += cur_model_data_volume
            if self._training_phase == TrainingPhase.BACKWARD and p.requires_grad:
                # add param.grad, actually param.grad is None in this time
                data_volume += cur_model_data_volume
                if not self._grad_stats.unreleased_grad_flag[p]:
                    self._grad_stats.unreleased_grad_volume += cur_model_data_volume
                    self._grad_stats.unreleased_grad_flag[p] = True
        # record max non model data used for this Op
        self._memstats.record_max_cuda_model_data(data_volume)

    def pre_op(self, params):
        max_cuda_used_pre_op = self.mem_monitor.finish()
        # record max cuda overall data for prev OP.
        self._memstats.record_max_cuda_overall_data(max_cuda_used_pre_op)
        # record max cuda non model data for prev OP.
        self._memstats.calc_max_cuda_non_model_data()

        self._allocate_params_on_cuda(params)
        # record max cuda  model data for current OP
        self.record_model_data_volume(params)

        self.mem_monitor.start()
        self._memstats.increase_preop_step(params)

    def post_op(self, params):
        self._free_cuda_params(params)

    def pre_forward(self, params: List[torch.Tensor]) -> None:
        self.pre_op(params)

    def post_forward(self, params: List[torch.Tensor]) -> None:
        self.post_op(params)

    def pre_backward(self, params: List[torch.Tensor]) -> None:
        self.pre_op(params)

    def post_backward(self, params: List[torch.Tensor]) -> None:
        self.post_op(params)

    @contextmanager
    def switch_training_phase(self, training_phase: TrainingPhase = TrainingPhase.BACKWARD):
        old_training_phase = self._training_phase
        try:
            self._training_phase = training_phase
            yield
        finally:
            self._training_phase = old_training_phase

    switch_to_backward = switch_training_phase
    switch_to_forward = partial(switch_to_backward, training_phase=TrainingPhase.FORWARD)
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`from contextlib import contextmanager`
			`from enum import Enum`
			`from functools import partial`
			`from typing import List`

			`import torch`

[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`from colossalai.tensor.param_op_hook import ColoParamOpHook`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from colossalai.zero.gemini.memory_tracer import MemStats, SyncCudaMemoryMonitor`
			`from colossalai.zero.legacy.gemini.tensor_utils import alloc_storage, free_storage`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00

			`class TrainingPhase(Enum):`
			`FORWARD = 0`
			`BACKWARD = 1`


[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`class GradMemStats():`

			`def __init__(self) -> None:`
			`self.unreleased_grad_flag = {}`
			`self.unreleased_grad_volume = 0`

			`def clear(self):`
			`self.unreleased_grad_flag.clear()`
			`self.unreleased_grad_volume = 0`


[Gemini] rename hooks related to runtime mem tracer (#2076) 2022-12-05 07:00:03 +00:00			`class GradMemTracerHook():`

[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`def __init__(self, grad_stats: GradMemStats):`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`self.grad_hook_list = []`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`self._grad_stats = grad_stats`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00
			`def grad_handle(self, p, grad):`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`assert self._grad_stats.unreleased_grad_flag[p]`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`free_storage(grad)`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`self._grad_stats.unreleased_grad_volume -= grad.numel() * grad.element_size()`
			`self._grad_stats.unreleased_grad_flag[p] = False`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`def register_grad_hook(self, module: torch.nn.Module):`
			`for p in module.parameters():`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`if p.requires_grad:`
			`self.grad_hook_list.append(p.register_hook(partial(self.grad_handle, p)))`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`self._grad_stats.unreleased_grad_flag[p] = False`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00
			`def remove_grad_hook(self):`
			`for hook in self.grad_hook_list:`
			`hook.remove()`


[Gemini] ParamOpHook -> ColoParamOpHook (#2080) 2022-12-05 09:11:06 +00:00			`class ParamMemTracerHook(ColoParamOpHook):`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00
[Gemini] make RuntimeMemTracer work correctly (#2096) 2022-12-07 08:59:59 +00:00			`def __init__(self, memstats: MemStats, gradstats: GradMemStats) -> None:`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`super().__init__()`
			`self._training_phase = TrainingPhase.FORWARD`
[Gemini] use MemStats in Runtime Memory tracer (#2088) 2022-12-06 11:48:20 +00:00			`self._memstats = memstats`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`self._grad_stats = gradstats`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`self.mem_monitor = SyncCudaMemoryMonitor()`

[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`def _free_cuda_params(self, params):`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`for p in params:`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`if p.data.device.type == "cpu":`
			`raise NotImplementedError("Only free cuda memory")`
[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`free_storage(p.data)`

[Gemini] update non model data calculation method (#2126) 2022-12-13 07:44:07 +00:00			`def _allocate_params_on_cuda(self, params: List[torch.nn.Parameter]):`
			`"""`
			`move params to cuda`

			`Args:`
			`params (List[torch.nn.Parameter]): target params`

			`Raises:`
			`NotImplementedError: raise error when param has cpu grad`
			`"""`
[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`for p in params:`
			`cur_dev = p.data.device.type`
			`if cur_dev == "cpu":`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`if p.grad is not None and p.grad.device.type == "cpu":`
			`raise NotImplementedError("Only run in forward propagation")`
[Gemini] rename hooks related to runtime mem tracer (#2076) 2022-12-05 07:00:03 +00:00			`p.data = torch.empty(p.data.shape,`
			`device="cuda",`
			`dtype=p.data.dtype,`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`requires_grad=p.data.requires_grad)`
[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`elif cur_dev == "cuda":`
			`alloc_storage(p.data)`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00
[Gemini] update the non model data record method in runtime memory tracer (#2128) 2022-12-13 09:11:31 +00:00			`def record_model_data_volume(self, params):`
[Gemini] update non model data calculation method (#2126) 2022-12-13 07:44:07 +00:00			`"""`
			`get cuda model data used by params`
			`"""`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`data_volume = self._grad_stats.unreleased_grad_volume`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`for p in params:`
[Gemini] fix grad unreleased issue and param recovery issue (#2052) 2022-12-02 08:04:19 +00:00			`cur_model_data_volume = p.data.numel() * p.data.element_size()`
			`data_volume += cur_model_data_volume`
			`if self._training_phase == TrainingPhase.BACKWARD and p.requires_grad:`
			`# add param.grad, actually param.grad is None in this time`
			`data_volume += cur_model_data_volume`
[Gemini] remove GLOBAL_CUDA_MEM_INFO (#2090) 2022-12-06 14:10:47 +00:00			`if not self._grad_stats.unreleased_grad_flag[p]:`
			`self._grad_stats.unreleased_grad_volume += cur_model_data_volume`
			`self._grad_stats.unreleased_grad_flag[p] = True`
[Gemini] update non model data calculation method (#2126) 2022-12-13 07:44:07 +00:00			`# record max non model data used for this Op`
			`self._memstats.record_max_cuda_model_data(data_volume)`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00
			`def pre_op(self, params):`
[Gemini] update the non model data record method in runtime memory tracer (#2128) 2022-12-13 09:11:31 +00:00			`max_cuda_used_pre_op = self.mem_monitor.finish()`
			`# record max cuda overall data for prev OP.`
			`self._memstats.record_max_cuda_overall_data(max_cuda_used_pre_op)`
			`# record max cuda non model data for prev OP.`
			`self._memstats.calc_max_cuda_non_model_data()`

[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`self._allocate_params_on_cuda(params)`
[Gemini] update the non model data record method in runtime memory tracer (#2128) 2022-12-13 09:11:31 +00:00			`# record max cuda model data for current OP`
			`self.record_model_data_volume(params)`
[Gemini] update non model data calculation method (#2126) 2022-12-13 07:44:07 +00:00
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`self.mem_monitor.start()`
[Gemini] mapping of preop timestep and param (#2124) 2022-12-13 04:50:24 +00:00			`self._memstats.increase_preop_step(params)`
[gemini] get the param visited order during runtime (#2108) 2022-12-09 08:13:03 +00:00
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00			`def post_op(self, params):`
[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`self._free_cuda_params(params)`
[Gemini] paramWrapper paramTracerHook unitest (#2030) 2022-11-26 05:30:24 +00:00
			`def pre_forward(self, params: List[torch.Tensor]) -> None:`
			`self.pre_op(params)`

			`def post_forward(self, params: List[torch.Tensor]) -> None:`
			`self.post_op(params)`

			`def pre_backward(self, params: List[torch.Tensor]) -> None:`
			`self.pre_op(params)`

			`def post_backward(self, params: List[torch.Tensor]) -> None:`
			`self.post_op(params)`

			`@contextmanager`
			`def switch_training_phase(self, training_phase: TrainingPhase = TrainingPhase.BACKWARD):`
			`old_training_phase = self._training_phase`
			`try:`
			`self._training_phase = training_phase`
			`yield`
			`finally:`
			`self._training_phase = old_training_phase`

			`switch_to_backward = switch_training_phase`
[Gemini] more rigorous unit tests for run_fwd_bwd (#2034) 2022-11-29 01:26:06 +00:00			`switch_to_forward = partial(switch_to_backward, training_phase=TrainingPhase.FORWARD)`