ColossalAI/colossalai/zero/utils/zero_hook_v2.py

import torch
from colossalai.tensor.param_op_hook import ParamOpHook
from colossalai.tensor.chunk import ChunkManager, TensorState
from enum import Enum
from typing import List
from contextlib import contextmanager
from functools import partial


class TrainingPhase(Enum):
    FORWARD = 0
    BACKWARD = 1


class ZeROHookV2(ParamOpHook):

    def __init__(self, chunk_manager: ChunkManager) -> None:
        super().__init__()
        self._chunk_manager = chunk_manager
        self._training_phase = TrainingPhase.FORWARD

    def pre_op(self, params):
        chunks = self._chunk_manager.get_chunks(params)
        for p in params:
            self._chunk_manager.trans_tensor_state(p, TensorState.COMPUTE)
        self._chunk_manager.exec_lazy_release()
        # TODO: evict chunks
        for chunk in chunks:
            self._chunk_manager.access_chunk(chunk)

    def post_op(self, params):
        for p in params:
            tensor_state = TensorState.HOLD if self._training_phase == TrainingPhase.FORWARD or not p.requires_grad else TensorState.HOLD_AFTER_BWD
            self._chunk_manager.trans_tensor_state(p, tensor_state)
        self._chunk_manager.add_lazy_release_tensors(params)

    def pre_forward(self, params: List[torch.Tensor]) -> None:
        self.pre_op(params)

    def post_forward(self, params: List[torch.Tensor]) -> None:
        self.post_op(params)

    def pre_backward(self, params: List[torch.Tensor]) -> None:
        self.pre_op(params)

    def post_backward(self, params: List[torch.Tensor]) -> None:
        self.post_op(params)

    @contextmanager
    def switch_training_phase(self, training_phase: TrainingPhase = TrainingPhase.BACKWARD):
        try:
            old_training_phase = self._training_phase
            self._training_phase = training_phase
            yield
        finally:
            self._training_phase = old_training_phase

    switch_to_backward = switch_training_phase
    switch_to_forward = partial(switch_to_backward, training_phase=TrainingPhase.FORWARD)
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`import torch`
[zero] add zero optimizer for ColoTensor (#1046) * add zero optimizer * torch ok * unit test ok * polish code * fix bugs * polish unit test * polish zero optim * polish colo ddp v2 * refactor folder structure * add comment * polish unit test * polish zero optim * polish unit test 2022-06-02 04:13:15 +00:00			`from colossalai.tensor.param_op_hook import ParamOpHook`
			`from colossalai.tensor.chunk import ChunkManager, TensorState`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`from enum import Enum`
			`from typing import List`
			`from contextlib import contextmanager`
			`from functools import partial`


			`class TrainingPhase(Enum):`
			`FORWARD = 0`
			`BACKWARD = 1`


			`class ZeROHookV2(ParamOpHook):`

			`def __init__(self, chunk_manager: ChunkManager) -> None:`
			`super().__init__()`
			`self._chunk_manager = chunk_manager`
			`self._training_phase = TrainingPhase.FORWARD`

			`def pre_op(self, params):`
[tensor] refactor chunk mgr and impl MemStatsCollectorV2 (#1077) * polish chunk manager * polish unit test * impl add_extern_static_tensor for chunk mgr * add mem stats collector v2 * polish code * polish unit test * polish code * polish get chunks 2022-06-09 12:56:34 +00:00			`chunks = self._chunk_manager.get_chunks(params)`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00			`for p in params:`
			`self._chunk_manager.trans_tensor_state(p, TensorState.COMPUTE)`
			`self._chunk_manager.exec_lazy_release()`
			`# TODO: evict chunks`
[tensor] refactor chunk mgr and impl MemStatsCollectorV2 (#1077) * polish chunk manager * polish unit test * impl add_extern_static_tensor for chunk mgr * add mem stats collector v2 * polish code * polish unit test * polish code * polish get chunks 2022-06-09 12:56:34 +00:00			`for chunk in chunks:`
			`self._chunk_manager.access_chunk(chunk)`
[tensor] ColoTensor supports ZeRo (#1015) * impl chunk manager * impl param op hook * add reduce_chunk * add zero hook v2 * add zero dp * fix TensorInfo * impl load balancing when using zero without chunk * fix zero hook * polish chunk * fix bugs * ddp ok * zero ok * polish code * fix bugs about load balancing * polish code * polish code * add ene-to-end test * polish code * polish code * polish code * fix typo * add test_chunk * fix bugs * fix bugs * polish code 2022-05-31 04:00:12 +00:00
			`def post_op(self, params):`
			`for p in params:`
			`tensor_state = TensorState.HOLD if self._training_phase == TrainingPhase.FORWARD or not p.requires_grad else TensorState.HOLD_AFTER_BWD`
			`self._chunk_manager.trans_tensor_state(p, tensor_state)`
			`self._chunk_manager.add_lazy_release_tensors(params)`

			`def pre_forward(self, params: List[torch.Tensor]) -> None:`
			`self.pre_op(params)`

			`def post_forward(self, params: List[torch.Tensor]) -> None:`
			`self.post_op(params)`

			`def pre_backward(self, params: List[torch.Tensor]) -> None:`
			`self.pre_op(params)`

			`def post_backward(self, params: List[torch.Tensor]) -> None:`
			`self.post_op(params)`

			`@contextmanager`
			`def switch_training_phase(self, training_phase: TrainingPhase = TrainingPhase.BACKWARD):`
			`try:`
			`old_training_phase = self._training_phase`
			`self._training_phase = training_phase`
			`yield`
			`finally:`
			`self._training_phase = old_training_phase`

			`switch_to_backward = switch_training_phase`
			`switch_to_forward = partial(switch_to_backward, training_phase=TrainingPhase.FORWARD)`