ColossalAI/colossalai/legacy/zero/gemini/tensor_utils.py

from typing import Tuple, Union

import torch

from .stateful_tensor import StatefulTensor


def is_storage_empty(tensor: torch.Tensor) -> bool:
    return tensor.storage().size() == 0


def free_storage(tensor: torch.Tensor) -> None:
    if not is_storage_empty(tensor):
        tensor.storage().resize_(0)


def alloc_storage(tensor: torch.Tensor) -> None:
    if is_storage_empty(tensor):
        tensor.storage().resize_(tensor.numel())


def colo_tensor_mem_usage(tensor: Union[torch.Tensor, StatefulTensor]) -> Tuple[int, int]:
    if isinstance(tensor, StatefulTensor):
        t = tensor.payload
    elif isinstance(tensor, torch.Tensor):
        t = tensor
    else:
        return 0, 0

    cuda_use, cpu_use = 0, 0

    mem_use = t.storage().size() * t.element_size()
    if t.device.type == "cuda":
        cuda_use += mem_use
    elif t.device.type == "cpu":
        cpu_use += mem_use

    return cuda_use, cpu_use


def colo_model_data_tensor_move(
    src_t: Union[StatefulTensor, torch.Tensor], tgt_t: Union[StatefulTensor, torch.Tensor]
) -> None:
    """
    A colossal API for model data tensor move.
    The src and target tensors could be resident on both CPU and GPU.

    NOTE() The source tensor payload will be removed after this function.

    The function will record the communication volume between CPU and GPU.
    Args:
        src_t (Union[StatefulTensor, torch.Tensor]): source tensor
        tgt_t (Union[StatefulTensor, torch.Tensor]): target tensor
    """
    if isinstance(src_t, StatefulTensor):
        src_t_payload = src_t.payload
    else:
        src_t_payload = src_t.data
    src_dev = src_t_payload.device

    if isinstance(tgt_t, StatefulTensor):
        tgt_t_payload = tgt_t.payload
    else:
        tgt_t_payload = tgt_t.data

    tgt_t_payload.copy_(src_t_payload)

    # remove payload of src_t
    if isinstance(src_t, StatefulTensor):
        src_t.set_null()
    else:
        src_t.data = torch.empty(0, device=src_dev, dtype=src_t_payload.dtype)


def colo_model_data_tensor_move_inline(
    t: Union[StatefulTensor, torch.Tensor], target_device: Union[torch.device, int]
) -> None:
    """
    move a tensor to the target_device
    Args:
        t (Union[StatefulTensor, torch.Tensor]): the tensor be moved
        target_device: a target device, if type is int, it the index of cuda card.
    """
    if not isinstance(target_device, torch.device):
        target_device = torch.device(f"cuda:{target_device}")

    if isinstance(t, torch.Tensor):
        t.data = t.data.to(target_device)
    elif isinstance(t, StatefulTensor):
        t.move_to(target_device)
    else:
        raise TypeError(f"colo_model_data_tensor_move_inline dose not accept type {type(t)}")


def colo_model_data_move_to_cpu(t: Union[StatefulTensor, torch.Tensor]) -> None:
    """colo_model_data_move_to_cpu
    move a model data tensor from gpu to cpu
    Args:
        t (Union[StatefulTensor, torch.Tensor]): _description_
    """
    # TODO() optimize the tensor moving with non-blocking
    if isinstance(t, torch.Tensor):
        t.data = t.data.cpu()
    elif isinstance(t, StatefulTensor):
        t.move_to(torch.device("cpu"))
    else:
        raise TypeError(f"colo_model_data_move_to_cpu dose not accept type {type(t)}")


def colo_model_tensor_clone(t: Union[StatefulTensor, torch.Tensor], target_device: torch.device) -> torch.Tensor:
    """
    Clone a model data tensor
    Args:
        t (Union[StatefulTensor, torch.Tensor]): a model data tensor
        target_device (torch.device): the target device
    Returns:
        torch.Tensor: a cloned torch tensor
    """
    # TODO() rename this function
    colo_model_data_tensor_move_inline(t, target_device)
    t_payload = t.payload if isinstance(t, StatefulTensor) else t
    return t_payload
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from typing import Tuple, Union`

[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`import torch`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00
			`from .stateful_tensor import StatefulTensor`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00

[Gemini] free and allocate cuda memory by tensor.storage, add grad hook (#2040) 2022-11-30 07:57:45 +00:00			`def is_storage_empty(tensor: torch.Tensor) -> bool:`
			`return tensor.storage().size() == 0`


			`def free_storage(tensor: torch.Tensor) -> None:`
			`if not is_storage_empty(tensor):`
			`tensor.storage().resize_(0)`


			`def alloc_storage(tensor: torch.Tensor) -> None:`
			`if is_storage_empty(tensor):`
			`tensor.storage().resize_(tensor.numel())`


[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`def colo_tensor_mem_usage(tensor: Union[torch.Tensor, StatefulTensor]) -> Tuple[int, int]:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`if isinstance(tensor, StatefulTensor):`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`t = tensor.payload`
			`elif isinstance(tensor, torch.Tensor):`
			`t = tensor`
			`else:`
			`return 0, 0`

			`cuda_use, cpu_use = 0, 0`

[zero] refactor memstats_collector (#746) 2022-04-14 04:01:12 +00:00			`mem_use = t.storage().size() * t.element_size()`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`if t.device.type == "cuda":`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`cuda_use += mem_use`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`elif t.device.type == "cpu":`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`cpu_use += mem_use`

			`return cuda_use, cpu_use`


[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`def colo_model_data_tensor_move(`
			`src_t: Union[StatefulTensor, torch.Tensor], tgt_t: Union[StatefulTensor, torch.Tensor]`
			`) -> None:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`"""`
			`A colossal API for model data tensor move.`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`The src and target tensors could be resident on both CPU and GPU.`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`NOTE() The source tensor payload will be removed after this function.`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`The function will record the communication volume between CPU and GPU.`
			`Args:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`src_t (Union[StatefulTensor, torch.Tensor]): source tensor`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`tgt_t (Union[StatefulTensor, torch.Tensor]): target tensor`
			`"""`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`if isinstance(src_t, StatefulTensor):`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`src_t_payload = src_t.payload`
			`else:`
			`src_t_payload = src_t.data`
			`src_dev = src_t_payload.device`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00
			`if isinstance(tgt_t, StatefulTensor):`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`tgt_t_payload = tgt_t.payload`
			`else:`
			`tgt_t_payload = tgt_t.data`

			`tgt_t_payload.copy_(src_t_payload)`

			`# remove payload of src_t`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`if isinstance(src_t, StatefulTensor):`
			`src_t.set_null()`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`else:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`src_t.data = torch.empty(0, device=src_dev, dtype=src_t_payload.dtype)`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00

[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`def colo_model_data_tensor_move_inline(`
			`t: Union[StatefulTensor, torch.Tensor], target_device: Union[torch.device, int]`
			`) -> None:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`"""`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`move a tensor to the target_device`
			`Args:`
			`t (Union[StatefulTensor, torch.Tensor]): the tensor be moved`
fix typo with colossalai/trainer utils zero (#3908) 2023-06-07 08:08:37 +00:00			`target_device: a target device, if type is int, it the index of cuda card.`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`"""`
			`if not isinstance(target_device, torch.device):`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`target_device = torch.device(f"cuda:{target_device}")`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`if isinstance(t, torch.Tensor):`
			`t.data = t.data.to(target_device)`
			`elif isinstance(t, StatefulTensor):`
			`t.move_to(target_device)`
			`else:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`raise TypeError(f"colo_model_data_tensor_move_inline dose not accept type {type(t)}")`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00

			`def colo_model_data_move_to_cpu(t: Union[StatefulTensor, torch.Tensor]) -> None:`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`"""colo_model_data_move_to_cpu`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00			`move a model data tensor from gpu to cpu`
			`Args:`
			`t (Union[StatefulTensor, torch.Tensor]): _description_`
			`"""`
			`# TODO() optimize the tensor moving with non-blocking`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`if isinstance(t, torch.Tensor):`
			`t.data = t.data.cpu()`
			`elif isinstance(t, StatefulTensor):`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`t.move_to(torch.device("cpu"))`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`else:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`raise TypeError(f"colo_model_data_move_to_cpu dose not accept type {type(t)}")`
[refactor] memory utils (#577) 2022-04-01 01:22:33 +00:00

			`def colo_model_tensor_clone(t: Union[StatefulTensor, torch.Tensor], target_device: torch.device) -> torch.Tensor:`
			`"""`
			`Clone a model data tensor`
			`Args:`
			`t (Union[StatefulTensor, torch.Tensor]): a model data tensor`
			`target_device (torch.device): the target device`
			`Returns:`
			`torch.Tensor: a cloned torch tensor`
			`"""`
[gemini] add GeminiMemoryManger (#832) * refactor StatefulTensor, tensor utilities * add unitest for GeminiMemoryManager 2022-04-24 05:08:48 +00:00			`# TODO() rename this function`
			`colo_model_data_tensor_move_inline(t, target_device)`
			`t_payload = t.payload if isinstance(t, StatefulTensor) else t`
			`return t_payload`