ColossalAI/colossalai/zero/gemini/chunk/utils.py

from time import time
from typing import Optional

import torch
import torch.distributed as dist
import torch.nn as nn

from .manager import ChunkManager
from .search_utils import search_chunk_configuration


def safe_div(a, b):
    if a == 0:
        return 0
    return a / b


def init_chunk_manager(
    model: nn.Module,
    init_device: Optional[torch.device] = None,
    hidden_dim: Optional[int] = None,
    reuse_fp16_chunk: bool = True,
    verbose: bool = False,
    max_prefetch: int = 0,
    **kwargs,
) -> ChunkManager:
    if hidden_dim:
        search_interval = hidden_dim
    else:
        search_interval = 1024  # defaults to 1024
    kwargs["search_interval"] = search_interval

    dist.barrier()
    begin = time()

    config_dict, total_size, wasted_size = search_chunk_configuration(model, **kwargs)

    dist.barrier()
    end = time()
    span_s = end - begin
    mega_unit = 1024**2
    total_size /= mega_unit
    wasted_size /= mega_unit

    if verbose and dist.get_rank() == 0:
        print(
            "searching chunk configuration is completed in {:.2f} s.\n".format(span_s),
            "used number: {:.2f} * 2^20, wasted number: {:.2f} * 2^20\n".format(total_size, wasted_size),
            "total wasted percentage is {:.2f}%".format(100 * safe_div(wasted_size, total_size + wasted_size)),
            sep="",
            flush=True,
        )
    dist.barrier()

    chunk_manager = ChunkManager(config_dict, init_device, reuse_fp16_chunk=reuse_fp16_chunk, max_prefetch=max_prefetch)
    return chunk_manager
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00			`from time import time`
			`from typing import Optional`

			`import torch`
			`import torch.distributed as dist`
			`import torch.nn as nn`

[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2023-04-04 05:48:16 +00:00			`from .manager import ChunkManager`
			`from .search_utils import search_chunk_configuration`

[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00
[zero] add warning for ignored parameters (#2446) 2023-01-11 07:30:09 +00:00			`def safe_div(a, b):`
			`if a == 0:`
			`return 0`
			`return a / b`


[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`def init_chunk_manager(`
			`model: nn.Module,`
			`init_device: Optional[torch.device] = None,`
			`hidden_dim: Optional[int] = None,`
[gemini]remove registered gradients hooks (#5696) * fix gemini fix gemini * fix fix 2024-05-09 02:29:49 +00:00			`reuse_fp16_chunk: bool = True,`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`verbose: bool = False,`
[Gemini] Use async stream to prefetch and h2d data moving (#5781) * use async stream to prefetch and h2d data moving * Remove redundant code 2024-06-12 07:48:52 +00:00			`max_prefetch: int = 0,`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`**kwargs,`
			`) -> ChunkManager:`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00			`if hidden_dim:`
[gemini] fix argument naming during chunk configuration searching 2023-06-25 05:34:15 +00:00			`search_interval = hidden_dim`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00			`else:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`search_interval = 1024 # defaults to 1024`
[gemini] fix argument naming during chunk configuration searching 2023-06-25 05:34:15 +00:00			`kwargs["search_interval"] = search_interval`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00
			`dist.barrier()`
[Gemini] chunk init using runtime visited param order (#2115) 2022-12-12 10:06:16 +00:00			`begin = time()`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00
[gemini] update ddp strict mode (#2518) * [zero] add strict ddp mode for chunk init * [gemini] update gpt example 2023-01-28 06:35:25 +00:00			`config_dict, total_size, wasted_size = search_chunk_configuration(model, **kwargs)`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00
			`dist.barrier()`
			`end = time()`
[Gemini] chunk init using runtime visited param order (#2115) 2022-12-12 10:06:16 +00:00			`span_s = end - begin`
[gemini] fix argument naming during chunk configuration searching 2023-06-25 05:34:15 +00:00			`mega_unit = 1024**2`
			`total_size /= mega_unit`
			`wasted_size /= mega_unit`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00
[misc] add verbose arg for zero and op builder (#3552) * [misc] add print verbose * [gemini] add print verbose * [zero] add print verbose for low level * [misc] add print verbose for op builder 2023-04-17 03:25:35 +00:00			`if verbose and dist.get_rank() == 0:`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 2023-09-19 06:20:26 +00:00			`print(`
			`"searching chunk configuration is completed in {:.2f} s.\n".format(span_s),`
			`"used number: {:.2f} * 2^20, wasted number: {:.2f} * 2^20\n".format(total_size, wasted_size),`
			`"total wasted percentage is {:.2f}%".format(100 * safe_div(wasted_size, total_size + wasted_size)),`
			`sep="",`
			`flush=True,`
			`)`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00			`dist.barrier()`

[Gemini] Use async stream to prefetch and h2d data moving (#5781) * use async stream to prefetch and h2d data moving * Remove redundant code 2024-06-12 07:48:52 +00:00			`chunk_manager = ChunkManager(config_dict, init_device, reuse_fp16_chunk=reuse_fp16_chunk, max_prefetch=max_prefetch)`
[zero] add chunk init function for users (#1729) * add chunk manager init function * fix unit tests * add comment * add flush=True 2022-10-18 08:31:22 +00:00			`return chunk_manager`