ColossalAI/tests/test_checkpoint_io/test_safetensors_async_io.py

import tempfile

import pytest
import torch
from safetensors.torch import load_file

from colossalai.checkpoint_io.utils import create_pinned_state_dict
from colossalai.testing import check_state_dict_equal, clear_cache_before_run
from colossalai.utils import get_current_device
from colossalai.utils.safetensors import load_flat, move_and_save, save, save_nested


def gen_optim_state_dict():
    return {
        "state": {
            0: {
                "step": torch.tensor(1.0),
                "exp_avg": torch.rand((1024, 1024)),
                "exp_avg_sq": torch.rand((1024, 1024)),
            },
            1: {
                "step": torch.tensor(1.0),
                "exp_avg": torch.rand((1024, 1024)),
                "exp_avg_sq": torch.rand((1024, 1024)),
            },
            2: {
                "step": torch.tensor(1.0),
                "exp_avg": torch.rand((1024, 1024)),
                "exp_avg_sq": torch.rand((1024, 1024)),
            },
        },
        "param_groups": [
            {
                "lr": 0.001,
                "betas": (0.9, 0.999),
                "eps": 1e-08,
                "weight_decay": 0,
                "bias_correction": True,
                "params": [
                    0,
                    1,
                    2,
                    3,
                    4,
                    5,
                    6,
                    7,
                    8,
                    9,
                    10,
                    11,
                    12,
                    13,
                    14,
                    15,
                    16,
                    17,
                    18,
                    19,
                    20,
                    21,
                    22,
                    23,
                    24,
                    25,
                    26,
                    27,
                    28,
                    29,
                    30,
                    31,
                    32,
                    33,
                    34,
                    35,
                    36,
                    37,
                    38,
                    39,
                    40,
                    41,
                    42,
                    43,
                    44,
                    45,
                    46,
                    47,
                    48,
                    49,
                    50,
                    51,
                    52,
                    53,
                    54,
                    55,
                    56,
                    57,
                    58,
                    59,
                    60,
                    61,
                ],
            }
        ],
    }


def gen_model_state_dict():
    return {
        "module.weight0": torch.rand((1024, 1024)),
        "module.weight1": torch.rand((1024, 1024)),
        "module.weight2": torch.rand((1024, 1024)),
    }


@pytest.mark.parametrize("empty", [True, False])
@pytest.mark.parametrize("num_threads", [1, 4])
def test_create_pin(empty: bool, num_threads: int):
    model_state_dict = gen_model_state_dict()
    model_state_dict_pinned = create_pinned_state_dict(model_state_dict, empty=empty, num_threads=num_threads)
    for k in model_state_dict.keys():
        assert model_state_dict_pinned[k].is_pinned()
        if not empty:
            assert torch.equal(model_state_dict_pinned[k], model_state_dict[k])
    optim_state_dict = gen_optim_state_dict()
    optim_state_dict_pinned = create_pinned_state_dict(optim_state_dict, empty=empty, num_threads=num_threads)
    for k in optim_state_dict.keys():
        if k == "state":
            for idx in optim_state_dict[k].keys():
                for kk in optim_state_dict[k][idx].keys():
                    assert optim_state_dict_pinned[k][idx][kk].is_pinned()
                    if not empty:
                        assert torch.equal(optim_state_dict_pinned[k][idx][kk], optim_state_dict[k][idx][kk])
        else:
            assert optim_state_dict[k] == optim_state_dict_pinned[k]


@clear_cache_before_run()
def test_save_load():
    with tempfile.TemporaryDirectory() as tempdir:
        optimizer_state_dict = gen_optim_state_dict()

        optimizer_saved_path = f"{tempdir}/save_optimizer.safetensors"
        f_writer = save_nested(optimizer_saved_path, optimizer_state_dict)
        f_writer.sync_before_step()
        f_writer.synchronize()
        del f_writer
        load_state_dict = load_flat(optimizer_saved_path)
        check_state_dict_equal(load_state_dict, optimizer_state_dict)

        optimizer_shard_saved_path = f"{tempdir}/save_optimizer_shard.safetensors"
        f_writer = save_nested(optimizer_shard_saved_path, optimizer_state_dict["state"])
        f_writer.sync_before_step()
        f_writer.synchronize()
        del f_writer
        load_state_dict_shard = load_flat(optimizer_shard_saved_path)
        check_state_dict_equal(load_state_dict_shard, optimizer_state_dict["state"])

        model_state_dict = gen_model_state_dict()
        model_saved_path = f"{tempdir}/save_model.safetensors"
        f_writer = save(model_saved_path, model_state_dict)
        f_writer.sync_before_step()
        f_writer.synchronize()
        del f_writer
        load_state_dict = load_file(model_saved_path)
        check_state_dict_equal(model_state_dict, load_state_dict)

        model_state_dict_cuda = {k: v.to(get_current_device()) for k, v in model_state_dict.items()}
        model_state_pinned = {k: v.pin_memory() for k, v in model_state_dict.items()}
        model_saved_path = f"{tempdir}/save_model_cuda.safetensors"
        f_writer = move_and_save(model_saved_path, model_state_dict_cuda, model_state_pinned)
        f_writer.sync_before_step()
        f_writer.synchronize()
        del f_writer
        load_state_dict = load_file(model_saved_path)
        check_state_dict_equal(model_state_dict, load_state_dict)
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`import tempfile`

[checkpointio] support non blocking pin load (#6172) * [checkpointio] support non blocking pin load * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-12-25 09:03:25 +00:00			`import pytest`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`import torch`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`from safetensors.torch import load_file`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00
[checkpointio] support non blocking pin load (#6172) * [checkpointio] support non blocking pin load * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-12-25 09:03:25 +00:00			`from colossalai.checkpoint_io.utils import create_pinned_state_dict`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`from colossalai.testing import check_state_dict_equal, clear_cache_before_run`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`from colossalai.utils import get_current_device`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`from colossalai.utils.safetensors import load_flat, move_and_save, save, save_nested`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00

[checkpointio] support non blocking pin load (#6172) * [checkpointio] support non blocking pin load * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-12-25 09:03:25 +00:00			`def gen_optim_state_dict():`
			`return {`
			`"state": {`
			`0: {`
			`"step": torch.tensor(1.0),`
			`"exp_avg": torch.rand((1024, 1024)),`
			`"exp_avg_sq": torch.rand((1024, 1024)),`
			`},`
			`1: {`
			`"step": torch.tensor(1.0),`
			`"exp_avg": torch.rand((1024, 1024)),`
			`"exp_avg_sq": torch.rand((1024, 1024)),`
			`},`
			`2: {`
			`"step": torch.tensor(1.0),`
			`"exp_avg": torch.rand((1024, 1024)),`
			`"exp_avg_sq": torch.rand((1024, 1024)),`
			`},`
			`},`
			`"param_groups": [`
			`{`
			`"lr": 0.001,`
			`"betas": (0.9, 0.999),`
			`"eps": 1e-08,`
			`"weight_decay": 0,`
			`"bias_correction": True,`
			`"params": [`
			`0,`
			`1,`
			`2,`
			`3,`
			`4,`
			`5,`
			`6,`
			`7,`
			`8,`
			`9,`
			`10,`
			`11,`
			`12,`
			`13,`
			`14,`
			`15,`
			`16,`
			`17,`
			`18,`
			`19,`
			`20,`
			`21,`
			`22,`
			`23,`
			`24,`
			`25,`
			`26,`
			`27,`
			`28,`
			`29,`
			`30,`
			`31,`
			`32,`
			`33,`
			`34,`
			`35,`
			`36,`
			`37,`
			`38,`
			`39,`
			`40,`
			`41,`
			`42,`
			`43,`
			`44,`
			`45,`
			`46,`
			`47,`
			`48,`
			`49,`
			`50,`
			`51,`
			`52,`
			`53,`
			`54,`
			`55,`
			`56,`
			`57,`
			`58,`
			`59,`
			`60,`
			`61,`
			`],`
			`}`
			`],`
			`}`


			`def gen_model_state_dict():`
			`return {`
			`"module.weight0": torch.rand((1024, 1024)),`
			`"module.weight1": torch.rand((1024, 1024)),`
			`"module.weight2": torch.rand((1024, 1024)),`
			`}`


			`@pytest.mark.parametrize("empty", [True, False])`
			`@pytest.mark.parametrize("num_threads", [1, 4])`
			`def test_create_pin(empty: bool, num_threads: int):`
			`model_state_dict = gen_model_state_dict()`
			`model_state_dict_pinned = create_pinned_state_dict(model_state_dict, empty=empty, num_threads=num_threads)`
			`for k in model_state_dict.keys():`
			`assert model_state_dict_pinned[k].is_pinned()`
			`if not empty:`
			`assert torch.equal(model_state_dict_pinned[k], model_state_dict[k])`
			`optim_state_dict = gen_optim_state_dict()`
			`optim_state_dict_pinned = create_pinned_state_dict(optim_state_dict, empty=empty, num_threads=num_threads)`
			`for k in optim_state_dict.keys():`
			`if k == "state":`
			`for idx in optim_state_dict[k].keys():`
			`for kk in optim_state_dict[k][idx].keys():`
			`assert optim_state_dict_pinned[k][idx][kk].is_pinned()`
			`if not empty:`
			`assert torch.equal(optim_state_dict_pinned[k][idx][kk], optim_state_dict[k][idx][kk])`
			`else:`
			`assert optim_state_dict[k] == optim_state_dict_pinned[k]`


[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`@clear_cache_before_run()`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`def test_save_load():`
			`with tempfile.TemporaryDirectory() as tempdir:`
[checkpointio] support non blocking pin load (#6172) * [checkpointio] support non blocking pin load * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-12-25 09:03:25 +00:00			`optimizer_state_dict = gen_optim_state_dict()`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`optimizer_saved_path = f"{tempdir}/save_optimizer.safetensors"`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`f_writer = save_nested(optimizer_saved_path, optimizer_state_dict)`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`f_writer.sync_before_step()`
			`f_writer.synchronize()`
[checkpointio] fix zero optimizer async save memory (#6151) * [checkpointio] fix zero optimizer async save memory * [checkpointio] fit new tensornvme api * [checkpointio] fit new tensornvme api 2024-11-25 06:46:31 +00:00			`del f_writer`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`load_state_dict = load_flat(optimizer_saved_path)`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`check_state_dict_equal(load_state_dict, optimizer_state_dict)`

			`optimizer_shard_saved_path = f"{tempdir}/save_optimizer_shard.safetensors"`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`f_writer = save_nested(optimizer_shard_saved_path, optimizer_state_dict["state"])`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`f_writer.sync_before_step()`
			`f_writer.synchronize()`
[checkpointio] fix zero optimizer async save memory (#6151) * [checkpointio] fix zero optimizer async save memory * [checkpointio] fit new tensornvme api * [checkpointio] fit new tensornvme api 2024-11-25 06:46:31 +00:00			`del f_writer`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`load_state_dict_shard = load_flat(optimizer_shard_saved_path)`
			`check_state_dict_equal(load_state_dict_shard, optimizer_state_dict["state"])`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00
[checkpointio] support non blocking pin load (#6172) * [checkpointio] support non blocking pin load * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-12-25 09:03:25 +00:00			`model_state_dict = gen_model_state_dict()`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`model_saved_path = f"{tempdir}/save_model.safetensors"`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`f_writer = save(model_saved_path, model_state_dict)`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`f_writer.sync_before_step()`
			`f_writer.synchronize()`
[checkpointio] fix zero optimizer async save memory (#6151) * [checkpointio] fix zero optimizer async save memory * [checkpointio] fit new tensornvme api * [checkpointio] fit new tensornvme api 2024-11-25 06:46:31 +00:00			`del f_writer`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`load_state_dict = load_file(model_saved_path)`
			`check_state_dict_equal(model_state_dict, load_state_dict)`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`model_state_dict_cuda = {k: v.to(get_current_device()) for k, v in model_state_dict.items()}`
			`model_state_pinned = {k: v.pin_memory() for k, v in model_state_dict.items()}`
			`model_saved_path = f"{tempdir}/save_model_cuda.safetensors"`
[checkpointio] support debug log (#6153) * [checkpointio] support debug log * [checkpointio] refactor async writer api * fix test * fix test 2024-12-02 03:29:19 +00:00			`f_writer = move_and_save(model_saved_path, model_state_dict_cuda, model_state_pinned)`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`f_writer.sync_before_step()`
			`f_writer.synchronize()`
[checkpointio] fix zero optimizer async save memory (#6151) * [checkpointio] fix zero optimizer async save memory * [checkpointio] fit new tensornvme api * [checkpointio] fit new tensornvme api 2024-11-25 06:46:31 +00:00			`del f_writer`
[optim] hotfix adam load (#6146) * [optim] hotfix adam load * [checkpointio] fix optimizer async io * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [checkpointio] update test * [checkpointio] update test --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> 2024-11-20 08:36:37 +00:00			`load_state_dict = load_file(model_saved_path)`
[async io]supoort async io (#6137) * support async optimizer save/load * fix * fix * support pin mem * Update low_level_zero_plugin.py * fix * fix * fix * fix * fix 2024-11-18 09:52:24 +00:00			`check_state_dict_equal(model_state_dict, load_state_dict)`