ColossalAI/tests/test_optimizer/test_hybrid_adam.py

import torch
import torch.nn as nn
from torch.optim import AdamW
from torch.optim.adam import Adam

from colossalai.nn.optimizer.hybrid_adam import HybridAdam
from colossalai.testing import clear_cache_before_run, parameterize

RE = 3


@clear_cache_before_run()
@parameterize('adamw', [False, True])
@parameterize('device', ['cpu', 'cuda:0'])
@parameterize('p_dtype', [torch.float])
@parameterize('g_dtype', [torch.float, torch.half])
def test_adam(adamw, device, p_dtype, g_dtype):
    rng_state = torch.get_rng_state()
    p = nn.Parameter(torch.rand(64).to(device, p_dtype))
    torch.set_rng_state(rng_state)
    p_copy = nn.Parameter(torch.rand(64).to(device).float())

    if adamw:
        optim = HybridAdam([p], lr=1e-3, adamw_mode=True)
        torch_optim = AdamW([p_copy], lr=1e-3)
    else:
        optim = HybridAdam([p], lr=1e-3)
        torch_optim = Adam([p_copy], lr=1e-3)

    print(f"adaw mode {adamw}, device {device}, p_dtype {p_dtype}, g_dtype {g_dtype}")
    for i in range(RE):
        p.grad = torch.rand(64).to(device, p_dtype)
        p_copy.grad = p.grad.clone().float()
        p.grad.data = p.grad.data.to(g_dtype)

        optim.step()
        torch_optim.step()

        if torch.isnan(p.data).any() or torch.isnan(p_copy.data).any():
            continue
        assert torch.allclose(p.data, p_copy.data, 1e-4, 1e-2), \
            f"adaw mode {adamw}, device {device}, p_dtype {p_dtype}, g_dtype {g_dtype}"
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago			`import torch`
			`import torch.nn as nn`
			`from torch.optim import AdamW`
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2 years ago			`from torch.optim.adam import Adam`
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago
			`from colossalai.nn.optimizer.hybrid_adam import HybridAdam`
[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2 years ago			`from colossalai.testing import clear_cache_before_run, parameterize`
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago
[zero] reorganize zero/gemini folder structure (#3424) * [zero] refactor low-level zero folder structure * [zero] fix legacy zero import path * [zero] fix legacy zero import path * [zero] remove useless import * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor gemini folder structure * [zero] refactor legacy zero import path * [zero] fix test import path * [zero] fix test * [zero] fix circular import * [zero] update import 2 years ago			`RE = 3`
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago

[test] refactor tests with spawn (#3452) * [test] added spawn decorator * polish code * polish code * polish code * polish code * polish code * polish code 2 years ago			`@clear_cache_before_run()`
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago			`@parameterize('adamw', [False, True])`
			`@parameterize('device', ['cpu', 'cuda:0'])`
			`@parameterize('p_dtype', [torch.float])`
			`@parameterize('g_dtype', [torch.float, torch.half])`
			`def test_adam(adamw, device, p_dtype, g_dtype):`
			`rng_state = torch.get_rng_state()`
			`p = nn.Parameter(torch.rand(64).to(device, p_dtype))`
			`torch.set_rng_state(rng_state)`
[hotfix] fix CPUAdam kernel nullptr (#1410) 2 years ago			`p_copy = nn.Parameter(torch.rand(64).to(device).float())`
[zero]added hybrid adam, removed loss scale in adam (#527) * [zero]added hybrid adam, removed loss scale of adam * remove useless code 3 years ago
			`if adamw:`
			`optim = HybridAdam([p], lr=1e-3, adamw_mode=True)`
			`torch_optim = AdamW([p_copy], lr=1e-3)`
			`else:`
			`optim = HybridAdam([p], lr=1e-3)`
			`torch_optim = Adam([p_copy], lr=1e-3)`

			`print(f"adaw mode {adamw}, device {device}, p_dtype {p_dtype}, g_dtype {g_dtype}")`
			`for i in range(RE):`
			`p.grad = torch.rand(64).to(device, p_dtype)`
			`p_copy.grad = p.grad.clone().float()`
			`p.grad.data = p.grad.data.to(g_dtype)`

			`optim.step()`
			`torch_optim.step()`

			`if torch.isnan(p.data).any() or torch.isnan(p_copy.data).any():`
			`continue`
			`assert torch.allclose(p.data, p_copy.data, 1e-4, 1e-2), \`
[hotfix] fix CPUAdam kernel nullptr (#1410) 2 years ago			`f"adaw mode {adamw}, device {device}, p_dtype {p_dtype}, g_dtype {g_dtype}"`