ColossalAI/colossalai/legacy/nn/loss/__init__.py

from torch import nn
from torch.nn.modules.loss import *
from torch.nn.modules.loss import _Loss

from colossalai.legacy.global_variables import tensor_parallel_env as env
from colossalai.legacy.nn.layer.utils import get_tensor_parallel_mode

from .loss_1d import VocabParallelCrossEntropyLoss1D
from .loss_2d import CrossEntropyLoss2D, VocabParallelCrossEntropyLoss2D
from .loss_2p5d import CrossEntropyLoss2p5D, VocabParallelCrossEntropyLoss2p5D
from .loss_3d import CrossEntropyLoss3D, VocabParallelCrossEntropyLoss3D

_parallel_cross_entropy = {
    "2d": CrossEntropyLoss2D,
    "2.5d": CrossEntropyLoss2p5D,
    "3d": CrossEntropyLoss3D,
}

_vocab_parallel_cross_entropy = {
    "1d": VocabParallelCrossEntropyLoss1D,
    "2d": VocabParallelCrossEntropyLoss2D,
    "2.5d": VocabParallelCrossEntropyLoss2p5D,
    "3d": VocabParallelCrossEntropyLoss3D,
}


class CrossEntropyLoss(_Loss):
    def __init__(self, reduction: bool = True, *args, **kwargs):
        super().__init__()
        tensor_parallel = get_tensor_parallel_mode()
        if tensor_parallel is not None and env.vocab_parallel:
            self.loss = _vocab_parallel_cross_entropy[tensor_parallel](reduction=reduction, *args, **kwargs)
        elif tensor_parallel is None or tensor_parallel == "1d":
            reduction = "mean" if reduction else "none"
            self.loss = nn.CrossEntropyLoss(reduction=reduction, *args, **kwargs)
        else:
            self.loss = _parallel_cross_entropy[tensor_parallel](reduction=reduction, *args, **kwargs)

    def forward(self, *args):
        return self.loss(*args)
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`from torch import nn`
			`from torch.nn.modules.loss import *`
			`from torch.nn.modules.loss import _Loss`

[legacy] clean up legacy code (#4743) * [legacy] remove outdated codes of pipeline (#4692) * [legacy] remove cli of benchmark and update optim (#4690) * [legacy] remove cli of benchmark and update optim * [doc] fix cli doc test * [legacy] fix engine clip grad norm * [legacy] remove outdated colo tensor (#4694) * [legacy] remove outdated colo tensor * [test] fix test import * [legacy] move outdated zero to legacy (#4696) * [legacy] clean up utils (#4700) * [legacy] clean up utils * [example] update examples * [legacy] clean up amp * [legacy] fix amp module * [legacy] clean up gpc (#4742) * [legacy] clean up context * [legacy] clean core, constants and global vars * [legacy] refactor initialize * [example] fix examples ci * [example] fix examples ci * [legacy] fix tests * [example] fix gpt example * [example] fix examples ci * [devops] fix ci installation * [example] fix examples ci 1 year ago			`from colossalai.legacy.global_variables import tensor_parallel_env as env`
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`from colossalai.legacy.nn.layer.utils import get_tensor_parallel_mode`

			`from .loss_1d import VocabParallelCrossEntropyLoss1D`
			`from .loss_2d import CrossEntropyLoss2D, VocabParallelCrossEntropyLoss2D`
			`from .loss_2p5d import CrossEntropyLoss2p5D, VocabParallelCrossEntropyLoss2p5D`
			`from .loss_3d import CrossEntropyLoss3D, VocabParallelCrossEntropyLoss3D`

			`_parallel_cross_entropy = {`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`"2d": CrossEntropyLoss2D,`
			`"2.5d": CrossEntropyLoss2p5D,`
			`"3d": CrossEntropyLoss3D,`
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`}`

			`_vocab_parallel_cross_entropy = {`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`"1d": VocabParallelCrossEntropyLoss1D,`
			`"2d": VocabParallelCrossEntropyLoss2D,`
			`"2.5d": VocabParallelCrossEntropyLoss2p5D,`
			`"3d": VocabParallelCrossEntropyLoss3D,`
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`}`


			`class CrossEntropyLoss(_Loss):`
			`def __init__(self, reduction: bool = True, args, *kwargs):`
			`super().__init__()`
			`tensor_parallel = get_tensor_parallel_mode()`
			`if tensor_parallel is not None and env.vocab_parallel:`
			`self.loss = _vocab_parallel_cross_entropy[tensor_parallel](reduction=reduction, args, *kwargs)`
[misc] update pre-commit and run all files (#4752) * [misc] update pre-commit * [misc] run pre-commit * [misc] remove useless configuration files * [misc] ignore cuda for clang-format 1 year ago			`elif tensor_parallel is None or tensor_parallel == "1d":`
			`reduction = "mean" if reduction else "none"`
[legacy] move communication and nn to legacy and refactor logger (#4671) * [legacy] move communication to legacy (#4640) * [legacy] refactor logger and clean up legacy codes (#4654) * [legacy] make logger independent to gpc * [legacy] make optim independent to registry * [legacy] move test engine to legacy * [legacy] move nn to legacy (#4656) * [legacy] move nn to legacy * [checkpointio] fix save hf config * [test] remove useledd rpc pp test * [legacy] fix nn init * [example] skip tutorial hybriad parallel example * [devops] test doc check * [devops] test doc check 1 year ago			`self.loss = nn.CrossEntropyLoss(reduction=reduction, args, *kwargs)`
			`else:`
			`self.loss = _parallel_cross_entropy[tensor_parallel](reduction=reduction, args, *kwargs)`

			`def forward(self, *args):`
			`return self.loss(*args)`