refactor code

2024-01-03 17:39:37 +08:00 · 2024-01-03 17:39:37 +08:00 · 196514d87f
parent 5539f9db50
commit 196514d87f
4 changed files with 31 additions and 15 deletions
--- a/internlm/model/moe.py
+++ b/internlm/model/moe.py
@ -6,7 +6,7 @@ from internlm.core.context import ParallelMode
 from internlm.core.context import global_context as gpc
 from internlm.model.linear import FeedForward
 from internlm.moe.experts import Experts
-from internlm.moe.sharded_moe import MOELayer, TopKGate
+from internlm.moe.sharded_moe import GShardMOELayer, TopKGate
 from internlm.utils.logger import get_logger

 # global llm logger
@ -87,7 +87,7 @@ class MoE(torch.nn.Module):
        experts = Experts(experts, self.num_local_experts, expert_group_name)

        if using_default_moe:
-            self.moe_layer = MOELayer(
+            self.moe_layer = GShardMOELayer(
                TopKGate(
                    hidden_size,
                    num_experts,
--- a/internlm/moe/init.py
+++ b/internlm/moe/init.py
--- a/internlm/moe/base_moe.py
+++ b/internlm/moe/base_moe.py
@ -0,0 +1,23 @@
+from typing import TYPE_CHECKING
+
+from torch import Tensor
+from torch.nn import Module
+
+if TYPE_CHECKING:
+    Base = Module[Tensor]
+else:
+    Base = Module
+
+
+class BaseMoELayer(Base):
+    """
+    Base MoE Layer.
+    """
+
+    def __init__(self, gate: Module, experts: Module, ep_group, ep_size, num_local_experts: int) -> None:
+        super().__init__()
+        self.gate = gate
+        self.experts = experts
+        self.ep_group = ep_group
+        self.ep_size = ep_size
+        self.num_local_experts = num_local_experts
--- a/internlm/moe/sharded_moe.py
+++ b/internlm/moe/sharded_moe.py
@ -4,7 +4,7 @@ https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/moe/experts.py
 Git commit hash: f3943cf9109226ed3ecf2d5dbb639a11cd925555
 We retain the following license from the original files:
 """
-from typing import TYPE_CHECKING, Any, Callable, Dict, Optional, Tuple
+from typing import Any, Callable, Dict, Optional, Tuple

 import torch
 import torch.distributed as dist
@ -15,14 +15,11 @@ from torch.nn import Module
 from internlm.utils.logger import get_logger
 from internlm.utils.megatron_timers import megatron_timer as timer

+from .base_moe import BaseMoELayer
+
 # global llm logger
 logger = get_logger(__file__)

-if TYPE_CHECKING:
-    Base = Module[Tensor]
-else:
-    Base = Module
-
 uniform_map: Dict[torch.device, Callable] = {}
 gumbel_map: Dict[torch.device, Callable] = {}
 exp_selection_uniform_map: Dict[torch.device, Callable] = {}
@ -387,7 +384,7 @@ class TopKGate(Module):
        return gate_output


-class MOELayer(Base):
+class GShardMOELayer(BaseMoELayer):
    """MOELayer module which implements MixtureOfExperts as described in Gshard_.
    ::

@ -406,12 +403,8 @@ class MOELayer(Base):
    """

    def __init__(self, gate: Module, experts: Module, ep_group, ep_size, num_local_experts: int) -> None:
-        super().__init__()
-        self.gate = gate
-        self.experts = experts
-        self.ep_group = ep_group
-        self.ep_size = ep_size
-        self.num_local_experts = num_local_experts
+        super().__init__(gate, experts, ep_group, ep_size, num_local_experts)
+
        self.time_falltoall = 0.0
        self.time_salltoall = 0.0
        self.time_moe = 0.0