[gemini] get the param visited order during runtime (#2108)

2022-12-09 16:13:03 +08:00 · 2022-12-09 16:13:03 +08:00 · 70a8556946
parent 61f31c3cf0
commit 70a8556946
6 changed files with 48 additions and 2 deletions
--- a/colossalai/gemini/memory_tracer/init.py
+++ b/colossalai/gemini/memory_tracer/init.py
@ -1,3 +1,4 @@
 from .param_runtime_order import ParamRuntimeOrder    # isort:skip
 from .memory_stats import MemStats    # isort:skip
 from .memory_monitor import AsyncMemoryMonitor, SyncCudaMemoryMonitor    # isort:skip
 from .memstats_collector import MemStatsCollector    # isort:skip
@ -6,5 +7,5 @@ from .static_memstats_collector import StaticMemStatsCollector    # isort:skip
 __all__ = [
    'AsyncMemoryMonitor', 'SyncCudaMemoryMonitor', 'MemStatsCollector', 'ChunkMemStatsCollector',
-    'StaticMemStatsCollector', 'MemStats'
+    'StaticMemStatsCollector', 'MemStats', 'ParamRuntimeOrder'
 ]
--- a/colossalai/gemini/memory_tracer/memory_stats.py
+++ b/colossalai/gemini/memory_tracer/memory_stats.py
@ -1,5 +1,7 @@
 from typing import Any, Dict, List
 from colossalai.gemini.memory_tracer import ParamRuntimeOrder
 class MemStats(object):
@ -19,6 +21,8 @@ class MemStats(object):
        self._non_model_data_cuda_list = []
        self._non_model_data_cpu_list = []
        self._param_runtime_order = ParamRuntimeOrder()
    def append_overall_data(self, device_type: str, val: float):
        if device_type == 'cuda':
            self._overall_cuda_list.append(val)
@ -112,3 +116,5 @@ class MemStats(object):
        self._non_model_data_cpu_list = []
        self._non_model_data_cuda_list = []
        self._param_runtime_order.clear()
--- a/colossalai/gemini/memory_tracer/param_runtime_order.py
+++ b/colossalai/gemini/memory_tracer/param_runtime_order.py
@ -0,0 +1,25 @@
 import torch
 class ParamRuntimeOrder(object):
    """ParamRuntimeOrder
    Contain the order of parameters visited during runtime.
    """
    def __init__(self) -> None:
        self.param_visited_order = []
    def append(self, param: torch.nn.Parameter):
        self.param_visited_order.append(param)
    def generate(self):
        visited_set = set()
        for p in self.param_visited_order:
            if p not in visited_set:
                yield p
            visited_set.add(p)
        del visited_set
    def clear(self):
        self.param_visited_order = []
--- a/colossalai/gemini/memory_tracer/runtime_mem_tracer.py
+++ b/colossalai/gemini/memory_tracer/runtime_mem_tracer.py
@ -1,6 +1,6 @@
 import torch.nn
-from colossalai.gemini.memory_tracer import MemStats
+from colossalai.gemini.memory_tracer import MemStats, ParamRuntimeOrder
 from colossalai.gemini.ophooks.runtime_mem_tracer_hook import GradMemStats, GradMemTracerHook, ParamMemTracerHook
 from colossalai.nn.parallel.data_parallel import _cast_float
 from colossalai.tensor.param_op_hook import ColoParamOpHookManager
@ -35,6 +35,9 @@ class RuntimeMemTracer():
        self._cast_buffers_to_cuda_dtype()
    def parameters_in_runtime_order(self):
        return self._memstats._param_runtime_order.generate()
    def memstats(self):
        return self._memstats
--- a/colossalai/gemini/ophooks/runtime_mem_tracer_hook.py
+++ b/colossalai/gemini/ophooks/runtime_mem_tracer_hook.py
@ -99,6 +99,10 @@ class ParamMemTracerHook(ColoParamOpHook):
        self.sample_model_data(params)
        self.mem_monitor.start()
        # register the order of visited.
        for p in params:
            self._memstats._param_runtime_order.append(p)
    def post_op(self, params):
        self._free_cuda_params(params)
--- a/tests/test_gemini/test_runtime_mem_tracer.py
+++ b/tests/test_gemini/test_runtime_mem_tracer.py
@ -38,6 +38,13 @@ def test_runtime_mem_tracer():
        print("cuda_non_model_data_list", len(cuda_non_model_data_list))
        print(non_model_data_list)
        cnt1 = 0
        for p in runtime_mem_tracer.parameters_in_runtime_order():
            cnt1 += 1
        cnt2 = 0
        for p in model.parameters():
            cnt2 += 1
        assert cnt2 == cnt1, f'visited param number {cnt1} vs real param number {cnt2}'
        del model