ColossalAI/colossalai/zero/sharded_optim/bookkeeping/bucket_store.py

from colossalai.core import global_context as gpc
from colossalai.context import ParallelMode
from .base_store import BaseStore

class BucketStore(BaseStore):

    def __init__(self, dp_parallel_mode):
        super().__init__(dp_parallel_mode)
        self._grads = dict()
        self._params = dict()
        self._num_elements_in_bucket = dict()

        self.reset()

    def num_elements_in_bucket(self, reduce_rank: int = None):
        return self._num_elements_in_bucket[reduce_rank]

    def add_num_elements_in_bucket(self, num_elements, reduce_rank: int = None):
        self._num_elements_in_bucket[reduce_rank] += num_elements

    def add_grad(self, tensor, reduce_rank: int = None):
        self._grads[reduce_rank].append(tensor)

    def add_param(self, tensor, reduce_rank: int = None):
        self._params[reduce_rank].append(tensor)

    def reset(self):
        keys = [None] + list(range(self._world_size))
        self._grads = {rank: [] for rank in keys}
        self._params = {rank: [] for rank in keys}
        self._num_elements_in_bucket = {rank: 0 for rank in keys}
    
    def reset_by_rank(self, reduce_rank=None):
        self._grads[reduce_rank] = []
        self._params[reduce_rank] = []
        self._num_elements_in_bucket[reduce_rank] = 0


    def get_grad(self, reduce_rank: int = None):
        return self._grads[reduce_rank]

    def get_param(self, reduce_rank: int = None):
        return self._params[reduce_rank]
Feature/zero (#279) * add zero1 (#209) * add zero1 * add test zero1 * update zero stage 1 develop (#212) * Implement naive zero3 (#240) * naive zero3 works well * add zero3 param manager * add TODOs in comments * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * fix bugs of hook and add unit tests (#252) * add gather full param ctx * fix sub module streams * add offload * fix bugs of hook and add unit tests * polish code and add state dict hook * fix bug * update unit test * refactor reconstructed zero code * clip_grad support zero3 and add unit test * add unit test for Zero3ParameterManager * [WIP] initialize the shard param class * [WIP] Yet another sharded model implementation (#274) * [WIP] initialize the shard param class * [WIP] Yes another implementation of shardModel. Using a better hook method. * torch.concat -> torch.cat * fix test_zero_level_1.py::test_zero_level_1 unitest * remove deepspeed implementation and refactor for the reconstructed zero module * polish zero dp unittests Co-authored-by: ver217 <lhx0217@gmail.com> Co-authored-by: Frank Lee <somerlee.9@gmail.com> 2022-03-01 10:17:01 +00:00			`from colossalai.core import global_context as gpc`
			`from colossalai.context import ParallelMode`
			`from .base_store import BaseStore`

			`class BucketStore(BaseStore):`

			`def __init__(self, dp_parallel_mode):`
			`super().__init__(dp_parallel_mode)`
			`self._grads = dict()`
			`self._params = dict()`
			`self._num_elements_in_bucket = dict()`

			`self.reset()`

			`def num_elements_in_bucket(self, reduce_rank: int = None):`
			`return self._num_elements_in_bucket[reduce_rank]`

			`def add_num_elements_in_bucket(self, num_elements, reduce_rank: int = None):`
			`self._num_elements_in_bucket[reduce_rank] += num_elements`

			`def add_grad(self, tensor, reduce_rank: int = None):`
			`self._grads[reduce_rank].append(tensor)`

			`def add_param(self, tensor, reduce_rank: int = None):`
			`self._params[reduce_rank].append(tensor)`

			`def reset(self):`
			`keys = [None] + list(range(self._world_size))`
			`self._grads = {rank: [] for rank in keys}`
			`self._params = {rank: [] for rank in keys}`
			`self._num_elements_in_bucket = {rank: 0 for rank in keys}`

			`def reset_by_rank(self, reduce_rank=None):`
			`self._grads[reduce_rank] = []`
			`self._params[reduce_rank] = []`
			`self._num_elements_in_bucket[reduce_rank] = 0`


			`def get_grad(self, reduce_rank: int = None):`
			`return self._grads[reduce_rank]`

			`def get_param(self, reduce_rank: int = None):`
			`return self._params[reduce_rank]`