From 4b31875a9882970a7ad4e681d01f4d7015fb521b Mon Sep 17 00:00:00 2001 From: westinyang <517858177@qq.com> Date: Tue, 25 Jul 2023 00:07:41 +0800 Subject: [PATCH] docs: Update README.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 修复了中文文档在 9d50b01310ad8f489e07accab3f2089c77822e71 这次提交中删减了应该保留的说明,删除模型量化对应的代码修改 `.quantize(8)`,会变得与英文文档不一致,这将会导致看中文文档的初学者产生一定程度的疑惑! --- README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index acd15ee..e133d36 100644 --- a/README.md +++ b/README.md @@ -271,11 +271,17 @@ if __name__ == "__main__": 默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下: ```python -model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda() +# 按需修改,目前只支持 4/8 bit 量化 +model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True).quantize(8).cuda() ``` 模型量化会带来一定的性能损失,经过测试,ChatGLM2-6B 在 4-bit 量化下仍然能够进行自然流畅的生成。 量化模型的参数文件也可以从[这里](https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/)手动下载。 +如果你的内存不足,可以直接加载量化后的模型: +```python +model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda() +``` + ### CPU 部署 如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。使用方法如下(需要大概 32GB 内存)