From c4c0c534e4aeaa1b1f9e86a7016cc5aa93eb9f8f Mon Sep 17 00:00:00 2001 From: duzx16 <904663169@qq.com> Date: Sun, 25 Jun 2023 12:53:33 +0800 Subject: [PATCH] Update README --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 3e99c65..e9958c4 100644 --- a/README.md +++ b/README.md @@ -75,7 +75,7 @@ ChatGLM2-6B 使用了 [Multi-Query Attention](http://arxiv.org/abs/1911.02150) | ChatGLM-6B | 31.49 | | ChatGLM2-6B | 44.62 | -> 使用官方实现,Batch size = 1,测试硬件为 A100-SXM-80G,软件环境为 PyTorch 2.0 +> 使用官方实现,batch size = 1,max length = 2048,测试硬件为 A100-SXM-80G,软件环境为 PyTorch 2.0 Multi-Query Attention 同时也降低了生成过程中 KV Cache 的显存占用,此外,ChatGLM2-6B 采用 Causal Mask 进行对话训练,连续对话时可复用前面轮次的 KV Cache,进一步优化了显存占用。因此,使用 6GB 显存的显卡进行 INT4 量化的推理时,初代的 ChatGLM-6B 模型最多能够生成 1119 个字符就会提示显存耗尽,而 ChatGLM2-6B 能够生成至少 8192 个字符。