Merge branch 'THUDM:main' into main

2023-08-12 02:12:31 +08:00 · 2023-08-12 02:12:31 +08:00 · f671383ee2
parent 1fa2608dd1 80602dcae1
commit f671383ee2
1 changed files with 28 additions and 16 deletions
--- a/README.md
+++ b/README.md
@ -14,7 +14,7 @@
 ChatGLM**2**-6B 是开源中英双语对话模型 [ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM**2**-6B 引入了如下新特性：

 1. **更强大的性能**：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 [GLM](https://github.com/THUDM/GLM) 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，[评测结果](#评测结果)显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%） 、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
-2. **更长的上下文**：基于 [FlashAttention](https://github.com/HazyResearch/flash-attention) 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
+2. **更长的上下文**：基于 [FlashAttention](https://github.com/HazyResearch/flash-attention) 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文，我们发布了 [ChatGLM2-6B-32K](https://huggingface.co/THUDM/chatglm2-6b-32k) 模型。[LongBench](https://github.com/THUDM/LongBench) 的测评结果表明，在等量级的开源模型中，ChatGLM2-6B-32K 有着较为明显的竞争优势。
 3. **更高效的推理**：基于 [Multi-Query Attention](http://arxiv.org/abs/1911.02150) 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。
 4. **更开放的协议**：ChatGLM2-6B 权重对学术研究**完全开放**，在填写[问卷](https://open.bigmodel.cn/mla/form)进行登记后**亦允许免费商业使用**。

@ -27,6 +27,10 @@ ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展
 尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM2-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确性，且模型易被误导。**本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。**

 ## 更新信息
+**[2023/07/31]** 发布 [ChatGLM2-6B-32K](https://huggingface.co/THUDM/chatglm2-6b-32k) 模型，提升对于长文本的理解能力。
+
+**[2023/07/25]** 发布 [CodeGeeX2](https://github.com/THUDM/CodeGeeX2) 模型，基于 ChatGLM2-6B 加入代码预训练实现，代码能力全面提升。
+
 **[2023/07/04]** 发布 P-Tuning v2 与 全参数微调脚本，参见 [P-Tuning](./ptuning)。

 ## 友情链接
@ -44,30 +48,36 @@ ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展
 ### MMLU

 | Model | Average | STEM | Social Sciences | Humanities | Others |
-| ----- | ----- | ---- | ----- | ----- | ----- |
+| ----- |------| ---- |------|-------| ----- |
 | ChatGLM-6B | 40.63 | 33.89 | 44.84 | 39.02 | 45.71 |
 | ChatGLM2-6B (base) | 47.86 | 41.20 | 54.44 | 43.66 | 54.46 |
 | ChatGLM2-6B | 45.46 | 40.06 | 51.61 | 41.23 | 51.24 |
+| ChatGLM2-12B (base) | 56.18 | 48.18 | 65.13 | 52.58 | 60.93 |
+| ChatGLM2-12B | 52.13 | 47.00 | 61.00 | 46.10 | 56.05 |

 > Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试，Base 模型使用 few-shot answer-only 的方法测试

 ### C-Eval

-| Model | Average | STEM | Social Sciences | Humanities | Others |
-| ----- | ---- | ---- | ----- | ----- | ----- |
-| ChatGLM-6B | 38.9 | 33.3 | 48.3 | 41.3 | 38.0 |
-| ChatGLM2-6B (base) | 51.7 | 48.6 | 60.5 | 51.3 | 49.8 |
-| ChatGLM2-6B | 50.1 | 46.4	| 60.4 | 50.6 | 46.9 | 
+| Model | Average | STEM  | Social Sciences | Humanities | Others |
+| ----- |---------|-------| ----- |------------|--------|
+| ChatGLM-6B | 38.9    | 33.3  | 48.3 | 41.3       | 38.0   |
+| ChatGLM2-6B (base) | 51.7    | 48.6  | 60.5 | 51.3       | 49.8   |
+| ChatGLM2-6B | 50.1    | 46.4	 | 60.4 | 50.6       | 46.9   |
+| ChatGLM2-12B (base) | 61.6    | 55.4	 | 73.7 | 64.2       | 59.4   | 
+| ChatGLM2-12B | 57.0    | 52.1	 | 69.3 | 58.5       | 53.2   | 

 > Chat 模型使用 zero-shot CoT 的方法测试，Base 模型使用 few-shot answer only 的方法测试

 ### GSM8K

-| Model | Accuracy | Accuracy (Chinese)* |
-| ----- | ----- | ----- |
-| ChatGLM-6B | 4.82 | 5.85 |
-| ChatGLM2-6B (base) | 32.37 | 28.95 |
-| ChatGLM2-6B | 28.05 | 20.45 |
+| Model        | Accuracy | Accuracy (Chinese)* |
+|--------------|----------| - |
+| ChatGLM-6B   | 4.82     | 5.85 |
+| ChatGLM2-6B (base) | 32.37    | 28.95 |
+| ChatGLM2-6B  | 28.05    | 20.45 |
+| ChatGLM2-12B (base) | 40.94    | 42.71 |
+| ChatGLM2-12B | 38.13    | 23.43 |

 > 所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自 http://arxiv.org/abs/2201.11903
 > 
@ -76,11 +86,13 @@ ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展

 ### BBH

-| Model | Accuracy |
-| ----- | ----- |
-| ChatGLM-6B | 18.73 |
+| Model        | Accuracy |
+|--------------|-------|
+| ChatGLM-6B   | 18.73 |
 | ChatGLM2-6B (base) | 33.68 |
-| ChatGLM2-6B | 30.00 |
+| ChatGLM2-6B  | 30.00 |
+| ChatGLM2-12B (base) | 36.02 |
+| ChatGLM2-12B | 39.98 |

 > 所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自 https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts