|
|
|
@ -299,6 +299,14 @@ model = AutoModel.from_pretrained("your local path", trust_remote_code=True).to(
|
|
|
|
|
此时可以使用量化后的模型 chatglm2-6b-int4。因为 GPU 上量化的 kernel 是使用 CUDA 编写的,因此无法在 MacOS 上使用,只能使用 CPU 进行推理。 |
|
|
|
|
为了充分使用 CPU 并行,还需要[单独安装 OpenMP](FAQ.md#q1)。 |
|
|
|
|
|
|
|
|
|
### 多卡部署 |
|
|
|
|
如果你有多张 GPU,但是每张 GPU 的显存大小都不足以容纳完整的模型,那么可以将模型切分在多张GPU上。首先安装 accelerate: `pip install accelerate`,然后通过如下方法加载模型: |
|
|
|
|
```python |
|
|
|
|
from utils import load_model_on_gpus |
|
|
|
|
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2) |
|
|
|
|
``` |
|
|
|
|
即可将模型部署到两张 GPU 上进行推理。你可以将 `num_gpus` 改为你希望使用的 GPU 数。默认是均匀切分的,你也可以传入 `device_map` 参数来自己指定。 |
|
|
|
|
|
|
|
|
|
## 协议 |
|
|
|
|
|
|
|
|
|
本仓库的代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源,ChatGLM2-6B 模型的权重的使用则需要遵循 [Model License](MODEL_LICENSE)。ChatGLM2-6B 权重对学术研究**完全开放**,在获得官方的书面许可后,亦**允许商业使用**。如果您发现我们的开源模型对您的业务有用,我们欢迎您对下一代模型 ChatGLM3 研发的捐赠。申请商用许可与捐赠请联系 [yiwen.xu@zhipuai.cn](mailto:yiwen.xu@zhipuai.cn)。 |
|
|
|
|