ktransformer推理DeepSeek-R1-Q4_K_M教程
官方部署教程
本机安装经验
一、硬件
- CPU:1x Intel Xeon Gold 6348
- RAM:512GB DDR4 3200Mhz
- GPU:8x RTX4090
二、安装环境
1. 系统版本
- Ubuntu 20.04 LTS
2. 必备插件
- Docker(待描述是
docker-compose
还是完整的docker
) - Nvidia-Docker-Toolkit Ver.XX
- Python 3.X
三、拉取镜像
1. 在 Terminal 窗口执行以下命令
拉取 modelscope
的 Docker 作为基础环境,注意修改 -v
映射路径。
确保提前安装好 nvidia-docker
相关配置。
1 | docker run --gpus all -it --net=host --ipc=host --name ktransformers_env -v /media/pixel:/workspace modelscope-registry.cn-beijing.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.1.0-py310-torch2.3.0-tf2.16.1-1.18.0 /bin/bash |
四、拉取官方源代码
1 | git clone https://github.com/kvcache-ai/ktransformers.git |
五、安装 Python 依赖包
由于 CPU 不支持 AMX 指令集,使用 AVX2 指令集的安装包。
1 | pip install ktransformers-0.2.0+cu121torch23avx2-cp310-cp310-linux_x86_64.whl |
导入 Deepseek DeepSeek-R1-Q4_K_M 模型
1. 修改 ENV
中国大陆不支持直连 HuggingFace,所以在终端执行以下命令替换 ENV:
1 | export HF_ENDPOINT=https://hf-mirror.com |
2. 指定 Docker 容器内部映射路径
例如:
1 | /workspace/llm |
3. 从 ModelScope 下载文件
访问以下链接:
ModelScope
选择第 6 个文件:DeepSeek-R1-Q4_K_M
4. 启动文件
可使用 CUDA_VISIBLE_DEVICES=0
指定 GPU。
1 | python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true |
5. 调用成功提示
当终端出现:
1 | chat: |
表示启动成功,可以开始聊天。
6. 运行速度及不足之处
- 普通人长时间阅读速度约为 6 token/s
- 当前运行速度为 8 token/s
- 未来版本支持多 GPU 调用后,速度有望继续提升
开发者选项
1. 自定义文件存放路径
1 | python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true |
将 --gguf_path
后,--cpu_infer
之前的内容改为所需路径。
注意 --GGUF/
和 --CPU
之间至少保留一个空格。