ktransformer推理DeepSeek-R1-Q4_K_M教程

官方部署教程

官方教程

本机安装经验

一、硬件

  • CPU:1x Intel Xeon Gold 6348
  • RAM:512GB DDR4 3200Mhz
  • GPU:8x RTX4090

二、安装环境

1. 系统版本

  • Ubuntu 20.04 LTS

2. 必备插件

  • Docker(待描述是 docker-compose 还是完整的 docker
  • Nvidia-Docker-Toolkit Ver.XX
  • Python 3.X

三、拉取镜像

1. 在 Terminal 窗口执行以下命令

拉取 modelscope 的 Docker 作为基础环境,注意修改 -v 映射路径。
确保提前安装好 nvidia-docker 相关配置。

1
docker run --gpus all -it --net=host --ipc=host --name ktransformers_env -v /media/pixel:/workspace modelscope-registry.cn-beijing.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.1.0-py310-torch2.3.0-tf2.16.1-1.18.0 /bin/bash

四、拉取官方源代码

1
2
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers

五、安装 Python 依赖包

由于 CPU 不支持 AMX 指令集,使用 AVX2 指令集的安装包。

1
pip install ktransformers-0.2.0+cu121torch23avx2-cp310-cp310-linux_x86_64.whl

导入 Deepseek DeepSeek-R1-Q4_K_M 模型

1. 修改 ENV

中国大陆不支持直连 HuggingFace,所以在终端执行以下命令替换 ENV:

1
export HF_ENDPOINT=https://hf-mirror.com

2. 指定 Docker 容器内部映射路径

例如:

1
/workspace/llm

3. 从 ModelScope 下载文件

访问以下链接:
ModelScope

选择第 6 个文件:DeepSeek-R1-Q4_K_M

4. 启动文件

可使用 CUDA_VISIBLE_DEVICES=0 指定 GPU。

1
python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true

5. 调用成功提示

当终端出现:

1
chat:

表示启动成功,可以开始聊天。

6. 运行速度及不足之处

  • 普通人长时间阅读速度约为 6 token/s
  • 当前运行速度为 8 token/s
  • 未来版本支持多 GPU 调用后,速度有望继续提升

开发者选项

1. 自定义文件存放路径

1
python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true

--gguf_path 后,--cpu_infer 之前的内容改为所需路径。
注意 --GGUF/--CPU 之间至少保留一个空格。

评论

:D 一言句子获取中...

加载中,最新评论有1分钟缓存...