2025-02-17 60bd54ccc3c178dc2a7b6e7408141494 99+ 4 分钟 0.5 k0次访问

ktransformer推理DeepSeek-R1-Q4_K_M教程

官方部署教程

官方教程

本机安装经验

一、硬件

CPU：1x Intel Xeon Gold 6348
RAM：512GB DDR4 3200Mhz
GPU：8x RTX4090

二、安装环境

1. 系统版本

Ubuntu 20.04 LTS

2. 必备插件

Docker（待描述是 docker-compose 还是完整的 docker）
Nvidia-Docker-Toolkit Ver.XX
Python 3.X

三、拉取镜像

1. 在 Terminal 窗口执行以下命令

拉取 modelscope 的 Docker 作为基础环境，注意修改 -v 映射路径。
确保提前安装好 nvidia-docker 相关配置。

docker run --gpus all -it --net=host --ipc=host --name ktransformers_env -v /media/pixel:/workspace modelscope-registry.cn-beijing.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.1.0-py310-torch2.3.0-tf2.16.1-1.18.0 /bin/bash

四、拉取官方源代码

1 2	git clone https://github.com/kvcache-ai/ktransformers.git cd ktransformers

五、安装 Python 依赖包

由于 CPU 不支持 AMX 指令集，使用 AVX2 指令集的安装包。

1	pip install ktransformers-0.2.0+cu121torch23avx2-cp310-cp310-linux_x86_64.whl

导入 Deepseek DeepSeek-R1-Q4_K_M 模型

1. 修改 ENV

中国大陆不支持直连 HuggingFace，所以在终端执行以下命令替换 ENV：

1	export HF_ENDPOINT=https://hf-mirror.com

2. 指定 Docker 容器内部映射路径

例如：

1	/workspace/llm

3. 从 ModelScope 下载文件

访问以下链接：
ModelScope

选择第 6 个文件：DeepSeek-R1-Q4_K_M

4. 启动文件

可使用 CUDA_VISIBLE_DEVICES=0 指定 GPU。

1	python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true

5. 调用成功提示

当终端出现：

chat:

表示启动成功，可以开始聊天。

6. 运行速度及不足之处

普通人长时间阅读速度约为 6 token/s
当前运行速度为 8 token/s
未来版本支持多 GPU 调用后，速度有望继续提升

开发者选项

1. 自定义文件存放路径

1	python ./ktransformers/local_chat.py --model_path deepseek-ai/DeepSeek-R1 --gguf_path /workspace/llms/DeepSeek-R1-GGUF/ --cpu_infer 65 --max_new_tokens 10000 --force_think true

将 --gguf_path 后，--cpu_infer 之前的内容改为所需路径。
注意 --GGUF/ 和 --CPU 之间至少保留一个空格。