xInfer — Blazing-Fast LLM Inference in Pure Rust

核心特性

为生产环境打造

从消费级 GPU 到多节点集群，从 FP16 到 2-bit 量化，xInfer 覆盖全场景推理需求。

0️⃣

零 Python 依赖

纯 Rust 后端——无 PyTorch、无 CUDA Python 绑定。核心调度 + 注意力逻辑不到 5000 行代码。

⚡

极致性能

原生 Flash Attention、FlashInfer、DeepGEMM 后端、CUDA Graph 捕获。30B+ MoE 模型解码高达 197 tks/s。

🗜️

TurboQuant KV 压缩

基于 Walsh-Hadamard 变换的 KV 缓存压缩（2-4 bit），在单张 24/32 GB GPU 上运行 30B+ MoE 模型，百万级上下文。

🌍

跨平台

CUDA（Linux/Windows）和 Metal（macOS）。同一二进制，同一 API，开箱即用。

🏭

生产就绪

OpenAI/Anthropic 兼容 API、内置 ChatGPT 风格 Web UI、MCP 工具调用、结构化输出、嵌入 + 分词端点。

🔥

V100 上的 NVFP4

业界首创：在 V100 上运行 NVFP4 + 低比特 KV 缓存——无需硬件 FP4 支持，在老旧 GPU 上实现一致输出。

🔀

PD 分离

将预填充和解码拆分到不同 GPU 或机器，消除长上下文预填充造成的解码卡顿。

🚀

多 Token 预测

MTP 支持每次前向传播预测多个 Token，显著提升吞吐量。使用 --mtp 2 即可启用。

🐍

Python 绑定

可选 PyO3 轮子和 npm 包，当需要 Python 或 Node.js 入口时可用。也可通过 pip 或 npm 安装。

模型支持

广泛的模型覆盖

支持主流 LLM 模型族，包括 Safetensors、GGUF、GPTQ/AWQ、FP8/NVFP4、ISQ 多种格式。

🦙LLaMA 2/3/4

🔮Qwen 2/3/3.5/3.6

🌬️Mistral 3 VL

💎Gemma 3/4

🔬Phi 3/4

🏔️DeepSeek V3/R1/V3.2

🧊GLM 4/4.7/5.2

🌀MiroThinker

📐Qwen3 Next

💫MiniMax M2.5

支持的模型格式

格式	精度	GPU 要求	说明
Safetensors	BF16/FP16	所有	完整精度 HuggingFace 格式
GGUF	Q2–Q8	所有	最广泛的量化格式
GPTQ / AWQ	4-bit	CUDA SM70+	GPU 优化 4-bit 量化
FP8	E4M3/E5M2	SM89+/SM80+	FP8 Blockwise 格式
NVFP4	4-bit	SM100+/SM70+	Blackwell 原生/软件 FP4
MXFP4	4-bit	CUDA SM70+	Microscaling FP4
ISQ	Q2–Q8	所有	在线 Safetensors → GGUF

性能指标

实测解码速度

在 V100-32G、A100-40G、Hopper-80G 和 RTX 5090 上测试

模型	格式	大小	解码速度
Qwen3-30B-A3B	NVFP4	30B MoE	197.29 tks/s (RTX 5090)
Ministral-3-3B (VL)	ISQ Q4K	3B	193.67 tks/s
DeepSeek-R1-Qwen3-8B	Q4_K_M	8B	139.25 tks/s
Gemma4-26B-A4B	NVFP4	26B MoE	137.23 tks/s (RTX 5090)
Llama-3.1-8B	ISQ Q4K	8B	133.10 tks/s
Qwen3-VL-8B (VL)	Q8_0	8B	112.51 tks/s
Qwen3.6-35B-A3B (VL)	FP8	35B MoE	110 tks/s (Hopper)
Qwen3-30B-A3B	NVFP4	30B MoE	72.86 tks/s (V100, SW FP4)
Qwen3.5-27B (VL)	Q4_K_M	27B Dense	49.33 tks/s (Hopper)
GLM4.7 Flash	NVFP4	30B MoE	79 tks/s (Hopper, SW FP4)
Gemma4-31B	ISQ Q4K	31B Dense	47 tks/s (Hopper)
QwQ-32B	Q4_K_M	32B	46.02 tks/s
MiniMax-M2.5	NVFP4	229B MoE	64.50 tks/s (Hopper, TP=2)

Apple Silicon (M4) 性能

模型	批量	输出 Token 数	吞吐量
Qwen3-0.6B (BF16)	128	63,488	763.73 tks/s
Qwen3-0.6B (BF16)	32	15,872	674.43 tks/s
Qwen3-4B (Q4_K_M)	1	1,683	31.98 tks/s
Qwen3.5-4B (Q3_K_M)	1	1,592	23.06 tks/s
Qwen3.5-2B (NVFP4)	2	3,942	48.10 tks/s
Qwen3-8B (Q2_K)	1	1,300	16.07 tks/s

TurboQuant 上下文扩展

TurboQuant 通过 Walsh-Hadamard 变换将 KV 缓存压缩至 2-4 bit，大幅扩展可用上下文长度。

模型	KV 预算	BF16	turbo4	增益
Qwen3.6-35B-A3B (NVFP4)	7 GB (24 GB GPU)	700k	2.7M	3.9×
	15 GB (32 GB GPU)	1.5M	5.8M	3.9×
Qwen3.6-27B (FP8)	7 GB	112k	434k	3.9×
	15 GB	240k	930k	3.9×
Qwen3-30B-A3B (Q4_K_M)	7 GB	74k	281k	3.8×
	15 GB	160k	602k	3.8×
Gemma4-26B-A4B (NVFP4)	7 GB	32k	125k	3.9×
	15 GB	70k	271k	3.9×

KV 缓存模式	压缩比	质量	GPU 要求
默认 (BF16)	1×	基准	所有
`fp8`	2×	近无损	SM70+ / M1+
`turbo8`	2.6×	79-100% 吞吐量	SM70+ / M1+
`turbo4`	3.7×	最佳平衡	SM70+ / M1+
`turbo3`	4.7×	最大压缩	SM70+

演示

一览即知

观看 xInfer 运行 35B 模型，实时推理与工具调用。

快速体验

三步启动推理

安装 xInfer

$ curl -sSL https://guoqingbao.github.io/xinfer/install.sh | bash
# 或者 npm install -g xinfer-ai

启动模型 + Web UI

$ xinfer --m Qwen/Qwen3.6-27B-FP8 --kvcache-dtype turbo4 --ui-server

调用 API

$ curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Hello!"}],"stream":true}'

💡 提示

API 默认在 http://localhost:8000 启动。添加 --ui-server 将在 http://localhost:8001 启动内置 Web UI。

🤖 查看 AI Agent 集成指南 →

高级功能

多种运行模式

xInfer 支持丰富的运行模式。

🖥️

单 GPU 推理

加载多种格式。ISQ 在线量化，CUDA Graph 自动捕获。

🔗

多 GPU 张量并行

NCCL 通信，支持多种分片格式。

🌐

多节点推理

TCP-based NCCL，无需 MPI。

🔀

PD 分离部署

支持 Local/File/TCP 三种 PD 通信。

📝

结构化输出

JSON Schema、正则、Lark 语法约束。

👁️

视觉语言模型

支持多种 VL 模型，图片上传。

生态集成

AI Agent 后端

xInfer 作为 OpenAI 兼容后端，已验证支持以下框架。

🤖

xbot

xInfer 原生 Agent 框架

💻

OpenCode

开源 AI 编码助手

📏

Kilo Code

AI 编码工具

🧠

Claude Code

Anthropic Claude 代码助手

🪿

Goose

开源 AI Agent 框架

🔌

MCP 工具

内置 MCP 工具调用

下载

预编译包

为每种 GPU 架构提供预编译的二进制包和 pip 轮子。

二进制下载

pip 安装命令

社区资源

加入社区

📦

GitHub 仓库

查看源码、提交 Issue、贡献代码

💬

问题反馈

报告 Bug 或请求新功能

📖

API 文档

完整的 CLI 参数和 REST API 参考

纯 Rust LLM 推理 极速 · 零依赖 · 生产就绪