一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理

源码资源网 · 发表于 2025-7-2 08:10:17

一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理
通过更改一行代码，将 OpenAI GPT 替换为应用程序中的另一个 LLM。让您可以自由使用所需的任何 LLM。您可以使用任何开源语言模型、语音识别模型和多模态模型运行推理，无论是在云中、本地还是在您的笔记本电脑上。
一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以与最前沿的 AI 模型，发掘更多可能。
框架增强

支持寒武纪芯片：#3693
Xllamacpp: 全新llama.cpp Python binding，由 Xinference 团队维护，支持持续并行且更生产可用: #2997
分布式推理：在多个 worker 上运行大尺寸模型：#2877
VLLM 引擎增强: 跨副本共享KV Cache: #2732
支持 Transformers 引擎的持续批处理: #1724
支持针对苹果芯片优化的MLX后端: #1765
支持加载模型时指定 worker 和 GPU 索引: #1195
支持 SGLang 后端: #1161
支持LLM和图像模型的LoRA: #1080

新模型

内置 Qwen3-Embedding： #3627
内置 Minicpm4: #3609
内置 CogView4： #3557
内置 Deepseek-R1-0528： #3539
内置 Qwen3： #3347
内置 Qwen2.5-Omni： #3279
内置 Skywork-OR1： #3274
内置 GLM-4-0414: #3251

集成

FastGPT：一个基于 LLM 大模型的开源 AI 知识库构建平台。提供了开箱即用的数据处理、模型调用、RAG 检索、可视化 AI 工作流编排等能力，帮助您轻松实现复杂的问答场景。
Dify: 一个涵盖了大型语言模型开发、部署、维护和优化的 LLMOps 平台。
RAGFlow: 是一款基于深度文档理解构建的开源 RAG 引擎。
MaxKB: MaxKB = Max Knowledge Base，是一款基于大语言模型和 RAG 的开源知识库问答系统，广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。
Chatbox: 一个支持前沿大语言模型的桌面客户端，支持 Windows，Mac，以及 Linux。

主要功能

模型推理，轻而易举：大语言模型，语音识别模型，多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。

前沿模型，应有尽有：框架内置众多中英文的前沿大语言模型，包括 baichuan，chatglm2 等，一键即可体验！内置模型列表还在快速更新中！

异构硬件，快如闪电：通过 ggml，同时使用你的 GPU 与 CPU 进行推理，降低延迟，提高吞吐！

接口调用，灵活多样：提供多种使用模型的接口，包括 OpenAI 兼容的 RESTful API（包括 Function Calling），RPC，命令行，web UI 等等。方便模型的管理与交互。

集群计算，分布协同: 支持分布式部署，通过内置的资源调度器，让不同大小的模型按需调度到不同机器，充分使用集群资源。

开放生态，无缝对接: 与流行的三方库无缝对接，包括 LangChain，LlamaIndex，Dify，以及 Chatbox。

功能特点	Xinference 推理
兼容 OpenAI 的 RESTful API	✅
vLLM 集成	✅
更多推理引擎（GGML、TensorRT）	✅
更多平台支持（CPU、Metal）	✅
分布式集群部署	✅
图像模型（文生图）	✅
文本嵌入模型	✅
多模态模型	✅
语音识别模型	✅
更多 OpenAI 功能 (函数调用)	✅

一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型 ...

链接: https://pan.baidu.com/s/1D6r1Wkca1XzYYNOzQdULbQ
提取码下载：

文件名称:提取码下载.txt
下载次数:0 文件大小:17 Bytes 售价:59金钱 [记录]
下载权限: 不限 [购买VIP] [充值] [在线充值] 【VIP会员6折；永久VIP4折】

安全检测，请放心下载

		自动登录	找回密码
密码			立即注册

一个性能强大且功能全面的分布式推理框架。 可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理

相关帖子

一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理