Xorbits Inference(简称Xinference)是一个高效的分布式推理框架,专为大语言模型(LLM)、语音识别和多模态模型设计。它简化了模型部署流程,支持一键部署,无论是研究者、开发者还是数据科学家,都能轻松接入前沿AI模型。

新版本亮点:

  • 模型推理简化:支持多种模型类型,部署仅需一条命令。
  • 前沿模型集成:内置多个中英文大语言模型,如baichuan、chatglm2,且持续更新。
  • 异构硬件优化:利用ggml技术,实现GPU和CPU协同工作,提升推理速度。
  • 接口调用灵活:提供RESTful API、RPC、命令行、web UI等多种接口,便于模型管理和交互。
  • 集群计算支持:支持分布式部署,资源调度器优化资源利用。
  • 开放生态:与LangChain、LlamaIndex等第三方库无缝对接。

v0.15.0更新内容:

  • 支持自定义非内置模型,qwen2-vl-Instruct模型已加入。
  • 重构注册逻辑,简化LLM模型注册流程。
  • 客户端chat接口更新,统一参数格式。
  • 移除qwen-chat 1代的tool call功能,推荐使用OpenAI API形式。
  • 移除chatglm3,推荐使用更新的glm4-chat。
  • MiniCPM-V-2.6和image2image/inpainting模型功能增强。
  • 兼容openai库版本更新。
  • 修复多项BUG,提升性能和稳定性。
  • UI更新,提供新的注册模型界面。

更新方式:

  • pip安装:pip install 'xinference==0.15.0'
  • Docker:拉取最新镜像或在镜像内使用pip更新。

即将到来的变更:

  • v0.16.0版本中,transformers引擎的continuous batching将成为默认推理行为。

Xinference团队感谢社区的支持,并期待更多用户和开发者的参与。