Xorbits Inference(简称Xinference)是一个高效的分布式推理框架,专为大语言模型(LLM)、语音识别和多模态模型设计。它简化了模型部署流程,支持一键部署,无论是研究者、开发者还是数据科学家,都能轻松接入前沿AI模型。
新版本亮点:
- 模型推理简化:支持多种模型类型,部署仅需一条命令。
- 前沿模型集成:内置多个中英文大语言模型,如baichuan、chatglm2,且持续更新。
- 异构硬件优化:利用ggml技术,实现GPU和CPU协同工作,提升推理速度。
- 接口调用灵活:提供RESTful API、RPC、命令行、web UI等多种接口,便于模型管理和交互。
- 集群计算支持:支持分布式部署,资源调度器优化资源利用。
- 开放生态:与LangChain、LlamaIndex等第三方库无缝对接。
v0.15.0更新内容:
- 支持自定义非内置模型,qwen2-vl-Instruct模型已加入。
- 重构注册逻辑,简化LLM模型注册流程。
- 客户端chat接口更新,统一参数格式。
- 移除qwen-chat 1代的tool call功能,推荐使用OpenAI API形式。
- 移除chatglm3,推荐使用更新的glm4-chat。
- MiniCPM-V-2.6和image2image/inpainting模型功能增强。
- 兼容openai库版本更新。
- 修复多项BUG,提升性能和稳定性。
- UI更新,提供新的注册模型界面。
更新方式:
- pip安装:
pip install 'xinference==0.15.0'
- Docker:拉取最新镜像或在镜像内使用pip更新。
即将到来的变更:
- v0.16.0版本中,transformers引擎的continuous batching将成为默认推理行为。
Xinference团队感谢社区的支持,并期待更多用户和开发者的参与。