2025 年 12 月,阿里巴巴通义实验室团队在 arXiv 发布 QwenLong-L1.5 研究成果,首次实现 AI 对百万字级文档的深度推理与全局信息整合,打破此前仅能做简单检索的局限,为法律、金融、科研等长文本密集型场景提供新解法。
该模型基于 Qwen3-30B-A3B-Thinking 基座,通过创新数据合成、强化学习与记忆增强架构三大突破,可稳定处理最长 400 万字文档,相当于十几本长篇小说的信息量。数据合成环节采用多跳推理、数值推理与通用长文本推理三类任务,构建 14100 个高质量样本,迫使模型串联分散线索形成完整推理链;强化学习则通过任务平衡采样、自适应熵控制与梯度裁剪,解决长文本训练的稳定性难题;记忆增强架构则像智能图书管理员,分段处理、递归融合关键信息,实现高效记忆管理与全局规划。
实测显示,QwenLong-L1.5 在长文本推理基准平均提升 9.90 分,与 GPT-5、Gemini-2.5-Pro 同台竞技。在 LongBench-V2、MRCR、CorpusQA 等权威测试中,尤其在 32K–128K 词长区间提升显著,MRCR 任务得分 82.99 分,较基线跃升 31.72 分;即便是 400 万字极限测试,仍能保持可用性能。
更意外的是,长文本能力提升带动通用任务表现,MMLU-PRO 等基准分数稳中有升,长对话连贯性与回忆能力显著增强,实现 “一专多能”。目前,该技术已开始在合同审查、学术文献综述、财报深度分析等场景试点,帮助企业与科研人员从海量文本中快速提炼洞见、降低决策风险。
通义实验室表示,下一步将推进商业化落地与开源生态建设,同时探索多模态长文本融合,助力更多行业实现智能化升级。









苏公网安备32021302001419号