Ai2的Olmo 3.1通过扩展强化学习训练增强推理能力

2小时前7 min read

艾伦人工智能研究所（Ai2）发布了Olmo 3. 1，这是其近期推出的Olmo 3系列的重大升级，证明了扩展的强化学习（RL）训练能在推理和指令遵循能力上带来显著提升。这不仅仅是一个次要的检查点发布；它代表了开源大语言模型领域一次深思熟虑、透明的推进，而该领域的主流叙事往往将纯粹规模与架构新颖性对立起来。Ai2的方法则不同，专注于一个完全文档化、端到端的开放流程——从Dolma预训练语料到最终的RL微调——这使得其具备闭源模型根本无法提供的审查和控制水平。 Olmo 3.1进步的核心在于其旗舰型号Olmo 3. 1 Think 32B的扩展训练方案。在初始发布后，研究人员在224个GPU上恢复了RL训练，额外进行了21天，在Dolci-Think-RL数据集上应用了额外的训练轮次。这种耐心且计算密集的迭代取得了回报，据报道，在具有挑战性的AIME 2025基准测试上提升了超过5分，在ZebraLogic上提升了4分以上，在IFBench上实现了惊人的20分以上飞跃。这些指标并非抽象概念；它们意味着模型能更好地处理复杂的多步骤推理、高级数学问题求解以及严格的指令遵循，从而缩小了与领先专有模型之间的差距。与此同时，Ai2将其较小的7B Instruct模型成功的配方应用于创建Olmo 3.1 Instruct 32B，针对聊天、工具使用和多轮对话进行了优化，将其定位为一个适用于现实世界应用的强大、完全开放的替代方案。基准测试结果讲述了一个引人注目的故事：Olmo 3. 1 Think现在在AIME上超越了Qwen 3 32B，并与Gemma 27B表现相当，而Olmo 3.1 Instruct则在数学任务上与Gemma 3等同类模型不相上下，甚至在某些方面有所超越。这一进展强调了人工智能发展中一个关键但常被忽视的原则：在透明技术栈上进行持续、稳定的训练，其影响力不亚于追逐下一个架构突破。对于企业和研究实验室而言，其价值主张是明确的。与黑盒API不同，Olmo系列辅以OlmoTrace等数据溯源工具，提供了审计、修改和重新训练的能力。组织可以将其专有数据注入已知的训练组合中并重新训练模型，这种定制化和理解水平对于受监管行业和敏感应用正变得越来越重要。此次发布直接挑战了迫使人们在开放性与峰值性能之间做出选择的普遍二分法。通过展示在透明基础上进行扩展RL训练能够产生最先进的结果，Ai2正在倡导一个更具可复现性、更值得信赖的生态系统。针对数学和编码的RL-Zero 7B模型的升级，进一步强调了通过更长、更稳定的训练运行进行迭代改进的理念。随着人工智能领域在封闭的巨型模型和蓬勃发展的开源社区之间分化，Olmo 3. 1脱颖而出，成为衡量开放研究如何在推进核心能力的同时不牺牲可审计性和控制原则的标杆。它证明了一个事实：在人工智能发展的马拉松中，有纪律的、透明的迭代可以像颠覆性的冲刺一样强大。.

#Olmo 3.1

#Allen Institute for AI

#reinforcement learning

#reasoning benchmarks

#open-source AI

#featured