这篇由中国人民大学和美团联合完成的研究发表于2026年1月,论文编号为arXiv:2601.10355v1,为大语言模型的工具使用能力训练开辟了全新道路。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们翻开一本修理手册或浏览网上的教程时,里面往往包含着丰富的操作步骤和实用技巧。从更换轮胎到制作蛋糕,从安装软件到处理保险理赔,这些文字中蕴含着人类多年积累的实践经验。然而,这些宝贵的操作知识一直被人工智能研究领域所忽视。
想象一下,如果我们能教会人工智能从这些普通文本中学会使用各种工具,就像人类从说明书中学会操作一样,那会是怎样的突破?这正是研究团队要解决的核心问题。
目前,训练AI使用工具就像教孩子学技能一样,需要大量的实际操作示例。传统方法就像为孩子准备了一套固定的玩具,然后让他们反复练习如何使用这些玩具。但这种方法有个明显的局限:孩子只能学会使用那套特定的玩具,面对新玩具时就束手无策了。
研究团队提出了一个革命性的想法:与其让AI从预设的工具练习中学习,不如让它从人类书写的各种操作指南中直接学习。这就像让孩子通过阅读各种说明书来学会使用不同工具,而不是局限于某几件特定的玩具。
他们开发了一个名为GEM的数据合成管道,这个系统就像一位经验丰富的老师傅,能够从海量的文本资料中提炼出有用的操作经验,然后将这些经验转换成AI能够理解和学习的格式。
一、从文字中发现隐藏的宝藏
研究团队首先做了一项有趣的调查,他们从超大规模的网络文本数据库Ultra-fineweb中随机抽取了25万个文本片段,就像在图书馆里随机翻阅书籍一样。令人惊讶的是,他们发现大约14%的文本片段包含明确的多步骤操作流程。
这个发现就像在沙滩上发现了金矿一样振奋人心。以一个制作音乐可视化效果的教程为例,文本中详细描述了从准备音频文件到创建新合成项目,再到导入音频文件的完整流程。每一个步骤都清晰明确,包含了用户可能提出的问题、需要使用的工具,以及完整的操作序列。
更重要的是,这些文本涵盖了极其广泛的领域。统计显示,客户支持类文本占22.4%,研究和数据处理占15.5%,教育学习占12.1%,还有电商零售、开发工具、搜索功能等十几个不同类别。这种多样性就像一个包罗万象的技能图书馆,为AI提供了丰富多彩的学习素材。
这些发现证明了一个重要观点:互联网上的普通文本实际上是一个巨大的、未被开发的知识宝库,蕴含着无数真实世界的问题解决经验。
二、GEM系统:将文字转化为AI教材的四步法
基于这些发现,研究团队设计了GEM系统,这个系统就像一个自动化的知识提炼工厂,能够将原始文本转换成AI可以学习的多轮对话训练数据。整个过程分为四个精心设计的阶段。
第一阶段是文本筛选,就像在图书馆里挑选有用的书籍一样。系统会自动识别那些包含多步骤操作流程的文本,过滤掉那些纯理论或无操作价值的内容。这个过程使用了智能分类器,就像有经验的图书管理员能够快速判断一本书是否包含实用操作指南。
第二阶段是工作流程和工具提取。系统会仔细分析筛选出的文本,从中提取出完整的操作流程和所需的工具定义。就像一个细心的学生在读操作手册时,不仅会记下每个步骤,还会列出所需的所有工具和材料。系统会识别操作的顺序依赖关系、条件逻辑和独特性约束,然后设计相应的API工具来支持这些操作。
第三阶段是轨迹生成。基于前面提取的工作流程和工具,系统会生成完整的多轮对话轨迹。这就像将操作手册改写成一场生动的师生对话。系统会创建系统提示、用户任务、助手回应和工具反馈等完整对话要素。为了让对话更加真实,系统还会加入各种实际场景中可能出现的情况,比如用户请求的模糊性、错误恢复和澄清确认等。
第四阶段是复杂度提升和验证。初始生成的对话往往比较简单直接,就像初学者的练习题。系统会进一步增强这些对话的复杂性,扩展工具的使用范围,提高环境反馈的真实性,增加用户请求的模糊性和复杂性,确保包含非平凡的工具调用链。最后,通过规则检查和大语言模型评估的双重验证,确保生成的训练数据质量过硬。
三、训练专门的轨迹合成器
虽然GEM系统效果出色,但运行成本较高,就像聘请顶级大厨每次都要准备一桌丰盛大餐一样昂贵。为了解决这个问题,研究团队开发了一个专门的轨迹合成器。
这个合成器就像培养了一位专门的学徒,通过监督微调的方式学会了从文本直接生成多轮工具使用轨迹的能力。训练过程使用了1万个由GEM系统生成的高质量样本,就像让学徒反复观摩大师傅的操作手法一样。
合成器的工作原理很简单:给它一段包含操作流程的文本,它就能直接输出相应的工具定义和完整的多轮对话轨迹。这种端到端的能力大大降低了生产成本,同时保持了与原始GEM系统相当的质量水平。
实验结果证明了这种方法的有效性。使用不同数据源的测试显示,无论是Ultra-fineweb还是Wikihow数据,训练出的合成器都能在各种测试基准上达到接近完整GEM系统的性能表现。
四、实际效果如何?测试结果说话
研究团队在两个权威测试基准上验证了他们方法的有效性。这些测试就像给AI学生进行期末考试,检验它们在实际场景中使用工具的能力。
在BFCL V3多轮基准测试中,使用GEM数据训练的32B模型取得了44.88%的整体准确率,相比基础模型的28.35%提升了16.5个百分点。这个成绩不仅超越了其他开源合成数据集训练的模型,甚至超过了一些大型商业模型的表现,比如GPT-4.1的38.88%和DeepSeek-V3.2-Exp的37.38%。
更令人印象深刻的是在τ?-bench测试中的表现。这个测试模拟了航空和零售等专业领域的真实用户-助手互动场景。尽管GEM训练的模型使用的是完全不同领域的数据(可以说是"跨专业"学习),但它们的表现竟然能够媲美甚至超越那些使用领域内专门数据训练的模型。在零售领域,32B模型达到了86.84%的Pass@4分数,明显优于其他方法。
这种优异的泛化能力证明了一个重要观点:通过文本提取的知识具有很强的通用性,就像掌握了基本操作原理的技工能够快速适应不同类型的设备一样。
五、深入分析:为什么这种方法如此有效
为了理解方法的有效性,研究团队进行了详细的对比实验。他们发现复杂度提升阶段对最终效果至关重要。经过这个阶段处理的数据,能够将32B模型的整体准确率从32.50%提升到44.88%,增幅超过12个百分点。
这种提升的原因在于复杂度增强过程大大增加了合成轨迹的难度和多样性。统计数据显示,增强后的轨迹平均包含46个对话轮次、使用8.6个不同工具、产生16.3次工具调用。相比之下,现有的开源数据集如APIGEN-MT平均只有18.5个轮次和4.3次工具调用。
基于大语言模型的幻觉检测也发挥了重要作用。这个步骤通过过滤掉含有幻觉或不一致信息的样本,持续提升了结果质量。对8B模型来说,这个步骤将整体准确率从27.38%提升到30.25%。
研究团队还展示了一个完整的案例,说明生成的轨迹如何体现智能问题解决能力。在一个照片编辑的场景中,助手需要处理用户添加文本到照片的请求。整个对话涵盖了主动澄清(询问图片路径和文本位置)、正确的工具调用序列、规则遵守(拒绝超出字体大小限制的请求并提供替代方案)、错误恢复(打印机失败后尝试其他可用打印机)等多种复杂交互模式。
六、意义深远的研究突破
这项研究的意义远不止于技术层面的改进。它代表了人工智能训练数据获取方式的根本性转变,从依赖预设工具的封闭训练转向开放世界文本知识的利用。
传统方法就像在温室里培育植物,虽然环境可控,但植物适应性有限。而这种新方法更像是让植物在自然环境中成长,虽然环境复杂多变,但培育出的植物更加强健,适应性更强。
从数据规模角度看,互联网文本的数量远远超过任何预设的工具数据集。14%的文本包含操作流程意味着,仅从Ultra-fineweb这一个数据源就能提取出数百万个潜在的训练样本,这个规模是传统方法难以企及的。
从多样性角度看,文本数据涵盖了人类活动的方方面面,从技术操作到日常生活,从专业工作到娱乐消遣。这种天然的多样性保证了训练出的AI具有更广泛的适用性。
从真实性角度看,这些文本来源于真实的人类经验和需求,不是人为构造的练习题。这种真实性使得训练出的AI更能理解和应对实际场景中的复杂情况。
最重要的是,这种方法展示了一种新的可能性:AI不再需要等待人类为它们专门准备训练数据,而是可以从人类已有的知识记录中主动学习。这种自主学习能力是通向更智能AI的重要一步。
当然,这种方法也面临一些挑战。文本质量的参差不齐、操作描述的不完整、领域知识的偏差等问题都需要进一步解决。但正如研究结果所显示的,这些问题并不妨碍方法的整体有效性,而是为未来的改进指明了方向。
说到底,这项研究让我们看到了AI学习方式的一种新可能。就像人类能够通过阅读说明书学会使用新工具一样,AI也开始具备了从文本中提取操作知识的能力。这不仅是技术上的进步,更是AI向人类学习方式靠近的重要一步。当AI能够像人类一样从各种文本资料中获取知识时,它们的能力边界将得到极大扩展,为构建更智能、更实用的AI助手奠定了坚实基础。
Q&A
Q1:GEM系统是什么?
A:GEM是一个能够从普通文本中提取多步骤操作流程,并将其转换成AI训练数据的自动化系统。它通过四个阶段处理文本:筛选包含操作流程的文本、提取工作流程和工具定义、生成完整对话轨迹、提升复杂度并验证质量。
Q2:为什么从文本学习比传统方法更好?
A:传统方法依赖预设的工具集进行训练,就像只用固定玩具练习,适应性有限。而从文本学习能接触到人类在各个领域的真实操作经验,数据量更大、多样性更强、真实性更高,训练出的AI适应能力更强,能够更好地泛化到新场景。
Q3:这种方法训练的AI效果如何?
A:实验显示效果非常好。在BFCL V3测试中,32B模型达到44.88%准确率,超越了GPT-4.1等大型商业模型。在专业领域测试中,即使使用跨领域数据训练,也能媲美甚至超越使用领域内专门数据训练的模型,显示出强大的泛化能力。