ChatGPT 意味着大模型已经基本掌握人类语言,通过指令微调心领神会用户意图并完成任务。那么面向未来,我们可以考虑还有哪些人类独有的认知能力,是现在大模型所还不具备的呢?在我看来,人类高级认知能力体现在复杂任务的解决能力,有能力将从未遇到过的复杂任务拆解为已知解决方案的简单任务,然后基于简单任务的推理最终完成任务。而且在这个过程中,并不谋求将所有信息都记在人脑中,而是善于利用各种外部工具,“君子性非异也,善假于物也”。
大模型的认知学习问题探索研究

这将是大模型未来值得探索的重要方向。现在大模型虽然在很多方面取得了显著突破,但是生成幻觉问题依然严重,在专业领域任务上面临不可信、不专业的挑战。这些任务往往需要专业化工具或领域知识支持才能解决。因此,大模型需要具备学习使用各种专业工具的能力,这样才能更好地完成各项复杂任务。
工具学习有望解决模型时效性不足的问题,增强专业知识,提高可解释性。而大模型在理解复杂数据和场景方面,已经初步具备类人的推理规划能力,大模型工具学习(Tool Learning)范式应运而生。该范式核心在于将专业工具与大模型优势相融合,实现更高的准确性、效率和自主性。目前,已有 WebGPT / WebCPM 等工作成功让大模型学会使用搜索引擎,像人一样网上冲浪,有针对性地获取有用信息进而完成特定任务。

大模型的认知学习问题探索研究

最近,ChatGPT Plugins 的出现使其支持使用联网和数学计算等工具,被称为OpenAI 的 “App Store” 时刻。工具学习必将成为大模型的重要探索方向,为了支持开源社区对大模型工具学习能力的探索,我们开发了工具学习引擎 BMTools ,它是一个基于大语言模型的开源可扩展工具学习平台,将各种工具(如文生图模型、搜索引擎、股票查询等)的调用流程都统一在了同一个框架下,实现了工具调用流程的标准化和自动化。开发者可以通过 BMTools,使用给定的大模型 API(如ChatGPT、GPT-4)或开源模型调用各类工具接口完成任务。
此外,现有大部分努力都集中在单个预训练模型的能力提升上,而在单个大模型已经比较能打的基础上,未来将开启从单体智能到多体智能的飞跃,实现多模型间的交互、协同或竞争。例如,最近斯坦福大学构建了一个虚拟小镇,小镇中的人物由大模型扮演 ,在大模型的加持下,不同角色在虚拟沙盒环境中可以很好地互动或协作,展现出了一定程度的社会属性。多模型的交互、协同与竞争将是未来极具潜力的研究方向。目前,构建多模型交互环境尚无成熟解决方案,为此我们开发了开源框架 AgentVerse ,支持研究者通过简单的配置文件和几行代码搭建多模型交互环境。同时,AgentVerse 与 BMTools 实现联动,通过在配置文件中添加工具链接,即可为模型提供工具,从而实现有工具的多模型交互。未来,我们甚至可能雇佣一个“大模型助理团队”来协同调用工具,共同解决复杂问题。