首页 > 资讯 > > 正文

CREATOR制造、使用工具,实现LLM「自我进化」_天天新消息

来源:机器之心 2023-06-22 19:15:54

机器之心专栏


【资料图】

机器之心编辑部

近日,来自清华大学以及 UIUC 的研究人员联合发布了关于大模型工具创造的研究框架。其旨在让大模型自己进行工具创造,以此剥离模型的抽象与具象思维能力,以降低任务推理成本,取得更好的效果。研究进一步探索了模型在工具创造方面的潜在应用价值,在当下对大模型能力的探索上更进了一步。

自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从 “学习” 中蜕变,去运用已知 “创造” 未来的无限可能。

论文链接:https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来,大规模语言模型(Large Language Models)取得了显著的研究进展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习(In-Context Learning)、代码生成(Code Generation)和各种其他自然语言处理任务方面表现出色,将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功,其当下仍然存在很多短板,包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性,在题干逻辑复杂时推理能力不稳定等等。针对这些短板,研究者开始致力于向当前模型架构中引入对外部资源的利用能力,例如引入计算器,问答系统,维基百科等等外部知识源,来增强模型能力。这一系列研究奠定了模型工具学习(Tool Learning)能力的基础。

然而,当下研究中利用的外部工具数量仍然有限,而在潜在的新任务类型几乎是无尽的。因此,在面对新的问题类型时,很难找到现有的适合解决问题的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担,并需要较高的学习成本。

因此,研究团队提出了全新的一种研究范式:工具创造(Tool Creation)。其不再是简单利用大模型使用工具的能力,而是加入了全新的工具创造模块,让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性,超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担,并解耦其进行抽象推理(创建可推广的具有普适性的工具)和具象推理(根据工具实现细节和工具使用文档进行决策)的能力。同时,该框架下模型以代码作为工具创造的媒介,这使得模型对于错误更加敏感,并能根据工具创造与使用中的问题进行回溯与修正。

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段:

创造(Creation):运用大模型对于问题的抽象推理能力,通过代码有针对性性地创造所需工具以及其使用说明。

决策(Decision):运用大模型对于问题的具象推理能力,决策如何调用工具来解决当前问题。

执行(Execution):根据创造的工具以及决策内容,进行决策的执行,并捕获执行过程中的输出信息。

修正(Rectification):运用大模型对于错因推理以及自我修复的能力,对执行阶段捕捉到的问题进行修复。

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明;此后,问题内容以及工具信息将同时再次返回给大模型,用以决策针对本问题的解决方案,以及如何使用这些工具。此后,模型将根据执行情况对工具及决策做出调整,以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力:提取问题关键信息的抽象思维推理,根据任务实施方案决策的具象思维推理,以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链(Chain-of-Thought, CoT)中的思维混乱而导致的失败现象,有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法(CoT),程序推理链方法(Program-of-Thought, PoT)以及没有创造的简单工具使用(Tool Use)进行了比对。同时,为了验证框架中剥离抽象推理与具象推理的有效性,作者还额外引入了整体工具创造(Tool Create - whole)作为基线,该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一,不再进行推理能力上的解耦。

Creation Challenge 数据集问题,标准工具及决策示例

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用在数据集的选取上,作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题,而后者将问题与丰富的数据表结合,二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外,作者还额外引入了全新构建的 Creation Challenge 数据集,其中的问题都无法直接套用现有工具或者代码包解决,从而考验了模型进行工具创造的能力。 在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来,CREATOR 框架的推理结果要明显好于所有基线,尤其相对于标准的推理方法以及程序推理方法,均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上,作者还额外验证了在有创造什么样的工具的提示(hint)的情况下,模型将会对问题有着更强的解决能力。因此,提示与思维解耦这两点也成为了工具创造中的重要影响因素。

不同方法针对任务难度的准确率统计

在修正阶段的参与下效果的提升

除此之外,作者还验证了不同方法对于任务难度的变化曲线,以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明,CREATOR 框架面对有难度的问题能够保持更好的鲁棒性,以及修正阶段的参与能够让不仅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外,文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具,那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同,但都涉及相同的核心知识(Core Knowledge),即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景,是否都能够有效解决并提升准确率。

对于大模型创造的工具在其他问题上迁移,能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景,能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性,对于同类问题也有着良好的普适性。

除此之外,作者还展示了大模型进行工具创造的三个维度:对已有工具进行封装以实现不同目的,将不同工具进行组合实现目标功能,以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力,而这些能力也帮助大模型能够更高效地适应不同场景。

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦,是继工具学习之后,对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础,继续在工具的使用与创造上不断证明与增强模型潜力,为我们带来更多惊喜。

文章主要作者

钱成,清华大学大三年级本科生,THUNLP 实验室成员,导师刘知远。目前研究方向包括大模型预训练,大模型高效微调,以及工具学习等领域。曾获清华大学计算机综合优秀奖学金,并以共同一作身份在 EMNLP,ACL 等国际会议中发表论文。

个人主页:https://qiancheng0.github.io/

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

x
推荐阅读

CREATOR制造、使用工具,实现LLM「自我进化」_天天新消息

2023-06-22 19:15:54

婚姻中的“黄金法则”:如何建立健康、长久的关系 世界热议

2023-06-22 18:06:18

今日要闻!第五届北京扇子文化艺术展开幕

2023-06-22 17:49:24

信息:跟队记者:托纳利将加盟纽卡,转会费至少8000万欧,年薪800万欧

2023-06-22 17:04:07

现场视频!直击银川爆炸烧烤店救援现场

2023-06-22 16:38:35

天天热议:task manager占用cpu_task manager

2023-06-22 15:40:00

毕业季房租普降!为顺利出租,部分杭州房东“卷”起来了

2023-06-22 15:04:45

实时:当一名让人民满意的好警察

2023-06-22 14:07:10

天天速读:四川简易点电子商务有限公司:怎么样?师资团队如何?

2023-06-22 13:08:41

天天快看点丨不挖人,不拆台!巨头联合发倡议

2023-06-22 12:04:07
相关新闻

CREATOR制造、使用工具,实现LLM「自我进化」_天天新消息

2023-06-22 19:15:54

婚姻中的“黄金法则”:如何建立健康、长久的关系 世界热议

2023-06-22 18:06:18

今日要闻!第五届北京扇子文化艺术展开幕

2023-06-22 17:49:24

信息:跟队记者:托纳利将加盟纽卡,转会费至少8000万欧,年薪800万欧

2023-06-22 17:04:07

现场视频!直击银川爆炸烧烤店救援现场

2023-06-22 16:38:35

天天热议:task manager占用cpu_task manager

2023-06-22 15:40:00

毕业季房租普降!为顺利出租,部分杭州房东“卷”起来了

2023-06-22 15:04:45

实时:当一名让人民满意的好警察

2023-06-22 14:07:10

天天速读:四川简易点电子商务有限公司:怎么样?师资团队如何?

2023-06-22 13:08:41

天天快看点丨不挖人,不拆台!巨头联合发倡议

2023-06-22 12:04:07

赣州经开区张卿兰曾祥荣上榜

2023-06-22 11:54:27

天天热议:第七史诗开荒用什么阵容 最强pve开荒阵容搭配攻略

2023-06-22 11:05:17

世界滚动:光遇6.22任务怎么做 2023年6月22日每日任务完成攻略[多图]

2023-06-22 10:14:30

前沿热点:苹果发布Apple Vision Pro开发者工具 使用Unity创作的app可直接移植

2023-06-22 09:49:40

天天热讯:取消企业银行开户许可(取消qq宠物)

2023-06-22 08:55:06

端午节只能道“安康”?专家解读来了

2023-06-22 08:20:37

全球快看点丨从安全属性对各种网络攻击进行分类截获攻击是针对什么的攻击

2023-06-22 07:18:51

高级经济师考试《高级经济实务(财税)》考点习题-税前扣除(2)

2023-06-22 06:17:17

显示器模糊有重影怎么解决(显示器模糊有重影)

2023-06-22 05:08:02

香港宽频(01310.HK):6月21日南向资金减持8.3万股 每日讯息

2023-06-22 03:35:32

新冠绿痰和黄痰哪个严重_绿痰和黄痰哪个严重 当前简讯

2023-06-22 02:54:21

踩中这些买表误区,说明你根本不懂表 环球观察

2023-06-22 00:56:33

环球热文:大棚的葡萄什么时候成熟_种大棚葡萄的最佳时间 种大棚葡萄什么时候最合适

2023-06-22 00:51:39

批发价的小龙虾多少斤一盘

2023-06-21 22:46:17

波切蒂诺首签来了!6000万攻击手正式加盟,后防大将或投国米

2023-06-21 21:40:54

计算机和自动化的哪个就业前景好_自动化专业就业前景女生

2023-06-21 21:01:01

4消息!唐才育成队长,天津签2外,广厦锁大外,郭艾伦仍未痊愈

2023-06-21 20:23:52

今日最新!萌系代表新手友好 上汽大众ID.3试驾体验

2023-06-21 19:52:36

视点!错误633是什么意思(错误633)

2023-06-21 19:01:00

夏至前的田野_全球最资讯

2023-06-21 18:54:35

电影《人生路不熟》密钥二次延期 上映至7月27日 全球热资讯

2023-06-21 18:14:16

环球热资讯!胃炎的人喝什么奶粉好?

2023-06-21 17:58:02

减肥的时候不能吃肉吗?

2023-06-21 17:03:56

山东省淄博市一级巡视员刘荣喜接受纪律审查和监察调查 世界独家

2023-06-21 16:59:18

【世界速看料】娱乐圈风波再起!黄子佼爆料大小S吸毒,网友质疑声明真实性!

2023-06-21 16:21:10

国网福州供电备战迎峰度夏加快302项配网重点工程建设

2023-06-21 15:57:36

“2023年中国网安产业竞争力50强”榜单揭晓 奇安信连续三年位居第一 环球热点评

2023-06-21 15:40:38

当前播报:盐城盐东镇举办“村晚” 文化惠民乐翻天

2023-06-21 15:43:41

环球热议:中泰证券给予阿特斯买入评级 光伏行业老兵 储能业务值得期待

2023-06-21 15:19:17

浙江省国税申报网站_浙江省国家税务局网上申报系统|全球头条

2023-06-21 14:59:50

新款奥迪A6海外上市,取消3.0T发动机,有望年底引入国内市场 当前快报

2023-06-21 14:47:40

衡阳 | 衡山县“悦读新时代 书香漫麇城”活动启动_世界播资讯

2023-06-21 14:42:35

梦回大清四阿哥谁演的(梦回大清四阿哥)_焦点精选

2023-06-21 14:17:43

南方电网95598网上营业厅上班时间_南方电网95598网上营业厅 视焦点讯

2023-06-21 14:28:05

天天热点评!规范收费自查报告

2023-06-21 14:16:09

商务局是干什么的地方_商务局是干什么的 世界热推荐

2023-06-21 13:53:30

教育部:坚定不移推进国家教育数字化战略行动

2023-06-21 13:47:05

每日热文:盘中失守7.2元关口!人民币汇率未来如何走?

2023-06-21 13:36:31

财政部:新能源乘用车减免车辆购置税设减免限额,明年后年购车最高减免3万元

2023-06-21 13:24:04

当前消息!欠款多久不还能申请停息挂账?无力还款能申请停息挂账吗?|环球新动态

2023-06-21 12:19:33

微波炉蒸蛋要几分钟呀 微波炉蒸蛋要几分钟

2023-06-21 12:07:35

【世界快播报】紧扣一个“实”字,抓好联动推进!市委主题教育领导小组会议部署重点工作

2023-06-21 11:37:13

chang是什么意思_昶是什么意思|焦点速讯

2023-06-21 11:29:03

骑马与砍杀战团1174更新了什么_骑马与砍杀战团1 174序列号

2023-06-21 11:20:02

莫罗庄园(关于莫罗庄园的简介) 环球聚焦

2023-06-21 11:25:02

临西县尖冢镇:产业兴乡村美绘就振兴和美画卷

2023-06-20 16:46:01

智能自控:目前公司首期募投项目和可转债募投项目均已开始投产

2023-06-20 16:17:48

【环球新要闻】女子与他人共享屏幕 背负百万网贷 不要轻易下载视频会议软件!

2023-06-20 16:07:31

乐鑫科技:开发套件ESP32-S3-BOX市场需求量稳步增长

2023-06-20 15:15:16

平高电气(600312)6月20日主力资金净卖出1373.57万元 环球消息

2023-06-20 15:03:49

快资讯:奥拓电子:Metabox可适用于各类电商平台的虚拟直播

2023-06-20 14:21:27

凉山州属国有企业2023上半年招聘 看点

2023-06-20 14:04:33

容大感光(300576.SZ):珠海项目设计产能为1.20亿平方米感光干膜和1.53万吨显示用及半导体用光刻胶及配套化学品

2023-06-20 13:40:35

高考网上咨询周本22日启动

2023-06-20 12:55:45

科技赋能 炼精有术 安化县黄精精深加工闯出新路径

2023-06-20 12:08:37

第一人称第二人称第三人称好处及作用(第一人称第二人称第三人称)

2023-06-20 11:53:33

教育部公布“2023年高考网上咨询周”时间安排 天天时讯

2023-06-20 11:17:39

格林生物IPO:产能利用率倒退5年还要扩产80% 偿债能力连年告急|上市公司研究院 每日消息

2023-06-20 10:46:16

文化和旅游部要求切实解决游客“找厕难”问题 当前通讯|全球新资讯

2023-06-20 10:44:00

焦点热讯:广西一对新人用水果装饰婚车,网友:好看好吃不浪费

2023-06-20 10:09:16

全球微速讯:【监管声音】打造金融助力乡村振兴“泰安样板”

2023-06-20 09:58:52

两市融资余额增加61.98亿元-全球热文

2023-06-20 09:08:11

“作业人员”落水后火速救援,2023年广州交通建设工程综合应急演练19日举行

2023-06-20 08:58:22

山东港口青岛港与海信集团、海丰国际签署三方战略合作协议 天天最资讯

2023-06-20 08:06:03

环球资讯:257亿大手笔 卫星化学重拳发力高效能光伏胶膜

2023-06-20 07:31:17

电脑文件加密方法(电脑文件加密怎么解除)

2023-06-20 06:15:54

比尔·盖茨:中国是过去50年进步最快的国家之一-环球最资讯

2023-06-20 05:02:22

山东大学威海分校录取分数线2022(山东大学威海分校录取分数线)_天天聚看点

2023-06-20 03:13:59

焦点播报:米兰看上22岁阿根廷国脚帝星,迪亚斯最佳替代者,意甲豪门来抢人

2023-06-20 00:59:57

当前最新:拳皇97键盘八神出招简化_拳皇97八神出招表_电脑键盘

2023-06-19 22:55:48

去有风的地方,听一曲中国古典音乐的“活化石” 世界独家

2023-06-19 21:48:55

好莱客:持续聚焦“新原态+大家居”核心战略

2023-06-19 21:12:57

埃斯顿(002747.SZ):公司的机器人使用的是自研的控制系统-世界热点

2023-06-19 20:49:48

江宁街道江宁社区开展家庭安全基本知识宣传活动

2023-06-19 20:03:47

中国丰收地图:中国粮仓 装满中国粮 环球热点评

2023-06-19 19:31:15

杭州大学有哪些本科(杭州大学有哪些) 当前看点

2023-06-19 18:58:42

西部矿业:控股股东拟增持公司不低于0.55%股份

2023-06-19 18:15:29

教育部公布2023年高考网上咨询周时间安排-滚动

2023-06-19 17:57:48

天天新动态:含嘌呤高的食物一览表图片 含嘌呤高的食物一览表

2023-06-19 17:14:36

即时:【高端访谈】推进金融租赁业务“全绿”转型——专访兴业金租董事长李小东

2023-06-19 17:06:37

驿城区召开巩固国家卫生城市常态化创建工作推进会 天天新资讯

2023-06-19 16:08:11

洛川:健康体检进工地 关爱工友暖人心

2023-06-19 15:50:48

白夜极光白兰值得练吗 今日热讯

2023-06-19 15:22:26

Q355NBZ25低合金板,Q355NBZ25低合金板厂家|价格|加工|切割

2023-06-19 14:53:20

5岁男童常喝高糖饮料牙坏掉13颗

2023-06-19 14:30:06

世界快资讯丨奇才太阳大交易各取所需 比尔保罗没人是输家?

2023-06-19 14:00:47

今日播报!正邦品牌设计怎么样_正邦品牌设计

2023-06-19 12:54:45

苹果Vision Pro头显外接电池解决供电限制,MOMAX摩米士率先推出 全球信息

2023-06-19 12:34:35

动态:透过数据看活力 中国经济稳中有进

2023-06-19 12:07:18

【天天快播报】资管巨头骏利亨德森:全球信贷紧缩风险正在上升

2023-06-19 11:24:51