学会反思的国产大模型,真变强了?
创始人
2024-10-18 17:44:46
0

真正能够像人类一样进行逻辑推理的大模型,距离我们还有多远?

随着OpenAI推出更侧重推理能力的 o1大模型,推理大模型正成为行业新的竞争方向。本周一,月之暗面推出的Kimi探索版,成为国产推理大模型的最新代表。

让大模型学会推理的诀窍是什么?各家厂商都提到了一个关键词--反思。通过将复杂问题一步步拆分,并且对每一步的输出结果进行反思检验,是降低大模型幻觉的有效途径。而这样的思路,看上去与人类的逻辑推理确实有一定相似性。

不过经过实测,我们发现现有大模型的逻辑推理能力仍然难以让人满意,这背后可能仍然绕不开大模型底层原理的限制。

但有趣的是,为了提高推理能力,国产大模型在使用工具的路上越走越远,反而可能是当下最现实的大模型落地途径之一。

推理大模型,真的会做题吗?

上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上线。

据官方介绍,Kimi探索版具备AI自主搜索能力,可以模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,提供更全面和准确的答案,帮助你更高效地完成分析调研等复杂任务。

那么实测来看,Kimi探索版实力究竟如何?

谈到推理能力,人们往往最先想到的是数学。很多测评都使用高等数学题目去测试大模型的推理能力,并且往往能够取得不错的效果。

不过从实用层面来看,大部分用户的需求并不是求解高数,而是解决日常生活中的应用题。

所以,我们打算让Kimi替最近上市的新车乐道L60算笔账。

蔚来换电体系下独特的BaaS电池租赁方案,让不少消费者在计算用车成本的时候也感到头疼,乐道L60发布会后,到底怎么买更划算引起了网友热烈讨论,不少网友甚至搬出了专业的会计知识。

我们问Kimi的问题是这样的:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。

可以看到,Kimi正确理解了BaaS的含义,虽然没有意识到乐道是换电而不是充电,不过按充电成本算也没有太大出入,整个逻辑基本是清晰的。

问题在于,虽然一开始提到了购车价格,但是在总用车成本的计算上,Kimi却并没有加上购车成本的折旧,没达到我们想要的效果。

于是,我们要求Kimi把折旧成本考虑进去,结果是这样的:

在最后的结论里,Kimi对购车价格和折旧成本进行了重复计算,显然是错误的。而这个错误,恰恰说明Kimi对于成本和折旧的逻辑理解还存在不足。

作为对比,我们用ChatGPT-4o mini测试了相同的问题,发现4o mini可以正确理解包括折旧、BaaS在内的各项成本的逻辑,可是却没有正确获得车辆的价格。

也就是说,Kimi并没有表现出比GPT-4更好的逻辑能力,但是在中文信息检索能力上却更加优秀。事实上,后者也是Kimi真正的强项所在,后面我们会再次讨论这一点。

不过在此之前,我们还发现了一个相对小众的选手--学而思九章大模型,也相当值得关注。

提到学而思,大家都知道它是以教培起家,尤其擅长数学教学。而九章大模型也继承了学而思的特长,专攻教育领域,并且宣称有更好的数学能力。

当我们以上述问题测试九章大模型时,它的表现非常出色--不仅能正确理解车辆残值、成本均摊等逻辑概念,还具体获得了乐道BaaS"满四减一"优惠、实际电耗水平等信息,因此给出的答案更能解决问题。

但美中不足的是,它并没有给出车辆折旧的具体数字,导致最终没有输出一个明确的答案。

这究竟是一个缺点,还是优点?其实从逻辑来看,九章这么做的原因,应该是同样出于"具体问题具体分析"的理念,由于自己没办法确定相关车辆的具体折旧率,因此就直接说明自己的不确定,充分保证了答案的严谨性。

看上去,九章的确更像是一个严谨、可靠的数学模型。

AI可能还没有学会推理

强化大语言模型的推理能力,在技术上是怎么实现的?大家都提到了一个关键词--反思。

月之暗面方面指出:就像人一样,Kimi探索版可以借助反思能力,来提升和改进回答的质量。面对开放探索型问题,Kimi探索版发现第一次回答的信息存在缺失,会主动补充回答更多。面对数字相关的搜索问题,Kimi了解更多信息后如果发现了数据冲突,则会及时补充提供多方视角的信息供参考决策。

从上面的演示中可以看到,Kimi会把自己的思考过程展示出来,让用户明确看到自己进行了一次补充检索。

九章大模型负责人白锦峰进一步解释说,同大模型类似,人类在幼年时期同样缺乏逻辑能力,会产生幻觉。但随着人类的成长,会逐渐学会逻辑推理,让自己的观点在逻辑上自洽,并拿观点去跟已经存在的事实进行校验,从而消除幻觉。

白锦峰表示,目前大语言模型的第一性原理是Next Token Prediction,也就是通过预测下一个字符的方式给出答案,而这种预测是基于概率的,这决定了大模型一定会有出错的概率。

为了提升准确率,目前的推理大模型普遍应用了CoT(思维链)和Voting&Verifier两种算法,前者将复杂问题拆分为多个步骤,后者则对于每一步的结果进行反思,多做几次检验来找到一致性最高的答案。

这两种算法模仿了人类思维方式中的校验过程,但其实仍然是基于概率,而不是逻辑推理。白锦峰指出,为了真正保证结果的正确性,大模型还需要应用定律的技术,例如学会使用数学定律来解决问题。

但是在应用定律方面,大模型仍然存在根本性的难点。白锦峰举例说,像加法交换律(a+b=b+a)这样简单的定律,人类可以直接理解公式,但是大模型只能通过穷举大量的案例(1+2=2+1等)来悟到这个规律。

因此,对于当前的大模型技术能否真正实现推理能力,很多人并不乐观。美国著名AI科学家Yann LeCun近日就尖锐地表示,当下的模型"似乎在进行推理,但实际上它们只是在重复已经训练过的信息",按照现有训练方式,无论多少GPU都不会让我们实现AGI。

苹果AI团队的最新研究也认为:大语言模型在相同问题的不同版本上表现出高性能差异、难度略微增加时性能大幅下降以及对无关信息的敏感性,表明其推理能力很脆弱。它可能更像是复杂的模式匹配,而不是真正的逻辑推理。

从大模型到Agent

尽管以AGI的标准来衡量,目前的推理大模型还远远不够完善,但是从实用层面,国产大模型正在这轮推理竞赛展现出了一个重要进化--调用工具。

例如,九章大模型在解决数学问题的时候,采用了一个看似原始却非常实用的办法--直接调用计算器。就像人类一样,学会使用工具,也是AI应当具备的能力。

Kimi调用的工具则是搜索引擎。Kimi探索版在回答问题时,最高能够搜索并精读500个网页,相较于此前版本提升了10倍。

而且我们在实测中发现,Kimi列出的参考页面普遍都来自较为权威的站点,内容质量也相对较高。在开放性的问题中,Kimi能够充分保证输出的客观和准确性,这才是探索版给我们印象最深刻的地方。

Kimi 探索版产品负责人表示,"如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为AI更擅长调用的工具,人只需要专注于提出好的问题,AI就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地找到所需答案。"

对于大部分普通用户来说,这话并不夸张。

从本质上讲,调用工具使得这些模型更接近于AI Agent的概念。尤其是对于Kimi探索版,相当于替用户完成了网页检索的任务,并且能够帮助用户去除搜索引擎中大量的低质量和营销内容,实用性极强。

如果说,当前的AI理论本身就限制了大模型难以实现真正的逻辑能力,那么在理论突破之前,如何最大化模型的实用性,让AI从Copilot向Agent尽可能地迈进,就是当下最重要的命题。

此外,从Kimi、九章的表现来看,国产大模型如今继续提升实用性的方式,并不一定是增加规模,或者提出什么独特的算法,而是通过专注于自己最擅长的垂直领域来提升准确率,并形成独特护城河。

白锦峰举例说,对于教育大模型来说,能答对问题和能教好学生之间,仍然存在区别。例如同样是除法,用除号还是用分号来表示,在教学中就是不一样的。对于小学生来说,因为还没有学过分数,所以用分号就是错误的回答。因此,学而思利用自己长期积累的教材和教师资源,能够做出更好的教育大模型。

专注垂直,也能够让成本更加可控。学而思方面人士向观察者网直言,大模型初期投入是不可避免的,目前也看不到直接的回报,但投入又是必须要做的,否则等到技术成熟再发力,早就失去了上牌桌的机会。

但是学而思并没有选择去自己研发基座大模型,而是基于开源大模型的基础,在百度云上进行千卡规模的训练,以可控的成本实现了不错的性能。

因此,国产推理大模型当下给我们的最大启示,或许仍然是实用为王。

相关内容

热门资讯

小区暗藏“吃人”竖井:天津两男... 5月10日,是好好7岁的生日,但他却躺在天津市儿童医院的重症监护室,迟迟无法醒来。一家人趁周末去露营...
美方希望俄乌“大幅延长”停火 ... 俄罗斯官员9日表示,目前没有计划延长从5月9日至11日的停火。美国总统特朗普先前表示,希望“大幅延长...
系统升级后续航从500公里变3... 最近有车主反映,自己买的新能源车开了几年后,经过OTA(新能源汽车远程在线升级系统)完成升级后,原本...
航天员装备上新!新一代“飞天”... 天舟十号货运飞船是中国天舟系列的第十艘货运飞船,是世界现役货物运输能力最大、在轨支持能力最全面的货运...
听见母亲——散文集《母爱情深》... 5月9日上午,母亲节前夕,老干部之家杂志社多功能厅座无虚席,作为“书香传家”银龄阅读千百万计划首场线...
听见母亲——散文集《母爱情深》... 5月9日上午,母亲节前夕,老干部之家杂志社多功能厅座无虚席,作为“书香传家”银龄阅读千百万计划首场线...
石家庄裕华区通报“一社区卫生服... 5月9日,石家庄裕华区联合调查组发布情况通报:近日,针对群众反映栗水清苑社区卫生服务站存有过期药品等...
郑钦文1-2不敌奥斯塔彭科,止... 北京时间5月9日,WTA1000罗马站第三轮开打,郑钦文1-2不敌奥斯塔彭科,无缘晋级16强。郑钦文...
今年真会迎来史上最热夏天?中国... “今夏史上最热”“厄尔尼诺助推高温”……近期的网络上充斥着大量这样的信息,让不少人对今年夏天的天气心...
2026世界杯美加墨三国将分别... 国际足联8日宣布,2026年世界杯举办国墨西哥、加拿大和美国将分别举办开幕式。国际足联主席因凡蒂诺表...
一击摧毁浮雷 东部战区舰艇编队... 近日东部战区海军某登陆舰大队组成舰艇编队赴东海某海域开展实战化演练着力锤炼复杂环境下舰艇应急反应与精...
受贿数额特别巨大 宁夏卫健委原... 5月9日,宁夏吴忠市中级人民法院一审公开宣判宁夏回族自治区卫生健康委员会原党组书记、主任,中医药管理...
伊朗官员否认“美国袭击伊朗民用... 当地时间5月9日,伊朗南部霍尔木兹甘省伦格港县县长否认了当天早些时候传出的有关“美国战斗机在阿曼海塞...
印尼杜科诺火山喷发 中国驻泗水... 5月9日,中国驻泗水总领馆提醒中国公民关注杜科诺火山喷发情况。当地时间5月8日上午7时41分,印度尼...
墨西哥拟提前40天放暑假 世界... 墨西哥政府官员8日表示,考虑到筹备世界杯赛事及热浪来袭等因素,本学年将提前40天结束。这一决定引发舆...
涉及新兴领域等方面 市场监管总... 记者今天了解到,市场监管总局(国家标准委)批准发布402项重要国家标准及标准修改单,涉及新兴领域、生...
我国单线产能最大的大丝束碳纤维... 记者今天(5月9日)从中国石化获悉,我国单线产能最大的大丝束碳纤维生产线在内蒙古建成投产,单线设计产...
伊朗称美军打击伊朗6艘民用船 据伊朗方面9日消息,伊朗伦格港地方官员法瓦德·穆拉德扎德表示,8日晚美军战斗机在阿曼海塞卜港附近打击...
中方敦促国际社会合作应对移民问... 中国常驻联合国副代表孙磊8日在第二届国际移民审查论坛作一般性辩论发言时敦促国际社会加强团结合作,共同...
受贿数额特别巨大 江西省政协原... 记者今天(9日)从最高人民检察院获悉,江西省政协原党组成员、副主席胡幼桃涉嫌受贿一案,由国家监察委员...