学会反思的国产大模型,真变强了?
创始人
2024-10-18 17:44:46
0

真正能够像人类一样进行逻辑推理的大模型,距离我们还有多远?

随着OpenAI推出更侧重推理能力的 o1大模型,推理大模型正成为行业新的竞争方向。本周一,月之暗面推出的Kimi探索版,成为国产推理大模型的最新代表。

让大模型学会推理的诀窍是什么?各家厂商都提到了一个关键词--反思。通过将复杂问题一步步拆分,并且对每一步的输出结果进行反思检验,是降低大模型幻觉的有效途径。而这样的思路,看上去与人类的逻辑推理确实有一定相似性。

不过经过实测,我们发现现有大模型的逻辑推理能力仍然难以让人满意,这背后可能仍然绕不开大模型底层原理的限制。

但有趣的是,为了提高推理能力,国产大模型在使用工具的路上越走越远,反而可能是当下最现实的大模型落地途径之一。

推理大模型,真的会做题吗?

上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上线。

据官方介绍,Kimi探索版具备AI自主搜索能力,可以模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,提供更全面和准确的答案,帮助你更高效地完成分析调研等复杂任务。

那么实测来看,Kimi探索版实力究竟如何?

谈到推理能力,人们往往最先想到的是数学。很多测评都使用高等数学题目去测试大模型的推理能力,并且往往能够取得不错的效果。

不过从实用层面来看,大部分用户的需求并不是求解高数,而是解决日常生活中的应用题。

所以,我们打算让Kimi替最近上市的新车乐道L60算笔账。

蔚来换电体系下独特的BaaS电池租赁方案,让不少消费者在计算用车成本的时候也感到头疼,乐道L60发布会后,到底怎么买更划算引起了网友热烈讨论,不少网友甚至搬出了专业的会计知识。

我们问Kimi的问题是这样的:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。

可以看到,Kimi正确理解了BaaS的含义,虽然没有意识到乐道是换电而不是充电,不过按充电成本算也没有太大出入,整个逻辑基本是清晰的。

问题在于,虽然一开始提到了购车价格,但是在总用车成本的计算上,Kimi却并没有加上购车成本的折旧,没达到我们想要的效果。

于是,我们要求Kimi把折旧成本考虑进去,结果是这样的:

在最后的结论里,Kimi对购车价格和折旧成本进行了重复计算,显然是错误的。而这个错误,恰恰说明Kimi对于成本和折旧的逻辑理解还存在不足。

作为对比,我们用ChatGPT-4o mini测试了相同的问题,发现4o mini可以正确理解包括折旧、BaaS在内的各项成本的逻辑,可是却没有正确获得车辆的价格。

也就是说,Kimi并没有表现出比GPT-4更好的逻辑能力,但是在中文信息检索能力上却更加优秀。事实上,后者也是Kimi真正的强项所在,后面我们会再次讨论这一点。

不过在此之前,我们还发现了一个相对小众的选手--学而思九章大模型,也相当值得关注。

提到学而思,大家都知道它是以教培起家,尤其擅长数学教学。而九章大模型也继承了学而思的特长,专攻教育领域,并且宣称有更好的数学能力。

当我们以上述问题测试九章大模型时,它的表现非常出色--不仅能正确理解车辆残值、成本均摊等逻辑概念,还具体获得了乐道BaaS"满四减一"优惠、实际电耗水平等信息,因此给出的答案更能解决问题。

但美中不足的是,它并没有给出车辆折旧的具体数字,导致最终没有输出一个明确的答案。

这究竟是一个缺点,还是优点?其实从逻辑来看,九章这么做的原因,应该是同样出于"具体问题具体分析"的理念,由于自己没办法确定相关车辆的具体折旧率,因此就直接说明自己的不确定,充分保证了答案的严谨性。

看上去,九章的确更像是一个严谨、可靠的数学模型。

AI可能还没有学会推理

强化大语言模型的推理能力,在技术上是怎么实现的?大家都提到了一个关键词--反思。

月之暗面方面指出:就像人一样,Kimi探索版可以借助反思能力,来提升和改进回答的质量。面对开放探索型问题,Kimi探索版发现第一次回答的信息存在缺失,会主动补充回答更多。面对数字相关的搜索问题,Kimi了解更多信息后如果发现了数据冲突,则会及时补充提供多方视角的信息供参考决策。

从上面的演示中可以看到,Kimi会把自己的思考过程展示出来,让用户明确看到自己进行了一次补充检索。

九章大模型负责人白锦峰进一步解释说,同大模型类似,人类在幼年时期同样缺乏逻辑能力,会产生幻觉。但随着人类的成长,会逐渐学会逻辑推理,让自己的观点在逻辑上自洽,并拿观点去跟已经存在的事实进行校验,从而消除幻觉。

白锦峰表示,目前大语言模型的第一性原理是Next Token Prediction,也就是通过预测下一个字符的方式给出答案,而这种预测是基于概率的,这决定了大模型一定会有出错的概率。

为了提升准确率,目前的推理大模型普遍应用了CoT(思维链)和Voting&Verifier两种算法,前者将复杂问题拆分为多个步骤,后者则对于每一步的结果进行反思,多做几次检验来找到一致性最高的答案。

这两种算法模仿了人类思维方式中的校验过程,但其实仍然是基于概率,而不是逻辑推理。白锦峰指出,为了真正保证结果的正确性,大模型还需要应用定律的技术,例如学会使用数学定律来解决问题。

但是在应用定律方面,大模型仍然存在根本性的难点。白锦峰举例说,像加法交换律(a+b=b+a)这样简单的定律,人类可以直接理解公式,但是大模型只能通过穷举大量的案例(1+2=2+1等)来悟到这个规律。

因此,对于当前的大模型技术能否真正实现推理能力,很多人并不乐观。美国著名AI科学家Yann LeCun近日就尖锐地表示,当下的模型"似乎在进行推理,但实际上它们只是在重复已经训练过的信息",按照现有训练方式,无论多少GPU都不会让我们实现AGI。

苹果AI团队的最新研究也认为:大语言模型在相同问题的不同版本上表现出高性能差异、难度略微增加时性能大幅下降以及对无关信息的敏感性,表明其推理能力很脆弱。它可能更像是复杂的模式匹配,而不是真正的逻辑推理。

从大模型到Agent

尽管以AGI的标准来衡量,目前的推理大模型还远远不够完善,但是从实用层面,国产大模型正在这轮推理竞赛展现出了一个重要进化--调用工具。

例如,九章大模型在解决数学问题的时候,采用了一个看似原始却非常实用的办法--直接调用计算器。就像人类一样,学会使用工具,也是AI应当具备的能力。

Kimi调用的工具则是搜索引擎。Kimi探索版在回答问题时,最高能够搜索并精读500个网页,相较于此前版本提升了10倍。

而且我们在实测中发现,Kimi列出的参考页面普遍都来自较为权威的站点,内容质量也相对较高。在开放性的问题中,Kimi能够充分保证输出的客观和准确性,这才是探索版给我们印象最深刻的地方。

Kimi 探索版产品负责人表示,"如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为AI更擅长调用的工具,人只需要专注于提出好的问题,AI就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地找到所需答案。"

对于大部分普通用户来说,这话并不夸张。

从本质上讲,调用工具使得这些模型更接近于AI Agent的概念。尤其是对于Kimi探索版,相当于替用户完成了网页检索的任务,并且能够帮助用户去除搜索引擎中大量的低质量和营销内容,实用性极强。

如果说,当前的AI理论本身就限制了大模型难以实现真正的逻辑能力,那么在理论突破之前,如何最大化模型的实用性,让AI从Copilot向Agent尽可能地迈进,就是当下最重要的命题。

此外,从Kimi、九章的表现来看,国产大模型如今继续提升实用性的方式,并不一定是增加规模,或者提出什么独特的算法,而是通过专注于自己最擅长的垂直领域来提升准确率,并形成独特护城河。

白锦峰举例说,对于教育大模型来说,能答对问题和能教好学生之间,仍然存在区别。例如同样是除法,用除号还是用分号来表示,在教学中就是不一样的。对于小学生来说,因为还没有学过分数,所以用分号就是错误的回答。因此,学而思利用自己长期积累的教材和教师资源,能够做出更好的教育大模型。

专注垂直,也能够让成本更加可控。学而思方面人士向观察者网直言,大模型初期投入是不可避免的,目前也看不到直接的回报,但投入又是必须要做的,否则等到技术成熟再发力,早就失去了上牌桌的机会。

但是学而思并没有选择去自己研发基座大模型,而是基于开源大模型的基础,在百度云上进行千卡规模的训练,以可控的成本实现了不错的性能。

因此,国产推理大模型当下给我们的最大启示,或许仍然是实用为王。

相关内容

热门资讯

伊朗表示以色列袭击已造成430... 根据伊朗卫生部于当地时间6月21日发布的数据,自6月13日以伊冲突爆发以来,伊朗已有至少430人死亡...
成都一诊所推出“50元输三天液... 近日,有网友在社交媒体发布视频称,位于成都市金牛区抚琴中街的某诊所,正在推出“50元输液3天”的促销...
建成后将实现多个“第一” 我国... 2025年6月21日,由中国科学院紫金山天文台主导的4.2米地基专用天体测量望远镜与2.5米多终端通...
31省份高考查分时间公布 据微言教育消息,2025年各省市高考成绩查询时间陆续公布。
跨境支付通明天上线 哪些人可以... 什么是跨境支付通?昨天(6月20日),中国人民银行与香港金融管理局联合举办内地与香港快速支付系统互联...
伊朗外长将前往莫斯科会见普京 △伊朗外交部长阿拉格齐(资料图)当地时间21日,总台记者获悉,伊朗外交部长阿拉格齐预计将于23日在俄...
夏至节气开启,华北将现持续性高... 预计周末两天(6月21日至22日),贵州到长江中下游一带的强降雨仍将持续,强降雨落区东段将逐渐南压,...
哪吒汽车,被申请破产!上海办公... 6月19日,哪吒汽车母公司合众新能源汽车股份有限公司被申请破产一案有了更新,正式进入破产程序。此前哪...
特朗普:很难要求以色列停止空袭... 当地时间20日,美国总统特朗普表示,很难要求以色列停止空袭,他可能会支持停火。国总统特朗普据悉,当被...
泰国总理通话录音引发争议 8名... 泰国总理佩通坦(资料图)央视新闻消息,当地时间20日,泰国宪政公报网发布公告,宣布8名自豪泰党内阁成...
以色列国防军对伊朗西部发动新一... 以色列军方官员当地时间20日夜间称,不久前,以色列对伊朗西部发动了新一轮空袭,本次袭击的目标是伊朗弹...
华人讲述撤离德黑兰:坐大巴去亚... 以伊冲突仍在持续。据央视新闻,截至18日,伊以双方公布的最新伤亡数据显示,本轮冲突已致伊朗境内585...
“笔试倒数第二、面试第一应聘者... 图据湖北省农业科学院网站湖北省农业科学院6月20日发布情况通报称,近日,关注到网络上反映我院公开招聘...
美法官批准:哈佛大学可以暂时继... 总台记者当地时间20日获悉,美国一名联邦法官批准了一项初步禁令,叫停了特朗普政府阻止哈佛大学接收国际...
“笔试倒数第二、面试第一应聘者... 图据湖北省农业科学院网站湖北省农业科学院6月20日发布情况通报称,近日,关注到网络上反映我院公开招聘...
以军要求以色列全境民众进入避难... 据@CCTV国际时讯消息,当地时间今天(6月20日)下午,伊朗向以色列发动新一轮导弹攻击,耶路撒冷及...
逾740名中国公民自伊朗撤至阿... 据中国驻阿塞拜疆使馆消息,截至当地时间20日12时,已有逾740名中国公民从伊朗经阿斯塔拉口岸撤至阿...
外媒就“24小时内46架解放军... 6月20日,外交部发言人郭嘉昆主持例行记者会。有外媒记者提问,台湾当局称,在过去24小时内,46架解...
湖南龙山暴雨地下车库失联3人已... 6月18日晚,龙山县普降暴雨到大暴雨,造成道路塌方受淹、桥涵受损、群众房屋及农作物受损,灾情严重。6...
国家防灾减灾救灾委员会:针对湖... 6月20日,国家防灾减灾救灾委员会针对湖南省近期严重洪涝灾害,启动国家四级救灾应急响应,派出工作组赴...