学会反思的国产大模型,真变强了?
创始人
2024-10-18 17:44:46
0

真正能够像人类一样进行逻辑推理的大模型,距离我们还有多远?

随着OpenAI推出更侧重推理能力的 o1大模型,推理大模型正成为行业新的竞争方向。本周一,月之暗面推出的Kimi探索版,成为国产推理大模型的最新代表。

让大模型学会推理的诀窍是什么?各家厂商都提到了一个关键词--反思。通过将复杂问题一步步拆分,并且对每一步的输出结果进行反思检验,是降低大模型幻觉的有效途径。而这样的思路,看上去与人类的逻辑推理确实有一定相似性。

不过经过实测,我们发现现有大模型的逻辑推理能力仍然难以让人满意,这背后可能仍然绕不开大模型底层原理的限制。

但有趣的是,为了提高推理能力,国产大模型在使用工具的路上越走越远,反而可能是当下最现实的大模型落地途径之一。

推理大模型,真的会做题吗?

上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上线。

据官方介绍,Kimi探索版具备AI自主搜索能力,可以模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,提供更全面和准确的答案,帮助你更高效地完成分析调研等复杂任务。

那么实测来看,Kimi探索版实力究竟如何?

谈到推理能力,人们往往最先想到的是数学。很多测评都使用高等数学题目去测试大模型的推理能力,并且往往能够取得不错的效果。

不过从实用层面来看,大部分用户的需求并不是求解高数,而是解决日常生活中的应用题。

所以,我们打算让Kimi替最近上市的新车乐道L60算笔账。

蔚来换电体系下独特的BaaS电池租赁方案,让不少消费者在计算用车成本的时候也感到头疼,乐道L60发布会后,到底怎么买更划算引起了网友热烈讨论,不少网友甚至搬出了专业的会计知识。

我们问Kimi的问题是这样的:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。

可以看到,Kimi正确理解了BaaS的含义,虽然没有意识到乐道是换电而不是充电,不过按充电成本算也没有太大出入,整个逻辑基本是清晰的。

问题在于,虽然一开始提到了购车价格,但是在总用车成本的计算上,Kimi却并没有加上购车成本的折旧,没达到我们想要的效果。

于是,我们要求Kimi把折旧成本考虑进去,结果是这样的:

在最后的结论里,Kimi对购车价格和折旧成本进行了重复计算,显然是错误的。而这个错误,恰恰说明Kimi对于成本和折旧的逻辑理解还存在不足。

作为对比,我们用ChatGPT-4o mini测试了相同的问题,发现4o mini可以正确理解包括折旧、BaaS在内的各项成本的逻辑,可是却没有正确获得车辆的价格。

也就是说,Kimi并没有表现出比GPT-4更好的逻辑能力,但是在中文信息检索能力上却更加优秀。事实上,后者也是Kimi真正的强项所在,后面我们会再次讨论这一点。

不过在此之前,我们还发现了一个相对小众的选手--学而思九章大模型,也相当值得关注。

提到学而思,大家都知道它是以教培起家,尤其擅长数学教学。而九章大模型也继承了学而思的特长,专攻教育领域,并且宣称有更好的数学能力。

当我们以上述问题测试九章大模型时,它的表现非常出色--不仅能正确理解车辆残值、成本均摊等逻辑概念,还具体获得了乐道BaaS"满四减一"优惠、实际电耗水平等信息,因此给出的答案更能解决问题。

但美中不足的是,它并没有给出车辆折旧的具体数字,导致最终没有输出一个明确的答案。

这究竟是一个缺点,还是优点?其实从逻辑来看,九章这么做的原因,应该是同样出于"具体问题具体分析"的理念,由于自己没办法确定相关车辆的具体折旧率,因此就直接说明自己的不确定,充分保证了答案的严谨性。

看上去,九章的确更像是一个严谨、可靠的数学模型。

AI可能还没有学会推理

强化大语言模型的推理能力,在技术上是怎么实现的?大家都提到了一个关键词--反思。

月之暗面方面指出:就像人一样,Kimi探索版可以借助反思能力,来提升和改进回答的质量。面对开放探索型问题,Kimi探索版发现第一次回答的信息存在缺失,会主动补充回答更多。面对数字相关的搜索问题,Kimi了解更多信息后如果发现了数据冲突,则会及时补充提供多方视角的信息供参考决策。

从上面的演示中可以看到,Kimi会把自己的思考过程展示出来,让用户明确看到自己进行了一次补充检索。

九章大模型负责人白锦峰进一步解释说,同大模型类似,人类在幼年时期同样缺乏逻辑能力,会产生幻觉。但随着人类的成长,会逐渐学会逻辑推理,让自己的观点在逻辑上自洽,并拿观点去跟已经存在的事实进行校验,从而消除幻觉。

白锦峰表示,目前大语言模型的第一性原理是Next Token Prediction,也就是通过预测下一个字符的方式给出答案,而这种预测是基于概率的,这决定了大模型一定会有出错的概率。

为了提升准确率,目前的推理大模型普遍应用了CoT(思维链)和Voting&Verifier两种算法,前者将复杂问题拆分为多个步骤,后者则对于每一步的结果进行反思,多做几次检验来找到一致性最高的答案。

这两种算法模仿了人类思维方式中的校验过程,但其实仍然是基于概率,而不是逻辑推理。白锦峰指出,为了真正保证结果的正确性,大模型还需要应用定律的技术,例如学会使用数学定律来解决问题。

但是在应用定律方面,大模型仍然存在根本性的难点。白锦峰举例说,像加法交换律(a+b=b+a)这样简单的定律,人类可以直接理解公式,但是大模型只能通过穷举大量的案例(1+2=2+1等)来悟到这个规律。

因此,对于当前的大模型技术能否真正实现推理能力,很多人并不乐观。美国著名AI科学家Yann LeCun近日就尖锐地表示,当下的模型"似乎在进行推理,但实际上它们只是在重复已经训练过的信息",按照现有训练方式,无论多少GPU都不会让我们实现AGI。

苹果AI团队的最新研究也认为:大语言模型在相同问题的不同版本上表现出高性能差异、难度略微增加时性能大幅下降以及对无关信息的敏感性,表明其推理能力很脆弱。它可能更像是复杂的模式匹配,而不是真正的逻辑推理。

从大模型到Agent

尽管以AGI的标准来衡量,目前的推理大模型还远远不够完善,但是从实用层面,国产大模型正在这轮推理竞赛展现出了一个重要进化--调用工具。

例如,九章大模型在解决数学问题的时候,采用了一个看似原始却非常实用的办法--直接调用计算器。就像人类一样,学会使用工具,也是AI应当具备的能力。

Kimi调用的工具则是搜索引擎。Kimi探索版在回答问题时,最高能够搜索并精读500个网页,相较于此前版本提升了10倍。

而且我们在实测中发现,Kimi列出的参考页面普遍都来自较为权威的站点,内容质量也相对较高。在开放性的问题中,Kimi能够充分保证输出的客观和准确性,这才是探索版给我们印象最深刻的地方。

Kimi 探索版产品负责人表示,"如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为AI更擅长调用的工具,人只需要专注于提出好的问题,AI就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地找到所需答案。"

对于大部分普通用户来说,这话并不夸张。

从本质上讲,调用工具使得这些模型更接近于AI Agent的概念。尤其是对于Kimi探索版,相当于替用户完成了网页检索的任务,并且能够帮助用户去除搜索引擎中大量的低质量和营销内容,实用性极强。

如果说,当前的AI理论本身就限制了大模型难以实现真正的逻辑能力,那么在理论突破之前,如何最大化模型的实用性,让AI从Copilot向Agent尽可能地迈进,就是当下最重要的命题。

此外,从Kimi、九章的表现来看,国产大模型如今继续提升实用性的方式,并不一定是增加规模,或者提出什么独特的算法,而是通过专注于自己最擅长的垂直领域来提升准确率,并形成独特护城河。

白锦峰举例说,对于教育大模型来说,能答对问题和能教好学生之间,仍然存在区别。例如同样是除法,用除号还是用分号来表示,在教学中就是不一样的。对于小学生来说,因为还没有学过分数,所以用分号就是错误的回答。因此,学而思利用自己长期积累的教材和教师资源,能够做出更好的教育大模型。

专注垂直,也能够让成本更加可控。学而思方面人士向观察者网直言,大模型初期投入是不可避免的,目前也看不到直接的回报,但投入又是必须要做的,否则等到技术成熟再发力,早就失去了上牌桌的机会。

但是学而思并没有选择去自己研发基座大模型,而是基于开源大模型的基础,在百度云上进行千卡规模的训练,以可控的成本实现了不错的性能。

因此,国产推理大模型当下给我们的最大启示,或许仍然是实用为王。

相关内容

热门资讯

比利时:将正式承认巴勒斯坦国 △比利时副首相兼外交大臣普雷沃当地时间9月2日,比利时副首相兼外交大臣普雷沃在社交媒体上发布声明称,...
山东等20省份已实现!生育津贴... 国家医保局消息,目前,全国有20个省份(含新疆生产建设兵团)全面实现生育津贴直接发放至个人,即河北、...
美联邦政府拟“调兵”多座城市 ... 今年6月,美国总统特朗普在未获加利福尼亚州州长纽森请求的情况下向洛杉矶派遣国民警卫队,8月以打击犯罪...
AI生成内容不得“隐身”传播,... AI生成内容不得“隐身”传播。昨天,国家网信办等四部门联合发布的《人工智能生成合成内容标识办法》(以...
国产片集体发力!盘点2025暑... 根据国家电影局统计,今年暑期档电影票房为119.66亿元,观影人次3.21亿,同比分别增长2.76%...
美国两架飞机空中相撞,致1死3... 当地时间9月1日,记者获悉,美国联邦航空管理局(FAA)称,美国两架小型飞机于8月31日上午在科罗拉...
古特雷斯:对阿富汗地震造成重大... 当地时间9月1日,联合国秘书长古特雷斯通过发言人发表声明,对阿富汗东部发生的地震造成严重人员伤亡深感...
金价,大涨!创历史新高→ 9月1日国际金价显著上涨。纽约商品交易所12月交货的黄金期价盘中一度突破每盎司3550美元关口,创历...
古特雷斯:对阿富汗地震造成重大... 当地时间9月1日,联合国秘书长古特雷斯通过发言人发表声明,对阿富汗东部发生的地震造成严重人员伤亡深感...
各地中小学迎来“开学第一课” ... 这两天,全国各地的中小学正陆续开学,时值中国人民抗日战争暨世界反法西斯战争胜利80周年之际,为深切缅...
“青岛即墨最深情的男人” 这个男人被网友称为山东青岛即墨最深情的男人↓↓↓只因他十二年如一日守候在失明妻子的身旁成了妻子的“眼...
中央农办部署加强农村高额彩礼问... 综合整治农村高额彩礼问题是党中央关注、老百姓关心的一件民生实事。中央农村工作领导小组办公室将加强部署...
首都40所高校3000学子将在... 纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会9月3日上午将在北京天安门广场举行。广场合唱团...
上合组织天津峰会|上海合作组织... 新华社天津9月1日电上海合作组织成员国元首理事会关于支持多边贸易体制的声明我们,上海合作组织(以下简...
金正恩已启程来华 据韩联社报道,朝鲜劳动党总书记、国务委员长金正恩今天(9月1日)下午乘专列离开平壤,来华出席中国人民...
为什么有的人很少生病?原来他们... 日常三减,减掉疾病隐患;持久三健,健享精彩人生。9月1日是“全民健康生活方式日”。少生病、不生病的秘...
陕西拼作“Shaanxi“而不... 近日,有网友发帖称,在陕西历史博物馆游览时,注意到馆内标示牌上“陕西”的拼音写为“Shaanxi”,...
消费贷“国补”正式启动!如何领... 今日,消费贷“国补”正式启动!8月12日,财政部、中国人民银行、金融监管总局联合印发《个人消费贷款财...
九三阅兵 具体安排来了 天安门广场和长安街盛装以待,纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会即将在9月3日举行...
青岛市政府原党组成员、副市长吴... 中央纪委国家监委网站讯 据山东省纪委监委消息:经山东省委批准,山东省纪委监委对青岛市政府原党组成员、...