百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

腾讯发布DeepMath-103K,数学能力断崖式超过所有基线!

csdh11 2025-05-22 09:53 5 浏览

数学能力的重大突破:腾讯发布的DeepMath-103K是什么?

如果LLM要参加奥数竞赛,它需要刷多少题?传统题库可能只有“课后习题”水平,而DeepMath-103K直接准备了10.3万道高难度数学题

,涵盖从初中几何到大学微积分,甚至竞赛级题目(比如椭圆线积分、组合数学等)。

论文:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
链接:https://github.com/zwhe99/DeepMath/blob/main/deepmath-103k-report.pdf

比如论文中的例题:

题目:计算椭圆上的线积分,但积分公式里有个“坑”——某点在椭圆内会导致公式失效。

这种题对人类都是挑战,而LLM通过这个题库训练后,能学会避开陷阱,找到解题关键。

为什么它比现有数据集更牛?

亮点1:题目难到逆天

普通数学题库的题目难度像“爬小山”,而DeepMath-103K直接让LLM“登珠峰”。 论文数据显示,它的问题85%集中在难度5-9级(最高10级),远超其他公开数据集。

亮点2:防作弊系统

传统数据集常混入“考试真题”,导致AI刷题时提前“偷看答案”(比如AMC/AIME竞赛题)。而DeepMath-103K用侦探技术,通过语义对比和模型判断,删除了90%的相似题目,确保训练后的是“真学霸”,不是“背题机器”。

亮点3:答案可自动批改

每个题都有唯一可验证的答案(比如数值或符号结果),AI每做一题,系统能秒速判对错。这让AI像学生刷题一样,快速纠正错误,迭代进步。

亮点4:一题三解

每个题目附带3种不同解法,比如用几何分析、代数变形或数值计算。模型学完后,能灵活切换思路,解决同类问题更游刃有余。

打造过程有多硬核?

Step 1:全网搜题

团队从数学论坛、竞赛题库等渠道抓取286万道题,但90%因“太简单”或“重复”被淘汰。

Step 2:去污染

用语义模型和Llama-3大模型对比题目,像老师查重论文一样,把疑似“考试原题”全部删除。例如,一个关于“硬币找零”的题和AMC真题高度相似,直接被踢出题库。

Step 3:GPT-4当考官

剩下的题目让GPT-4扮演“奥数教练”,从知识深度、步骤复杂度等维度打分,只保留5级以上的题。

Step 4:答案一致性验证

生成3种解法,确保最终答案一致。比如某题若出现“2+3=6”这种低级错误,直接整题作废。

实战效果:用了它的LLM有多强?

训练后的模型(如DeepMath-Zero-7B)在多个数学竞赛级测试中表现逆天:

  • AMC23(美国数学竞赛):准确率64.7%,碾压其他模型
  • AIME25(国际数学邀请赛):成绩提升近3倍

更神奇的是,解题步骤变得更长、更详细。比如在AIME24测试中,推理文本从1500字暴涨到12000字

(话说...这是好事还是?)

说明它学会了“一步步推导”,而不是瞎蒙答案。

对未来的意义:离数学家还有多远?

DeepMath-103K的诞生,让AI的数学推理能力迈出一大步。未来,这种“高难度题库+强化学习”的模式可能用于:

  • 教育领域:AI家教秒解难题,还能教学生多种解法
  • 科研辅助:帮数学家验证猜想,发现新规律
  • 通用AI:培养逻辑思维,让AI更接近人类推理能力

当然,模型目前还不会自主提出“黎曼猜想”,但至少,它离“奥数金牌”越来越近了。

相关推荐

Aspose.Cells新版上线,实现了更有效的格式转换功能!

概述:使用Aspose.Cells您无需MSExcel就可实现类似Excel电子表格的功能。Aspose.Cells新版上线,支持智能标记接受一个通用列表作为嵌套对象,还可以从StyleColle...

Aspose.Pdf新版来袭,精准的分页功能带给您全新的阅读体验!

概述:Aspose.Pdf是一个PDF文档创建组件,用户无需使用AdobeAcrobat也可读写和操作PDF文件。Aspose.Pdf新版增加了对标题实例中UserLabel属性的支持,而且分页时...

15个最强大的STL模型修复工具

如果你进行3D打印,可能遇到过可怕的“无法打印STL”问题:你的STL文件看起来很棒,但它会导致切片机出现问题或导致奇怪的打印错误或完全失败。无论确切原因是什么,这些问题的根源通常归结为...

Aspose.Slides for Cloud是一个让你高效处理演示文稿的应用程序接口!

Aspose.SlidesforCloud可以让你提取演示文稿中的幻灯片、文字、颜色、字体格式、形状和图像等不同的元素。它拥有强大的API可以让你处理云端的MicrosoftPowerPoint...

Aspose.Words for .NET使用教程(四):渲染和打印及文档内容功能

Aspose.Words无需MicrosoftWord也可在任何平台上满足Word文档的一切操作需求。本文将以表格的形式与大家分享Aspose.Wordsfor.NET的渲染和打印及文档内容功能...

Aspose.BarCode新版发布条码识别更准确

Aspose.BarCodefor.NETv7.4.0新增:BARCODENET-34297识别条码的尺寸较小的图像BARCODENET-34265新增对ITF14条码顶部和底部水平条的重置...

Aspose.BarCode 更新至v7.1.0

Aspose.BarCode是一个功能强大,且稳健的条形码生成和识别组件,其使用托管的C#编写,能帮助开发者快速简便的向其Microsoft应用程序(WinForms,ASP.NET和.NETC...

Aspose.Words 14.9.0发布,涵盖120多项更新

Aspose.Words14.9主要更新内容:新的报告引擎允许在报告模板使用LINQ方法语法。图像sdt支持数据绑定。DrawingML现在是一个复合节点。DrawingML支持链接的文本框。改善...

Aspose.Email V6.6.0发布

Aspose.Emailfor.NET6.6.0更新Aspose.Email是一个类库,使得应用程序可以操纵包括MicrosoftOutlook在内的流行消息格式。它支持IMAP、SMTP、P...

Aspose.Slides新版上线,更流畅地读取演示文稿!

Aspose.Slidesfor.NET15.9.0问题修复:SLIDESNET-36905-文本的颜色值错误SLIDESNET-36898-不能创建线形图报告SLIDESNET-368...

电子表格管理控件Aspose.Cells新版本v8.7.2发布!

表格控件Aspose.Cells支持所有Excel格式类型的操作,在没有MicrosoftExcel的环境下,用户也可为其应用程序嵌入类似Excel的强大数据管理功能。Aspose.Cells可以对...

Aspose.Words for .NET使用教程(十一):检测文件格式和兼容性

Aspose.Words无需MicrosoftWord也可在任何平台上满足Word文档的一切操作需求。本文将与大家分享如何检测文件格式和检查格式兼容性。...

Aspose.Total 6折,单品85折 史上最低仅剩10天

12月“百厂约惠”活动,ASPOSE迎来史上最低折扣6折(Aspose.Total6折,单品85折),现在活动进入10天倒计时,活动结束立即恢复原价。活动截止:12月31日活动内容:Aspose....

Aspose.slide 批量替换母版背景图

收到一个业务需求,需要批量将pptx的母版的背景图进行替换,如果人工做的话,每个文件将需要花半小时到1个小时,每期100多个,每期将多要花费10多个人天,我们来看看怎么高效优化。直接祭起aspose....

C#导出excel复杂表格(单元各合并)

...