2026-05-28
男子网坛一个新的历史纪录诞生,缔造者是当下的世界第一、意大利名将辛纳。在5月14日的罗马大师赛四分之一决赛中,辛纳以6比2、6比4完胜俄罗斯好手卢布列夫,完成了史无前例的大 ... [详细]
|
“6款主流大模型的解题能力整体表现呈现出清晰的梯队分化。”
我们就此开展了一场评测,选取了6名以推理见长的大模型“考生”,分别是讯飞星火、DeepSeek、智谱、ChatGPT、Kimi、MiniMax,选取了2026年新高考I卷数学卷进行测评。 此次评测,我们还邀请了两位专业老师辅助对大模型的考卷进行评分,他们分别是:人大附中北京经济技术开发区学校高中数学教师、教研组长、北京市数学骨干教师 韩静波,北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥。 测试结果显示,6款主流大模型的解题能力整体表现呈现出梯队分化。有专家指出,当前大模型的数学能力竞争,已经从“能算出结果”转向了“过程严谨、逻辑完整、复杂问题可拆解”的高阶比拼。 6位大模型“考生”总体得分情况。新京报制图/卢子雄 6位“考生”总分呈现梯度分布 需要说明的是,由于用于测评的题目为根据网络流出的多个版本交叉验证后的试题(可能存在与真题试卷不完全相符的情况,但不影响测评进行,所有大模型“考生”使用的均为相同题目),共19道题目,总分为150分。 先来看这次“考试”各位大模型“考生”的总体得分(规范分)情况:讯飞星火以148分总成绩领先,其他“考生”总分数由高到低分别为:Kimi145分、DeepSeek144分、智谱143分、MiniMax142分、ChatGPT137分。 在基础题部分,各模型选择题与多选题实现全员满分,仅个别模型在填空题中出现失误。 解答题和解题过程的规范性是拉开差距的关键。几位大模型“考生”中,讯飞星火全程规范分与结果分完全一致,推理过程较为清晰,字符也较规范。丁益祥举例,其第15题第(2)小题,讯飞星火给出了几何法和向量法两种方法求解;而在第18题第(2)小题中的第①小问,它充分利用了平面几何中三角形面积之间的关系,第②小问利用了夹角公式,简化了运算。 同时丁益祥指出,在第18题第(2)小题中的第①小题这一题型上,“MiniMax卷”和“智谱卷”也利用了平面几何中三角形面积之间的关系处理问题,都有不错表现。 在解答题部分,有些模型则在不同程度上存在步骤失分,或者在解答题中因关键推导缺失或逻辑不连贯被扣减步骤分。 “考生”不同题目得分情况。新京报制图/卢子雄 压轴题成为区分模型复杂推理能力的分水岭 由于考题较多,在此仅挑选部分题目来呈现作答情况并请专家进行点评。 韩静波注意到,讯飞星火在解析第二问几何性质时分析得很好,做法简洁,还有一些题目给出了两种解法。“讯飞星火在数形结合、对图形几何性质的研究上明显优于其他模型。” 压轴题(第18、19题)成为区分模型复杂推理能力的分水岭。大部分模型在第18题中表现尚可,但在第19题中出现了明显的“后继乏力”,有“考生”仅得12分(满分17分),反映出部分大模型在处理多步骤、高复杂度逻辑链时仍存在能力瓶颈。 韩静波发现,最后一题(19题)中,DeepSeek在大众形式化的代数推导比较擅长,利用通性通法按部就班做长逻辑的推导比较擅长,但是数形结合,对图形几何性质的分析稍显欠缺,此外,利用题目的特殊性灵活处理问题能力不足。 大模型解数学题仍存在明显提升空间 “可以说‘某些思路雷同,答卷各有千秋’,但也有些大模型还有改进的空间。”对于这六份由大模型“考生”给出的数学高考答卷,北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥点评道。 他以第15题第(1)小题为例,六份答卷一致地利用几何法证明;第18题第(1)小题,六份答卷一致地利用参数之间的关系求椭圆的标准方程;第19题第(1)小题,六份答卷一致地利用直接计算的方法求得结果。 丁益祥对试卷的批阅记录。 同时,丁益祥也指出了大模型需要改进的地方,包括知识运用不恰当、字符呈现不规范、部分解法不简练等问题。比如,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智谱卷”在求解第18题第(2)小题中都利用了向量的叉乘运算。在求解第19题第(2)小题中,“DeepSeek卷”还利用了“上确界”的概念,“这些都是高等数学中的知识,高中未学过,在解答高考数学试题中一般不宜使用。”丁益祥说道。 “MiniMax卷、智谱卷中的字符不统一、不规范,给人的感觉较为凌乱,看不清。还比如ChatGPT卷第15题第(2)小题的几何法证明较繁琐,智谱卷中第19题第(3)小题的推导不简练……”丁益祥认为,这意味着在做数学题方面,大模型还有改进的空间。 总体而言,头部大模型在高考数学场景中已展现出一定的解题实力,不仅能算出正确结果,在以规范、严谨的过程呈现推导思路方面呈现出一定优势;也有部分模型虽在基础题上表现稳定,但在步骤规范性与复杂压轴题的推理能力上仍有明显提升空间。 新京报记者 冯琪 刘洋 编辑 缪晨霞 校对 柳宝庆 |
2026-05-28
男子网坛一个新的历史纪录诞生,缔造者是当下的世界第一、意大利名将辛纳。在5月14日的罗马大师赛四分之一决赛中,辛纳以6比2、6比4完胜俄罗斯好手卢布列夫,完成了史无前例的大 ... [详细]
2026-04-20
根据徽声在线最新消息,北京时间4月16日,中国篮球协会此前正式对外公布了中国女篮新一期的19人集训大名单。然而,据媒体人我爱女篮透露,截至目前,仅有张子宇、刘禹彤等6名球员完成 ... [详细]
2026-06-03
CBA总决赛第四场,广厦力克上海将总比分扳至1-3。赛后卢伟分析败因,避谈争议判罚;王博豪言要抓住每一丝希望。总决赛悬念升级,第五场谁将笑到最后? ... [详细]
2026-06-05
据《队报》消息,圣马克西曼已同意加盟夏洛特FC,预计将前往美职联。在朗斯效力6个月后,法国球员圣马克西曼预计将转战美国,加盟夏洛特FC。过去几周,夏洛特FC一直在与圣马克西曼及 ... [详细]
啥病人看了这个都得好啊! 副标题 这胸是真的! 副标题 你赢了! 副标题 我是关心这是在哪里
乞丐装的最新境界! 副标题 买家你确定你不是阿宝?? 副标题 这裤子不敢坐下啊! 副标题 颜值
这鼠标垫你看到了什么?邪恶了吧! 副标题 毫无违和感! 副标题 小卖部的这女孩真会选呀! 副
女人真的不容易,怀孕后,内脏被挤压的严重,挺着大肚子干啥都不方便!近日,刘嘉姵和闺蜜集体拍
锤哥的替身也是辣么的帅气! 副标题 锤哥的替身好多啊! 副标题 你杀了你的替身,你可就没替
现在的圈子都比较流行小众,很多网络用词除非在特定的圈子里否则外人很多都不知道是什么
斗牛,是主要盛行于西班牙的一种表演运动,它被当地人们看作是一种很神圣的高贵的艺术行为
结婚有风险,相亲需谨慎,之前的翟欣欣事件大家还有印象吗?就是那个骗婚被逼跳楼的公务员苏