很多人觉得AI做数学题不过是“照搬公式”,真要较真起来,它连初中生都不如。这话没错,但也不全对。就在去年,AI在数学竞赛题上的准确率还卡在65%左右,意思是三道题里能完整做对两道就算烧高香了。可短短一年后,这个数字已经蹿到了81%——这就不是简单的量变,而是质变了。
数学推理为什么这么难?关键在于它不是简单的模式匹配。一道代数题可能有好几种解法,AI得先理解题目在问什么,然后选择合适的工具,一步步推演,最后还要验证答案是否合理。这其中任何一步出错,满盘皆输。更棘手的是,数学题往往藏着“坑”——题目里看似无关的条件其实暗藏玄机,或者某个步骤需要用到非常规的技巧。以前的AI就像一个死记硬背的学生,题型稍微变个花样就抓瞎。
这次突破的底层逻辑,说白了就是模型在“思考过程”上下了功夫。传统的AI解题更像是直接报答案,中间步骤能省则省。新一代模型则学会了把推理过程拆解开来,每一步都单独校验,发现矛盾就及时回头重算。这就好比让学生养成“打草稿”的习惯,而不是心算到底——看似慢了,实则正确率飙升。
另一个容易被忽视的因素是“上下文理解”。一道数学题不是孤立的文字,它涉及概念定义、定理前提、计算约定。GPT-5.5 Instant在处理复杂文档结构化提取时的错误率从14.6%降到12.5%,说明它现在更能准确捕捉题目中的关键信息,不会把“求x的取值范围”误读成“求x的值”。
81%的准确率意味着什么?意味着AI已经可以跟省级数学竞赛的选手过过招了。当然,它还不是IMO金牌选手的水平,但这个差距正在以肉眼可见的速度缩小。更重要的是,这种推理能力是可以迁移的——数学好了,物理、化学、经济学这些需要严密逻辑的领域自然也会跟着进步。
或许用不了多久,我们就不会再讨论“AI能不能做数学题”,而是改成“AI怎么做数学题比人更快更准”了。
