如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-22 18:45:16来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 为什么小男孩小时候要比小女孩难养好多?

下一篇 : 大家晒一晒情侣聊天记录呗？

相关文章：

{dede:myad name='右侧广告位'/}

GoLang不需要Rakefile/Makefile，是如何实现交叉编译的？如在X86上生成MIPS的可执行。

Golang 团队从系统调用开始，从头搓了一套，什么都不依赖...
2025-06-24阅读全文 >>
家里想搞一个服务器，怎么才不违规？

稳妥点的野路子（适合中长期测试）适用情况：测试1-3个月...
2025-06-24阅读全文 >>
Electron 做游戏客户端的潜力有多大？

Electron既不是游戏引擎，也不是新时代，也不会带来变革...
2025-06-24阅读全文 >>
有哪些事，是社会底层人认识不到的?

我家里是干建材的，就自学了CAD，能画些简单的平面图。干...
2025-06-24阅读全文 >>
HTTP/3 解决了什么问题，又引入了什么新问题？

HTTP/3 实际上是 QUIC 协议 + HTTP2。我...
2025-06-24阅读全文 >>

养花知识本月排行

1非计算机专业，好奇为什么会出现“程序依赖bug运行”的情况？
为啥在全国***案刑事案件上升的趋势下，上海等一线城市会降低？
055万吨驱逐舰是不是有些被过于神化了，有没有了解的大佬详细解释一下？
程序员每天会阅读哪些技术网站来提升自己?
为什么说6月30日是裁员大限将至？
歼20速度接近3马赫是什么水平？
为什么现在知乎有一种j***a运行速度很慢，很吃***的论调？
华为自研的仓颉编程语言将于 7 月 30 日开源，这款语言将如何影响未来的开发趋势？
伊朗距离以色列上千公里，发射的导弹靠什么来导航定位呢？美国的GPS不会让他们用的。?
为什么大部分游戏公司仍在坚持使用SVN？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐