o1 Pro挑战最难本科数学考试，36分钟16秒交卷

AI资讯2周前发布 aizhushou

8 0 0

一共12道题，比赛规定用时6小时

o1 Pro挑战最难本科数学考试，人类要考6小时，AI半小时交卷！

普特南数学竞赛（The Putnam exam），今年刚刚举行，卷子新鲜出炉就被拿来测试AI了。

这个比赛有多难呢？看了一下历年成绩，只能说令人咂舌——

通常由数学专业的本科生参加，满分120分，但平均分通常是0分或1分。

自1938年举办以来，截至2021年只有5人满分。

再看一组2003年的数据，在3615名参赛学生中，有1024人（28%）得分10分或以上，42分就能进入前1%。

最终，个人得分前五名的学生获得普特南学者称号。而经过这种难度的“磨炼”，普特南学者中后来诞生了3位菲尔兹奖得主以及两位诺贝尔物理学奖得主。

总之一句话，即使对美国顶尖大学的顶尖数学学生来说，这个比赛的难度都堪称地狱级。

所以，o1 Pro具体表现如何呢？？

o1 Pro挑战最难本科数学考试

普特南数学竞赛于每年12月的第一个周六举行，总共上下两场（每场3小时），每场6道题，每题10分，考查范围覆盖了本科数学中的高级概念，包括群论、集合论、图论、格论和数论等。

由于刚考完，官方还未正式公布今年的参考答案，所以下面我们先整体感受一下。

从时间来看，Pro完成12道题用时36分钟16秒，交卷速度非常快，平均每道用时2~3分钟。

完成的题也很复杂，随机挑一道康康。

比如这道A6，需要考生通过序列所生成的函数，来构建矩阵，并最终计算出这个矩阵的行列式。

这是一个典型的组合数学和线性代数的交叉问题。

最终，Pro给出了一大堆让人头疼的数学公式进行解答。（非专业选手两眼一黑的程度）

为了进一步了解Pro的答题过程，我们再挑一道网友们都在cue的题——A1。

原题及Dan Hendrycks博士输入的提示词如下：

大意为，确定所有正整数，使得存在正整数，和满足下列方程。

Pro的作答过程如下，并得出答案为1：

结合网友们给出的评价，均提到Pro漏掉了n=2这种情况。

总之，从大家对Pro的打分来看，其回答质量仍有待进一步完善。

由于目前还没有标准答案，因此AI究竟做对了多少还要等等结果。

除此之外，首位全职提示词工程师Riley Goodside也对o1 Pro模式进行了其他诸多测试。

挑战指令跟随的极限

比如用它设计一个7×7的网格，网格的外围一圈填入7个字母的单词，这些单词代表Fantastic Four（神奇四侠）中每个成员的昵称。每个单词的首尾字母需要重叠，以便可以顺时针方向连续阅读，形成闭环。

PS：Fantastic Four包括漫威中的神奇先生（Mr. Fantastic）、隐形女（Invisible Woman）、霹雳火（Human Torch）、石头人（The Thing）。

看完这个测试，有网友借机许愿：

是否能够根据每个玩家剩余的棋子列表，创建一个checkmate（指另一方无法解围的情况，也称“将死”）的棋盘。

受此启发，Riley Goodside转头就测上了。

他用Pro摆出了一个“将军”格局——每位玩家只剩下两个兵和一个车，棋盘上其他格子都是空的。（布局是人为设计的）

就这，还是他一番努力尝试后的结果。他一开始用了两个兵、两个象和一个车的棋局，但在多次尝试中，Pro出现了错误，或者返回了不符合的棋局。

不过他也提到，在5分45秒的时间内，Pro生成了与答案大致一致的COT思维链解释。

总之，要问定价200美元的Pro到底值不值？

还是参考奥特曼的回答，绝大多数人用免费版或20美元版就足够了，Pro版只适合很小一部分人，他们想要大量使用，且愿意为解决真正困难的问题付更多钱。

One More Thing

不过，如果你也心痒想要玩一玩，现在有个省钱的方法。根据网友提醒——

月底买Pro，只需按比例支付了。

具体来说，如果你之前订阅了ChatGPT Plus，如果在订阅接近结束时升级到Pro版，就可以在剩余时间内按照200美元的百分比支付。

# AI资讯 # 2003年数据 # Pro作答 # 数学公式解答 # 普特南数学竞赛 # 未确定对错

文章版权归作者所有，未经允许请勿转载。

智源发布心脏模型！超实时仿真人体生理功能，速度提升180倍

AI助手

12 0

上海人形机器人已进厂实习

AI助手

45 0

地平线更新招股书：半年收入9亿毛利率79%，上车285款，港交所IPO只差敲钟

AI助手

33 0

OpenAI o1 与 GPT-4o 大比拼：优势、局限性与用例全解析

AI助手

31 0

硅谷投资人张璐：马斯克星舰打开太空经济赛道

AI助手

9 0

ChatGPT开发AI浏览器挑战Google统治地位，AI时代互联网入口重塑

AI助手

14 0

暂无评论

暂无评论...

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

特斯拉赛博皮卡，马斯克下令停产？？？

揭秘注意力机制真正起源！10年前3项研究几乎同时独立提出，背后故事细节被Karpathy晒邮件公开了

相关文章

暂无评论

相关文章