Loading...

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子:

还有非常简洁的草地、海洋:

动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:

游戏整体效果非常棒,网友们也是好评如潮:

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

你画我猜项目起源

模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?

首先,不得不提到Simon Willison的一次测试,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

随后Paul Calcraft看到测试,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示,之前大模型在《我的世界》里面比赛盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark!

还有人热心地提出了优化建议,比如以答对互相题目的速度作为评分准则,或者加入人类成绩作为参考。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

还有人提议将游戏变成对抗式训练,这样大模型会进步更快。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。

好嘛,咱们AI有自己的洞穴壁画(doge)。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

不过,游戏化学习(Learning through play)其实是教育理论和心理学中的一个重要术语。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑 大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。

作者Paul Calcraft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!

参考链接:

[1]

[2]

[3]

— 完 —

© 版权声明

相关文章

暂无评论

暂无评论...