采用全新piano架构
北大校友打造的1000个智能体「我的世界」,背后原理揭晓了!
团队全新公开35页技术报告,详尽解密AI智能体如何产生专业化分工、社交互动、甚至传播虚拟宗教……
其中最精彩的,当数团队整活儿:
让牧师NPC引入虚拟宗教,最后发现该宗教在500个智能体(横跨6大城乡)中进行了广泛传播。
据介绍,项目整体由一个名为PIANO的架构提供支持,它核心解决多智能体交互问题,用于确保多个输出流的一致性。
接下来,团队使用受人类历史启发的文明基准,来分别评估单个智能体和多智能体的行为表现。
出人意料的是,在投放了30个初始配置完全相同的智能体后,一群AI经过一番互相试探,最终竟产生了社会分工。
而在更大范围内,有关舞蹈、生态意识和恶作剧等话题的讨论表明,多智能体在不同区域竟形成了不同文化圈。
看完这些,难怪有网友惊呼:
全新PIANO架构
这个项目代号Sid,由北大校友、MIT教授Robert Yang发起,最终目标是将智能体无缝整合进人类社会中。
前一阵,团队展示了由GPT-4驱动的1000个智能体如何在「我的世界」中创建新文明,当时就引发大量关注。
不过对Sid团队来说,这离最终目标还很远,其交互范围和复杂性仍然有限。
按他们的话来说:
目前单个智能体在自主决策和执行上已经有了很大提升,但构建能够自发社交互动甚至共同进步的智能体仍然是一项根本挑战。
与此同时,靠大模型驱动的智能体也存在诸多问题。
比如,即使配备了用于规划和反思的模块,智能体也经常陷入重复,甚至在幻觉积累到一定程度后出现错误。
更可怕的是,这种错误还会出现“人传人现象”,导致进一步的幻觉和循环。
对此,团队提出了全新架构“PIANO”(通过神经编排的并行信息聚合),其中P代表感知模块,I代表智能核心,A则是行动模块。
这一架构被用来回答:
智能体如何在多个时间尺度上有意识和潜意识地同时思考和行动?
团队打了个比方,这就好比钢琴的琴键,代表着不同的大脑模块,当它们一起演奏时,可以产生优美的和弦。而在智能体中,同样产生了类人的特质。
具体而言,PIANO架构基于两个原则设计:
首先,类似于系统1系统2,智能体应该能够同时思考和行动,这意味着智能体可以在处理即时反应的同时,进行缓慢的深思熟虑。
这种设计允许智能体在实时环境中与低延迟交互,同时保持复杂决策的能力。
其次,智能体产生的多个输出应该是一致的。
为了确保这一点,PIANO引入了认知控制器(CC)模块,它负责做出高层决策,并将这些决策转化为下游决策,以将其转换为每个电机模块中的适当输出。
这一设计减少了信息量,并使得智能体能够在多个输出流之间保持一致性。
基于上述原则,PIANO由10个并发运行的不同模块组成:
比如,目标生成模块可以根据智能体的经验和环境的相互作用,来生成智能体的目标。
举个例子,假如一个智能体以前是干物流的,现在新遇到了堵车情况,这个模块可能就会生成一个新目标:
与其他智能体协作,设计一种新的物流方案。
在这里,感知处理模块负责处理来自环境的输入信息,如视觉和听觉感知,并将其转化为智能体可以理解和处理的信息。
接下来,技能执行模块可以让智能体在环境中执行特定技能或动作,如在Minecraft中挖掘、制作或建造结构。
遇到一些突发情况,动作反射模块负责处理即时反应和行动,这个模块由小型、快速的非LLM神经网络构成。
而且,在整个过程中,智能体还可以通过行动意识模块评估自己的状态和表现,从而实现即时的调整和自我改进。
若遇到与其他智能体交流的情况,还有Talk模块负责解释并生成语音。
除此之外,社会意识模块也在其间发挥作用。它使得智能体能够解释和响应来自其他智能体的社交线索,支持合作与交流。
这还不算完,甚至还有一个专门的社会交互模块,负责处理智能体之间的社交交互,如对话的理解和回应。
当然,关键核心还是记忆模块。它负责存储和检索不同时间尺度上的对话、动作和观察,包括工作记忆(WM)、短期记忆(STM)和长期记忆(LTM)。
这个模块主打一个细致,智能体不仅能记住每个步骤的描述,甚至还能记住对话中的提问、回答的顺序以及双方强调的重点内容。
最后,前面提到的认知控制器(CC)模块,负责保证整体输出连贯性。
新的文明诞生了
为了评估智能体的表现,团队分别测试了单智能体和多智能体的行为。
对于单智能体,一个重要评价标准为:能否产生专业化分工。
为此,团队提出了评估智能体专业化的3个基本原则:
展开来说,团队在一个Minecraft村庄中,投放了30个初始配置完全一样的智能体。
实验预设的前提是,只有存在社会意识,才会驱动社会分工产生。
而这30个智能体需要通过社交互动,了解其他人的行为动机,并最终确定自己的分工目标。
最后结果显示,这群智能体自行发展了不同的职业,有农民、工程师等。
且一旦移除社会意识,智能体会选择更多的同质角色,这些角色也不会随着时间推移而持续下去。
接下来,团队继续测试了多智能体,主要聚焦在一群AI如何处理社会规则。
通过观察一个由25位选民组成的社会,团队发现这群智能体最初遵守了预设的税法,按照规定的时间缴纳税费。
然而,随着社会中有影响力的个体对公众舆论产生影响,选民们通过民主投票决定了税率的调整。
当然,新的税率通过后,大家也按照新税率完成了税款支付。
更进一步,团队继续扩大了测试范围——分布在6个城乡的500位智能体组建的社会。
结果显示,智能体自发地创造并传播了文化内容,例如舞蹈、生态意识和恶作剧等,而且还形成了一个虚拟的宗教,并通过智能体协会进行传播。
更有意思的是,城乡之间最终还形成了不同的文化圈。
看完智能体的上述表现,网友们也直言非常兴奋,纷纷期待更大规模智能体的到来!
你怎么看?