Loading...

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

AI资讯1个月前发布 aizhushou
20 0

在这个阶段,团队实现了一个人工反馈系统,7名经验丰富的人员人工评估每个问题的有效性、答案准确性、错误选项合理性。最终收集了400多个小时的人工反馈,然后设计prompt,自动优化 MCQ₂得到 MCQ₃。

第四步,盲选。

这一阶段的目标是消除可以通过大模型先验知识的问题,或者消除那些可以在不用视频中任何信息就可以回答的问题。

团队用两个独立的大模型——GPT-4-turbo和GPT-4,对MCQ₃进行盲筛,确保剩余 MCQ₄高质量且专门测试长视频语言理解。

第五步也是最后一步,专家优化。

这一步是用来提升MCQ₄质量,将宽泛问题精确化,经此阶段得到高质量 MCQ₅。

4个专家干的事be like,把 “挂着相机的人把钥匙放在哪里了?” 精确成“挂着相机的人购物回家后,把自行车钥匙放在哪里了?”

如上pipeline中,研究图纳队使用了GPT-4来遵循复杂的多步骤指令,同时还使用了CoT提示策略。

此外,pipeline中涉及大模型的所有阶段的问题被设为0.1。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

据统计,HourVideo涵盖77种日常生活场景,包含500个Ego4D视频,视频时长共381个小时、平均时长45.7分钟,其中113个视频时长超过1小时。

每个视频有约26个高质量五选一题,共计12976个问题。

除因果、反事实和导航任务外,问题在任务套件中均匀分布。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

最好表现仍远低于人类专家水平

在实验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。

由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种方法计算成本巨高,且十分耗时。

因此,实际评估中按任务或子任务对问题进行分批评估,对于预测任务,提供精确的时间戳以便对视频进行有针对性的剪辑,从而平衡计算成本和评估准确性。

研究团队比较了不同的多模态模型在零镜头设置下理解长视频的性能。

主要评估了三类模型,所有这些模型都在一个通用函数下运行:

盲LLM:

指是指在评估过程中,不考虑视频内容,仅依靠自身预先训练的知识来回答问题的大型语言模型。

实验中以GPT-4为代表。它的存在可以揭示模型在多大程度上依赖于其预训练知识,而不是对视频中实际视觉信息的理解。

苏格拉底模型:

对于大多数当前的多模态模型,直接处理非常长的视频存在困难。

因此,采用Socratic模型方法,将视频(总时长为t分钟)分割成1分钟的间隔,每个间隔独立加字幕,然后将这些字幕聚合形成一个全面的基于语言的视频表示,并与通用任务无关的提示一起作为输入进行长视频问答。

实验中分别使用GPT-4和LLaVA- NEXT-34-DPO 为视频字幕生成器,并最终使用GPT-4进行实际问题回答。

原生多模态模型:

像Gemini 1.5 Pro这样的原生多模态模型,在多模态数据(包括音频、视频、图像和文本)上联合训练,能够处理非常长的上下文长度*((2M +),适合直接对HourVideo进行端到端评估。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

为了与模型性能进行对比,实验人员从基准数据集中选取了14个视频,涵盖>18种场景,包括手工制作/绘画、烹饪、建筑/装修、园艺、清洁/洗衣和庭院工作等。

然后邀请了3位人类专家,对上述总时长11.2小时的视频内容进行进行评估,共涉及213个MCQ。

为确保评估的公正性,参与评估的人类专家未参与过这些视频的早期注释工作。

最终,人类专家在评估中的准确率达到了85.0% 。

而盲LLM的准确率为19.6%,Socratic模型准确率略高,原生多模态模型准确率最高,达到了37.3%,仍然远低于人类专家水平。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

此外,独立评估每个MCQ与按任务级别评估相比,性能下降2.1%,但成本增加3倍以上,证明了任务级评估方法的效率和有效性。

最后,团队表示未来计划扩展基准测试,包括更多样化的视频来源(如体育和YouTube视频),纳入音频模态支持,并探索其他感官模态。

同时强调在开发模型时需考虑隐私、伦理等问题。

团队成员

HourVideo项目来自斯坦福李飞飞和吴佳俊团队。

论文共同一作是Keshigeyan Chandrasegaran和Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大学计算机科学博士二年级学生,从事计算机视觉和机器学习研究,导师是李飞飞和斯坦福视觉与学习实验室(SVL)联合主任胡安·卡洛斯·尼贝莱斯。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

共同一作Agrim Gupta是斯坦福大学计算机科学专业的博士生,2019年秋季入学,同样是李飞飞的学生。

此前,他曾在微软、DeepMind,有Meta的全职经历,也在Google做过兼职。2018年时,他就跟随李飞飞一同在CVPR上发表了论文。

目前,Agrim的Google Scholar论文被引用量接近6400次。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

李飞飞是大家熟悉的AI教母,AI领域内最具影响力的女性和华人之一。

她33岁成为斯坦福计算机系终身教授,44岁成为美国国家工程院院士,现任斯坦福以人为本人工智能研究院(HAI)院长。

计算机视觉领域标杆成果ImageNet亦是由她一手推动。

此前,李飞飞也曾短暂进入工业界,出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow Enterprise等。

今年,李飞飞宣布创办空间智能公司World Labs,公司成立不到4个月时间,估值突破10亿美元。

所谓空间智能,即“视觉化为洞察;看见成为理解;理解导致行动”。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室(SVL)和斯坦福人工智能实验室(SAIL)。

他在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神”之一。

同时,他也是李飞飞创业公司World Labs的顾问。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

参考链接:

[1]

[2]

[3]

© 版权声明

相关文章

暂无评论

暂无评论...