阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

AI资讯2周前发布 aizhushou

9 0 0

可适配不同模型

OmniSearch团队投稿

量子位 | 公众号 QbitAI

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！

阿里通义实验室新研究推出自适应规划的多模态检索智能体。

名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。

直接看效果：

随便上传一张图，询问任何问题，OmniSearch都会进行一段“思考过程”，不仅会将复杂问题拆解检索，而且会根据当前检索结果和问题情境动态调整下一步检索策略。

相比传统mRAG受制于其静态的检索策略，这种设计不仅提高了检索效率，也显著增强了模型生成内容的准确性。

为评估OmniSearch，研究团队构建了全新Dyn-VQA数据集。

在一系列基准数据集上的实验中，OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时，OmniSearch相较于现有的mRAG方法表现更为优异。

目前OmniSearch在魔搭社区还有demo可玩。

动态检索规划框架，打破传统mRAG局限

传统mRAG方法遵循固定的检索流程，典型的步骤如下：

OmniSearch旨在解决传统mRAG方法的以下痛点：

为克服上述局限，OmniSearch引入了一种动态检索规划框架。

OmniSearch的核心架构包括：

构建新数据集进行实验评估

为了更好地评估OmniSearch和其它mRAG方法的性能，研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题，涵盖了以下三种类型：

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程，更考验多模态检索方法对复杂检索的规划能力。

在Dyn-VQA数据集上的表现

在其它数据集上的表现

接近人类级别表现：

OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如，在VQAv2和A-OKVQA数据集中，OmniSearch的准确率分别达到了70.34和84.12，显著超越了传统mRAG方法。

复杂问题处理能力：

在更具挑战性的Dyn-VQA数据集上，OmniSearch通过多步检索策略显著提升了模型的表现，达到了50.03的F1-Recall评分，相比基于GPT-4V的传统两步检索方法提升了近14分。

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型（MLLM）作为子问题求解器。

无论是开源模型（如Qwen-VL-Chat）还是闭源模型（如GPT-4V），OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。

它的模块化设计允许根据任务需求选择最合适的模型，甚至在不同阶段调用不同大小的MLLM，以在性能和计算成本之间实现灵活平衡。

下面是OmniSearch和不同模型配合的实验结果：

Paper：

Github：

ModelScope Demo:

# AI资讯 # Dyn-VQA # mRAG # OmniSearch # 多模态知识 # 多步推理

文章版权归作者所有，未经允许请勿转载。

Cursor Composer 教程，帮助你快速生成代码

AI助手

10 0

本田崩到刹不住车：销量连续40%下滑，关掉两座工厂

AI助手

27 0

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

AI助手

21 0

马斯克的机器人徒手接个球，2000万网友集体围观

AI助手

9 0

AI手机与AIPC要安全，为什么离不开这款服务器CPU？

AI助手

34 0

宁德时代给增程车提速：400公里大电池，4C超充，钠离子上车

AI助手

22 0

暂无评论

暂无评论...

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

万象耕新|第二十四届中国股权投资年度大会盛事将启

特斯拉赛博皮卡，马斯克下令停产？？？

相关文章

暂无评论

相关文章