可适配不同模型
OmniSearch团队 投稿
量子位 | 公众号 QbitAI
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!
阿里通义实验室新研究推出自适应规划的多模态检索智能体。
名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。
直接看效果:
随便上传一张图,询问任何问题,OmniSearch都会进行一段“思考过程”,不仅会将复杂问题拆解检索,而且会根据当前检索结果和问题情境动态调整下一步检索策略。
相比传统mRAG受制于其静态的检索策略,这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。
为评估OmniSearch,研究团队构建了全新Dyn-VQA数据集。
在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。
目前OmniSearch在魔搭社区还有demo可玩。
动态检索规划框架,打破传统mRAG局限
传统mRAG方法遵循固定的检索流程,典型的步骤如下:
OmniSearch旨在解决传统mRAG方法的以下痛点:
为克服上述局限,OmniSearch引入了一种动态检索规划框架。
OmniSearch的核心架构包括:
构建新数据集进行实验评估
为了更好地评估OmniSearch和其它mRAG方法的性能,研究团队构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:
这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。
在Dyn-VQA数据集上的表现
在其它数据集上的表现
接近人类级别表现:
OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。
复杂问题处理能力:
在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。
模块化能力与可扩展性
OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。
无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。
它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。
下面是OmniSearch和不同模型配合的实验结果:
Paper:
Github:
ModelScope Demo: