处理数百小时超长视频开云(中国)Kaiyun·官方网站 - 登录入口,单张 3090 就够了?!
这是来自香港大学黄超讲授执行室发布的最新商榷效果——VideoRAG。
具体而言,VideoRAG 不错在单张 RTX 3090 GPU ( 24GB)上高效处理长达数百小时的超长视频内容。这意味着只需要一张庸俗的显卡,就能一语气齐全不雅看一部《黑悟空》这么的长视频。
此外,VideoRAG 还领有更正的多模态检索机制。
它遴荐了动态知识图谱构建和多模态特征编码的本领,将视频内容浓缩为基于多模态高下文的结构化知识暗示。这不仅支撑复杂的跨视频推理,还或然精确地进行多模态内容检索。
况且,为了鼓励该领域的进一步发展,商榷团队还发布了LongerVideos 基准数据集。
该数据集涵盖了160 多个长达数小时的视频,为将来的商榷提供了贵重的支撑。
更多具体内容如下。
冲破传统文本 RAG 跨模态局限
尽管 RAG ( Retrieval-Augmented Generation ) 本领通过引入外部知识权贵提高了大谈话模子的性能,但其应用场景仍局限于文才略域。
视频行动一种复杂的多模态信息载体,涵盖视觉、语音和文本等异构特征,其会通与处理靠近三大关键挑战:
多模态知识交融:传统文本 RAG 方法难以灵验捕捉视频中的跨模态交互,颠倒是在建模视觉动态特征(如办法通顺轨迹)与语音叙述之间的时序关联方面存在局限;
长序列依赖建模:现存方法频频通过视频截断或关键帧索取来简化处理,这不成幸免地导致动作一语气性失掉,酿成高下文割裂,影响跨视频知识整合的效果,难以保执永劫视频的语义连贯性;
范围化检索效能:在大范围视频库场景下,现存方法在检索速率与收尾质料间存在较着量度,且多依赖单一模态(如语音转录文本)进行检索,未能充分应用视觉语义信息。
为冲破上述死心,团队建议更正性 RAG 框架 VideoRAG,通过双通说念架构完了以下本领更正:
1、图谱初始的跨模态知识关联:构建动态演化的语义收罗,将视频片断映射为结构化知识节点,灵验捕捉并建模跨视频语义关联;
2、灵验的多模态高下文编码:缔造视觉 - 文本合资表征空间,保留细粒度时空特征暗示,权贵增强视频内容会通技艺;
3、相宜夹杂检索方法:交融知识图谱推理与视觉特征匹配,冲破计较资源死心,完了低显存耗尽下的百小时级视频精确检索。
基于首个超长跨视频会通基准数据集LongerVideos的全地点评估标明,VideoRAG 在超长视频内容理受命务上展现出超卓性能,为赞成知识库构建、影视内容分析等实质应用场景提供了极具后劲的顾问决策。
VideoRAG 框架辩论
VideoRAG 更正性地交融多模态知识索引与知识初始检索机制,完了对视频中视觉、音频及语义信息的高效捕捉、系统化组织与精确检索。
该框架冲破了传统视频长度死心,支撑对表面上无尽时长的视频输入进行智能分析,为超长视频会通领域创始了新范式。
双通说念多模态视频知识索引:冲破传统范式
视频行动复杂的多模态信息载体,交融了视觉、音频及文本等多维度信息,其处理难度远超传统文本。
现存的文本 RAG 方法在处理视频数据时靠近三大根人性挑战:视觉动态特征索取、时序依赖性建模以及跨模态语义交互。针对这些挑战,VideoRAG 更正性地建议双通说念架构,完了了对长视频的高效组织与智能索引,同期保执了多模态内容的语义齐全性:
基于知识图谱的多模态语义对王人
视觉 - 文本映射:在视觉语义建模方法,本框架遴荐淡雅化的视频分段计策,将视频流依期序均匀分裂为一语气片断。为均衡计较效能与信息齐全性,每个片断通过智能采样算法索取不超越 10 个代表性关键帧。
随后,借助先进的视觉谈话模子 ( VLM ) ,自动生成高质料的当然谈话刻画,完了对视频画面中物体、动作语义及场景动态等多维度特征的系统性捕捉。
音频语义报复与交融
在音频处理模块,系统部署了高性能的语音识别 ( ASR ) 本领,精确索取视频中的对话内容与旁白信息。
通过更正的语义交融机制,将音频文本信息与视觉刻画进行深度整合,构建协调的跨模态语义暗示体系,灵验保留了视听信息的语义齐全性。
跨视频知识收罗构建
基于 LLMs 识别实体联系,动态归拢多视频语义节点,形周详局知识收罗,确保跨视频内容的一致性与关联性。
多模态高下文编码
为完了跨视频的语义关联,框架基于大谈话模子 ( LLMs ) 辩论了动态知识图谱构建机制。
系统自动识别并索取视频内容中的中枢实体与联系信息,通过智能归拢算法动态交融多个视频的语义节点,最终形成结构化的全局知识收罗。
这一更正辩论确保了跨视频内容的语义一致性,行动后续内容检索的基础。
夹杂检索范式:多维度视频会通
VideoRAG 更正性地交融文本语义与视觉内容的双重匹配机制,通过深度语义会通与多模态信息交融,完了了超高精度的视频片断检索。该框架包含三大中枢本领模块:
1)知识初始的语义匹配模块: 基于知识图谱的高档语义会通机制,系统实行多头绪的智能检索历程。
最初进行查询意图重构,随后通过实体联系收罗进行精确匹配,继而完成筹商文本块的智能筛选,最终定位办法视频片断。这种层级化的检索计策确保了语义会通的深度与准确性。
2)跨模态视觉内容匹配引擎: 系统遴荐先进的语义报复本领,将用户查询智能飘浮为依次化的场景刻画。
通过专用多模态编码器,实时生成视频片断的高维特征向量暗示,并基于更正的相似度计较算法,完了精确的跨模态内容匹配。这一辩论权贵提高了视觉语义检索的准确性。
3)基于大谈话模子的智能过滤机制: 框架整合了先进的大谈话模子 ( LLMs ) 本领,对检索收尾进行多维度的筹商性评估与智能筛选。
通过深度语义会通,灵验过滤低筹商性内容与噪声信息,确保系统输出高质料、准确度的回答。这种智能过滤机制提高了检索收尾的可靠性。
反映生成:双阶段深度会通框架
在得手检索到筹商视频片断后,VideoRAG 通过更正性的双阶段内容会通与生成机制,完了高质料的智能问答:
基于大谈话模子的语义会通与关键词索取。系统最初对用户查询进行深度语义分析,智能索取中枢关键词与意图特征。
这些高价值的语义信息随后与精选的视频关键帧整个,输入到先进的视觉谈话模子 ( VLM ) 中,生成富含视觉细节的场景刻画。这种交融式的处理方法权贵提高了系统对视觉内容的会通深度。
多模态知识整合与谜底生成。在第二阶段,系统调用先进的大谈话模子(如 GPT4 或 DeepSeek),将检索到的多模态信息与用户查询进行深度交融。
通过成心优化的辅导工程,模子或然抽象应用文本语义、视觉特征和高下文信息,生成既包含丰富视觉细节,又具备深层语义会通的高质料回答。这一辩论确保了系统反映的准确性、齐全性和连贯性。
执行考证
团队在业界首个超长跨视频会通基准数据集 LongerVideos 上,对 VideoRAG 框架进行了系统性的性能评估与执行考证。评估责任涵盖三大关键维度:
( 1 ) 与主流 RAG 框架的对比执行
通过与现时主流的检索增强生成系统(包括 NaiveRAG、GraphRAG 和 LightRAG)进行全面对比,深切考证了 VideoRAG 在视频会通与信息检索方面的本领上风。
( 2 ) 与现时视觉模子的性能对标
针对支撑超长视频输入的大范围视觉模子(LLaMA-VID、NotebookLM、VideoAgent),进行了驻守的性能对比。
( 3 ) 深切的模子组件分析
通过系统性的消融执行(包括移除知识图谱组件 -Graph、视觉会通模块 -Vision),结合典型案例分析,深切教练了各中枢组件对系统合座性能的孝顺。
LongerVideos 超长视频会通基准测试数据
LongerVideos 是首个专注于超长视频会通的抽象性基准数据集,收录了估计164 个高质料视频,累计时长冲破134 小时。
该数据集经过经心经营,系统性地涵盖了学术讲座、专科记载片和抽象文娱节目三大中枢应用场景,既确保了内容的种种性与代表性,也为跨视频推理技艺的评估提供了坚实基础。
相较于现存视频问答基准数据集大宗存在的局限性(如单视频时长不及 1 小时、场景单一等),LongerVideos 完了了权贵的本领冲破。
通过延迟单个视频的时间跨度,并支撑复杂的跨视频语义会通与推理,该数据集为超长视频会通本领的发展提供了愈加全面、科学的评估基准。
这些更正特质不仅弥补了现存评估体系的不及,更为筹商本领的越过提供了遑急的测试数据集。
此外,团队辩论了一套的双层评估框架,通过定性与定量相结合的方式,系统性地考证 VideoRAG 的性能阐扬:
胜率评估:遴荐基于大谈话模子的智能评估决策,通过部署 GPT-4-mini 行动专科评判器,对比分析不同模子生成的谜底质料。
定量评估:在胜率评估的基础上,缔造了严格的定量评估体系。通过预设依次谜底并遴荐淡雅的 5 分制评分依次(1 分代表最低质料,5 分代表最优阐扬),完了了评估收尾的可量化与可比较性。
评估框架涵盖五个中枢维度:
1、内容全面性(Comprehensiveness):计议谜底对筹商信息的隐敝范围与齐全度;
2、用户赋能性(Empowerment):评估谜底在提高用户会通力与决策技艺方面的效果;
3、回答真确度(Trustworthiness):教练谜底的准确性、细节充实度及与知识的相助性;
4、分析深度(Depth):考证谜底在通晓问题时的深切进度与知奋力;
5、信息密度(Density):评估谜底在保执简易性的同期传递灵验信息的技艺。
RAG 抽象性能评估:VideoRAG 的本领上风
执行收尾分解,VideoRAG 在所有评估维度和视频类型中均展现出权贵上风,全面超越了包括 NaiveRAG、GraphRAG 和 LightRAG 在内的现存 RAG 方法。
这一超卓阐扬主要源于两大中枢本领更正:创始的知识图谱索引与多模态高下文编码交融机制,精确拿获视频中的动态视觉特征与深层语义信息;以及更正的夹杂多模态检索范式,通过有机结合文本语义匹配与视觉内容镶嵌检索,权贵提高了跨视频检索的精确度。
与 NaiveRAG 比较,本系统在内容全面性 ( Comprehensiveness ) 和用户赋能性 ( Empowerment ) 方面阐扬超卓,这成绩于其先进的知识索引架构和庞大的跨视频信息整合技艺。
实考阐述,VideoRAG 的更正架构或然更灵验地处理和整合跨视频的复杂信息,为用户提供愈加全面和深切的谜底。
在与 GraphRAG 和 LightRAG 的对比中,VideoRAG 在视觉 - 文本信息对王人和查询感知检索等关键本领目的上均完了冲破,使生成的谜底在高下文连贯性和会通深度方面取得权贵提高,得手引颈知识初始型视频问答本领的新发展。
这些本领上风充分阐述了 VideoRAG 在处理复杂视频理受命务时的超卓技艺。
与长视频会通模子的性能对比
VideoRAG 在所有维度和视频类型上性能均权贵超越 LLaMA-VID、NotebookLM 和 VideoAgent 等主流长视频模子。这种全地点的性能上风,充分体现了本系统在处理超长视频内容时的本领的上风。
通过更正性地引入图增强的多模态索引和检索机制,VideoRAG 得手冲破了传统 LVMs 在处理长视频时靠近的计较瓶颈。这一机制不仅能高效处理跨视频的知识勾搭,更不错准确捕捉复杂的信息依赖联系,在性能上权贵超越了 LLaMA-VID 等现存模子。
比较仅依赖单一模态的基线模子(如专注于视觉的 VideoAgent 和侧重语音转录的 NotebookLM),VideoRAG 展现出优异的多模态信息交融技艺。
系统通过淡雅的跨模态对王人机制,完了了视觉、音频和文本信息的深度整合,为超长视频内容会通提供了更全面、更深切的分析技艺。
消融执行分析
为系统评估 VideoRAG 框架中多模态索引和检索机制的灵验性,团队辩论了两组对照执行。
执行通过移除中枢功能模块,构建了两个关键变体:变体 1 ( -Graph ) 移除了基于图的索引 - 检索管说念,变体 2 ( -Vision ) 则去除了多模态编码器中的视觉索引和检索组件。
这种针对性的模块消融辩论,使团队或然精确评估各中枢组件的孝顺度。
图索引机制的作用。变体 1 ( -Graph ) 的执行收尾分解,移除图形模块后系统性能出现权贵下落。
这一表象有劲说明了基于图的索引 - 检索机制在处理复杂视频内容时的关键价值。该机制不仅能灵验捕捉跨视频间的深层关联,更在构建视频知识依赖收罗方面施展着不成替代的作用。
视觉处理技艺的作用。变体 2 ( -Vision ) 的执行数据相通呈现出性能的大幅下滑,充分说明了视觉信息处理关于视频会通的遑急性。
这一收尾强调了多模态高下文交融在提高系统合座性能方面的关键作用,突显了视觉模块行动 VideoRAG 框架中枢组件的遑急地位。
视频会通的案例分析
1、查询建立与数据开头
本案例录取了极具代表性的查询:" The role of graders in reinforcement fine-tuning ",基于 OpenAI 2024 年发布的 12 天系列视频(总时长 3.43 小时)进行分析。
办法信息主要聚拢在第 2 天的内容中,这种复杂的跨视频查询场景为系统性能评估提供了理念念的测试环境。
2、VideoRAG 的检索阐扬
执行收尾展示了 VideoRAG 超卓的信息检索和整合技艺。
系统准细则位并索取了第 2 天视频中的中枢内容,包括评分员的基本界说、评分系统的运作机制以及具体的评分示例。通过多维度的信息团员,VideoRAG 得手构建了一个全面、准确且具有充分笔据支撑的专科回答。
3、系统性能对比分析
与 LightRAG 的对比收尾突显了 VideoRAG 在处理深度本领内容方面的权贵上风。
尽管两个系统都或然提供评分系统的基础观念解释,但 VideoRAG 在评分员评分机制的本领细节讲述上较着更胜一筹。
比较 LightRAG 给出的上层刻画,VideoRAG 提供了更深切、更专科的本领通晓,体现了系统在处理复杂专科内容时的专有上风。
本案例商榷通过案例分析,再次考证了 VideoRAG 在三个中枢本领维度的超卓性能:
1、知识图谱构建技艺
系统展现出优异的知识图谱构建技艺,不仅能精确拿获视频内容间的复杂关联联系,更能构建起齐全的知识依赖收罗,为深度会通提供了坚实基础。
2、多模态检索精度
在多模态信息检索方面,VideoRAG 完了了高度精确的检索效果,或然准细则位和索取跨模态的关键信息,充分体现了系统在处理复杂信息检索任务时的本领上风。
3、跨视频信息整合
系统在处理和整合来自多个超长视频的关键信息时阐扬出色,通过先进的信息交融机制,完了了复杂视频内容的高效处理和准确会通。
VideoRAG: 本领更正与将来预测
冲破性本领架构
VideoRAG 通过创始性的双通说念索引架构,得手完了了跨视频知识的深度关联与细粒度视觉特征的精确保留。这一更正辩论不仅冲破了传统视频会通的局限,更为复杂场景下的知识图谱构建开拓了新阶梯。
先进检索机制
系统更正性地建议夹杂检索范式,通过有机交融语义匹配与内容镶嵌本领,权贵提高了多模态信息的对王人精度。这种先进的检索机制为处理复杂的跨模态视频内容提供了更可靠的本领支撑。
依次化评估体系
通过缔造 LongerVideos 基准,VideoRAG 为长视频会互市榷提供了一个圭表化的评估平台。这一基准的缔造不仅鼓励了领域商榷的依次化发展,也为后续本领冲破提供了可靠的考证基础。
将来发展标的
预测将来,VideoRAG 将重心拓展两大关键领域:实时视频流处理技艺的增强,以及多谈话支撑体系的构建。这些更正探索将进一步彭胀视频知识的应用界限,开释更大的视频会通本领后劲。
代码开源地址:
https://github.com/HKUDS/VideoRAG
论文:
https://arxiv.org/abs/2502.01549
执行室主页(香港大学数据科学执行室):
https://github.com/HKUDS
— 完 —
投稿请责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 气象主页合资,以及筹商方式哦
咱们会(尽量)实时陈说你
一键温雅 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「谨防心」
迎接在辩论区留住你的念念法!开云(中国)Kaiyun·官方网站 - 登录入口