这项由华为研究院和香港中文大学多媒体实验室联合开展的研究于2026年4月5日发表在arXiv预印本平台上,论文编号为arXiv:2604.04184v1。感兴趣的读者可以通过这个编号找到完整的研究报告。

**一个全新的视频聊天时代正在到来**

在我们每天刷短视频、看直播的时候,有没有想过这样一个问题:为什么AI助手只能在我们问完问题后才回答,而不能像人一样边看边聊,甚至主动提醒我们注意有趣的内容呢?就像你和朋友一起看电影时,朋友会突然说"注意这个细节"或者"这里有个彩蛋"一样自然。

华为研究院和香港中文大学的研究团队正是为了解决这个问题,开发出了一个名为AURA的AI系统。AURA的全称是"Always-On Understanding and Real-Time Assistance",翻译过来就是"始终在线理解和实时助手"。这个系统的神奇之处在于,它能像一个聪明的朋友一样,一边观看连续的视频流,一边随时准备回答你的问题,甚至主动告诉你有趣的发现。

过去的AI视频理解系统就像图书馆管理员,你必须先把一本完整的书(完整视频)交给它,它看完后才能回答你的问题。而AURA更像是一个坐在你身边的朋友,能够实时看着正在播放的电视节目,随时跟你互动交流。当你问"刚才那个人穿的什么颜色的衣服"时,它能立即回答;当画面中出现有趣的内容时,它还能主动提醒你注意。

这种突破的意义远不止于技术本身。在我们的日常生活中,从直播购物到在线教育,从视频会议到娱乐互动,这种能够实时理解视频内容并进行智能交互的技术,将彻底改变我们与数字世界的互动方式。研究团队不仅在理论上实现了这个突破,还开发出了一个真正能用的演示系统,能够以每秒2帧的速度实时运行,并且集成了语音识别和语音合成功能,让人机对话变得更加自然流畅。

**一、破解实时视频理解的三大难题**

要让AI真正像人一样实时观看视频并进行互动,研究团队面临着三个核心挑战,就像要训练一个完美的同声传译员一样复杂。

第一个挑战是"选择性沉默"问题。AI需要学会什么时候该说话,什么时候该保持安静。就像你和朋友一起看电影时,朋友不会每分每秒都在说话,而是在关键时刻才发表意见。传统的AI系统要么完全沉默等待指令,要么喋喋不休地描述看到的一切。AURA必须学会在合适的时机开口,既不能太安静错过重要信息,也不能太话痨干扰用户体验。

第二个挑战是"时机判断"问题。有些问题可以立即回答,比如"现在屏幕上有几个人";有些问题需要等待更多信息才能回答,比如"这个故事的结局是什么"。AURA需要像一个经验丰富的解说员,知道什么时候给出即时回答,什么时候需要耐心等待更多线索。这种智能判断能力是实现真正互动体验的关键。

第三个挑战是"无限记忆管理"问题。人类观看视频时,大脑会自动筛选和压缩记忆,重要信息保留得更久,琐碎细节很快被遗忘。但AI系统的"记忆"是有限的,不能无限制地积累视频信息和对话历史。研究团队需要设计一套智能的记忆管理机制,让AI能够在有限的"大脑容量"内,既保持对最新内容的敏感,又不丢失重要的历史信息。

为了解决这些挑战,研究团队创新性地提出了"交互式视频流上下文管理"机制。这个机制就像给AI配备了一个智能的"注意力管理系统",能够合理分配注意力资源,在连续的视频流和用户互动中找到最佳平衡点。

**二、三种聊天模式让AI更像人**

研究团队为AURA设计了三种不同的聊天模式,就像训练一个多才多艺的解说员,让它能够应对各种不同的互动需求。

实时问答模式是最基础但也最重要的能力。当你问"这个人穿的是什么颜色的衣服"时,AI能够基于当前看到的画面立即给出准确回答。这种模式处理的是那些基于当前或历史画面就能回答的问题,就像你问朋友刚才看到了什么一样直接。

主动式问答模式展现了AI的"预测思维"能力。有时候用户提出的问题需要等待未来的画面才能回答。比如你问"这个人接下来会走向哪里",AI会记住这个问题,然后耐心观察后续的视频内容,在看到答案后主动回复。这种"延迟满足"的交互方式让AI显得更加智能和体贴。

多轮回应模式是最高级的互动形式。当用户说"请提醒我每次看到小马玩偶时告诉我",AI会持续监控视频内容,每当发现相关内容就主动提醒。这种模式让AI变成了一个贴心的观察助手,能够根据用户的兴趣持续提供个性化的关注点。

这三种模式的巧妙之处在于它们可以无缝切换和组合。在同一个视频观看过程中,用户可能既需要即时问答,也会设置一些需要延迟回答的问题,还可能要求AI持续关注某些特定内容。AURA能够同时管理这些不同类型的交互需求,就像一个经验丰富的导游,既能回答游客的即时疑问,也能在合适的时机主动介绍重要景点。

**三、智能记忆管理:在有限空间里装下无限内容**

面对连续不断的视频流和越来越长的对话历史,AURA采用了一个类似"智能档案管理员"的策略来处理记忆问题。

这个记忆管理系统采用了"双重滑动窗口"的设计思路。对于视频内容,系统像一个有着短期记忆的观察者,只保留最近30秒的视频画面。为什么只保留这么短的时间呢?研究发现,视频中的信息密度非常高,而用户关心的内容通常与最近发生的事情密切相关。就像人们在看直播时,注意力主要集中在当前和最近几分钟的内容上。

对于文字对话记录,系统采用了不同的策略。文字信息虽然占用的存储空间较小,但往往包含重要的用户意图和历史背景。因此,系统会保留最近的10轮问答交互。当视频记忆超出限制时,系统会巧妙地删除过期的视频片段和对应的沉默标记,但保留有价值的文字对话内容。

这种设计的智慧之处在于它模仿了人类的记忆特点:我们对视觉信息的短期记忆容量有限,但对重要对话内容的记忆可以保持更久。当你和朋友讨论刚看完的电影时,你可能记不清每个镜头的细节,但能清楚记得之前讨论过的重要话题。

为了进一步提高效率,研究团队还设计了"预缓存复用机制"。传统的做法是每次新增内容就立即删除最老的内容,但这样会导致系统频繁重新计算,就像搬家时每增加一件物品就要重新整理所有家具一样低效。AURA的方法是允许记忆稍微超出限制,然后批量清理,这样既保持了系统效率,又避免了频繁的重新计算。

**四、从零开始构建训练数据**

要训练AURA学会这些复杂的互动技能,研究团队面临的第一个问题是:去哪里找合适的训练数据?现有的视频问答数据集主要针对离线场景,无法满足实时流式互动的需求。这就像要训练一个同声传译员,却发现市面上只有书面翻译的教材。

研究团队设计了一个"粗细结合"的数据生成引擎,整个过程像一个精心设计的内容工厂,有五个不同的生产车间。

第一个车间是"视频预处理工厂"。团队从互联网收集了大量高质量视频,涵盖体育、生活记录、纪录片、科普内容、电视节目、电影、课程、游戏和动画等多个领域。所有视频都被重新编码为统一的格式,并调整到每秒2帧的标准帧率。这个步骤就像把各种不同格式的原材料标准化处理,为后续加工做好准备。

第二个车间是"问答合成工厂",这里又分为两条生产线。第一条生产线专门制造实时问答和主动式问答数据。系统首先让AI观看视频并生成场景描述,然后基于这些描述创建问答对,并为每个问答指定精确的时间戳。对于实时问答,问题和答案在同一时刻产生;对于主动式问答,问题先于答案出现。第二条生产线专门制造多轮回应数据,重点处理那些需要持续关注和多次回应的复杂互动场景。

第三个车间是"问答精炼工厂"。初步生成的问答往往在难度和表达方式上比较单一。这个车间的任务是增加多样性:为实时问答增加不同难度级别的问题,从简单的物体识别到复杂的推理分析;为其他类型的问答改写问题表达,用不同的语言风格表达同样的含义,让AI能够理解各种不同的用户表达习惯。

第四个车间是"流式结构化工厂"。这里将带有时间戳的问答数据转换为符合实际使用场景的训练样本。系统会模拟真实的观看情况,为每个回答创建对应的视频窗口和对话历史,确保AI在训练时看到的信息与实际使用时完全一致。

第五个车间是"质量检验工厂"。所有生成的数据都要经过严格的质量检查,确保回答有视觉依据、事实准确、时间合理,避免AI学会生成没有根据的内容。只有通过质量检验的数据才会被用于最终训练。

经过这五个车间的精密配合,研究团队最终构建了一个包含约11.5万个流式视频问答样本的训练数据集,为AURA的智能训练提供了坚实基础。

**五、训练AI学会恰当的沉默**

在训练AURA时,研究团队遇到了一个特别的挑战:如何让AI学会在合适的时候保持沉默?这个问题比听起来要复杂得多。

在正常的视频观看过程中,AI大部分时间都应该保持安静,只在必要时才开口说话。但这种"沉默占主导"的特性给训练带来了意想不到的困难。如果简单地让AI学习所有的行为,它很可能会过度学习沉默行为,变成一个过分安静的助手,即使用户问问题也不回答。

研究团队提出了"沉默-言语平衡损失"的训练策略。这种方法就像训练一个演员学会掌握台词和停顿的节奏。系统会特别关注两种类型的行为:沉默时刻和说话时刻,并给它们分配平衡的学习权重。具体来说,对于沉默标记,系统会根据样本中沉默次数的倒数来调整学习强度;对于有内容的回答,系统给予正常的学习权重。这样AI既能学会适时沉默,又不会过度抑制自己的表达能力。

另一个训练难点是确定哪些回答应该作为学习目标。由于训练数据是通过滑动窗口截取的,不是所有的历史回答都有充分的视觉证据支持。研究团队采用了"谨慎监督"的原则:只让AI学习那些在当前视觉和对话证据下完全合理的回答,跳过那些可能缺乏足够支撑的历史回答。这种方法确保AI学到的都是有根有据的回答模式,避免产生没有依据的幻觉性内容。

最终的训练过程使用了约17.4万个样本,包括11.5万个流式视频样本和5.9万个传统视频问答样本。整个训练在32个高性能GPU上进行,采用较小的学习率进行精细调节,确保AI既能掌握新的流式互动技能,又不会忘记原有的视频理解能力。

**六、实时运行的技术魔法**

让AURA在现实世界中实时运行,面临着巨大的技术挑战。研究团队需要解决的核心问题是:如何在有限的计算资源上实现毫秒级的响应速度?

研究团队开发了一套巧妙的"缓存复用机制"来解决这个问题。传统的做法是每次处理新的视频片段时都要重新计算所有的中间结果,就像每次做菜都要重新洗锅一样低效。AURA采用了类似"预热锅具"的策略:提前计算并保存中间结果,新内容到来时只需要增量计算新的部分。

具体来说,当视频窗口需要删除旧内容时,系统不会立即删除,而是允许窗口稍微超出预设大小。只有当积累的多余内容达到一定量时,系统才会批量清理并重新计算缓存。这种"批处理清理"的方法大大减少了重复计算,提高了系统效率。

为了进一步优化性能,系统还采用了多种并行处理技术。语音识别、文本生成和语音合成三个模块可以异步运行,当AURA在思考回答时,语音识别模块仍然可以继续监听用户的新问题。这种流水线式的处理方式最大化了系统的响应速度。

在实际部署中,研究团队使用了两块高性能GPU:一块专门运行AURA主模型,另一块同时运行语音识别和语音合成服务。这种分离式部署既保证了各个模块的独立性,又优化了资源利用效率。

最终的系统性能表现相当出色:语音识别处理9.41秒的中文语音指令平均需要84.2毫秒;AURA主模型的首token响应时间平均为75.0毫秒;语音合成的首片段延迟为93.0毫秒。从用户说话到听到AI回应的端到端延迟约为312.2毫秒,这个速度已经接近自然对话的流畅度要求。

**七、效果验证:AI真的学会了吗?**

为了验证AURA是否真正掌握了实时视频互动的能力,研究团队在三个专门的测试基准上进行了全面评估。

在StreamingBench测试中,AURA获得了73.1%的综合准确率,超过了所有开源竞争对手。更重要的是,这种优势是全方位的:在实时视觉理解、多源信息理解和上下文理解三个主要方面,AURA都取得了最好的成绩。在18个细分任务中,AURA在14个任务上排名第一,显示出强大的综合能力。

在OVO-Bench测试中,AURA达到了65.3%的整体准确率,比最强的开源竞争对手高出4.2个百分点。特别值得注意的是,在需要"向前预测"的任务上,AURA仅比最好的模型低1.2%,这表明它确实学会了基于当前信息预测未来事件的能力。

在OmniMMI测试中,AURA以25.4%的准确率获得第一名,在9个评估指标中的5个指标上都名列前茅。特别令人惊喜的是,AURA在"主动提醒"任务上获得了37.5%的成绩,而一些竞争对手完全无法完成这类任务。

除了准确性测试,研究团队还验证了AURA在传统视频理解任务上的表现,确保新技能的学习没有影响基础能力。结果显示,虽然在某些指标上有轻微下降,但AURA基本保持了与基础模型相当的离线视频理解能力。这证明了训练方法的有效性:AI既学会了新的流式互动技能,又保留了原有的核心能力。

**八、训练方法的关键作用**

为了验证训练过程中各个设计决策的重要性,研究团队进行了对比实验。结果清晰地展示了"沉默-言语平衡损失"训练策略的关键作用。

当使用传统的均匀训练方法时,AI的整体表现从25.4%下降到16.4%,下降幅度高达35%。更严重的是,在"主动提醒"任务上,传统方法训练出的AI完全无法工作,准确率从37.5%直接降为0%。这个对比鲜明地说明了专门训练策略的必要性。

深入分析发现,使用传统方法训练的AI出现了"过度沉默"的问题:它学会了在任何情况下都保持安静,即使用户明确要求主动提醒也不会响应。这种现象完美验证了研究团队的预期:如果不特别处理沉默和说话的平衡问题,AI很容易偏向于更"安全"的沉默行为。

这个实验结果不仅证明了技术方法的正确性,也揭示了训练AI进行复杂交互的一个重要原则:必须在训练过程中明确平衡不同类型行为的学习权重,不能简单地让AI"自然学习"。

**九、走向实用的关键一步**

AURA的成功不仅在于技术突破,更在于它向实际应用迈出了关键一步。研究团队不满足于实验室中的测试结果,而是构建了一个真正可用的演示系统,集成了语音识别和语音合成功能,用户可以通过自然语言与系统进行实时互动。

这个演示系统的意义远超技术验证。它证明了流式视频AI从概念到应用的可行性路径。用户可以一边观看视频,一边用语音提问,AI会通过语音回答,整个交互过程就像与一个懂视频内容的朋友聊天一样自然。

系统的实时性能表现也达到了实用标准。以每秒2帧的速度处理视频,虽然不如电影的24帧那么流畅,但对于理解视频内容来说已经足够。更重要的是,300多毫秒的端到端响应时间让对话感觉非常自然,用户不会感到明显的延迟。

研究团队还开放了AURA模型和实时推理框架的代码,为其他研究者和开发者提供了继续改进和应用的基础。这种开放态度加速了整个领域的发展,让更多人能够基于这项工作开发出各种实际应用。

从技术发展的角度看,AURA代表了AI视频理解从"被动响应"向"主动交互"转变的重要里程碑。它不再是等待用户完整上传视频后才开始工作的传统系统,而是能够与用户一起"观看"实时内容并进行自然交流的智能伙伴。这种转变为未来的应用场景打开了巨大的想象空间:从实时直播互动到在线教育辅助,从视频会议智能助手到娱乐内容的个性化解说。

说到底,AURA的价值不只是技术上的进步,更是向我们展示了AI与人类交互的新可能性。它让我们看到,AI不必总是等待指令的被动工具,也可以成为主动参与、适时响应的智能伙伴。当然,这只是一个开始,距离完全成熟的应用还有很多挑战需要克服,但AURA已经为这个方向指明了清晰的道路。归根结底,这项研究告诉我们,让AI真正理解我们的视觉世界并与我们自然互动,不再是遥不可及的科幻想象,而是正在变为现实的技术可能。对于我们普通用户来说,这意味着未来观看视频的体验将变得更加丰富和互动,AI助手将成为我们数字生活中更加贴心和智能的伙伴。

Q&A

Q1:AURA和传统的视频AI助手有什么区别?

A:传统视频AI就像图书馆管理员,必须等你提供完整视频后才能回答问题。而AURA更像坐在你身边的朋友,能实时观看正在播放的视频,随时回答你的问题,甚至主动提醒你注意有趣的内容。最大的区别是AURA能处理连续的视频流并进行实时互动。

Q2:AURA需要什么样的硬件才能运行?

A:目前AURA的演示系统运行在两块80GB显存的高性能GPU上,一块运行主模型,另一块处理语音识别和合成。虽然硬件要求较高,但研究团队已经通过各种优化技术让系统能够以每秒2帧的速度实时运行,响应延迟仅约300毫秒。

Q3:AURA能在哪些场景下使用?

A:AURA的应用场景非常广泛,包括实时直播互动、在线教育辅助、视频会议智能助手、娱乐内容个性化解说等。比如在看直播时它能回答你关于画面内容的问题,在上网课时能主动提醒重要知识点,让视频观看体验变得更加智能和互动。