西安建网站公司哪家好,重庆政务服务网,在中国如何推广外贸平台,有哪些好的做网站公司好原文链接#xff1a;https://arxiv.org/abs/2509.26386 源码#xff1a;https://github.com/showlab/PANDA
Abstract
视频异常检测#xff08;VAD#xff09;是一项关键且具有挑战性的任务#xff0c;这源于现实场景的复杂性与多样性。以往的方法在应用于新场景和未见过…原文链接https://arxiv.org/abs/2509.26386源码https://github.com/showlab/PANDAAbstract视频异常检测VAD是一项关键且具有挑战性的任务这源于现实场景的复杂性与多样性。以往的方法在应用于新场景和未见过的异常类型时通常依赖特定领域的训练数据和人工调整存在人力成本高、泛化能力有限等问题。因此我们旨在实现通用型视频异常检测generalist VAD即无需训练数据或人工干预自动处理任意场景和任意类型的异常。本研究中我们提出了PANDA——一种基于多模态大型语言模型MLLMs的智能体AI工程师。具体而言我们通过全面设计四大核心能力构建了PANDA1自适应场景感知策略规划、2目标驱动的启发式推理、3工具增强型自我反思、4自我改进的记忆链机制。具体来说我们开发了自适应场景感知的检索增强生成RAG机制使PANDA能够检索异常相关知识以制定异常检测策略其次引入潜在异常引导的启发式提示策略提升推理精度此外PANDA采用渐进式反思机制并结合一系列上下文感知工具在复杂场景中迭代优化决策最后记忆链机制使PANDA能够利用历史经验持续提升性能。大量实验表明在无训练和无人工干预的情况下PANDA在多场景、开放集和复杂场景设置中均取得了最先进的性能验证了其强大的泛化能力和稳健的异常检测能力。相关代码已开源至https://github.com/showlab/PANDA。1 Introduction本节将介绍PANDA的核心架构与推理流程这是一款面向通用视频异常检测的智能体AI工程师。PANDA旨在动态感知多样化环境执行渐进式、工具增强的推理与自我优化如图2所示。其核心功能通过四大协同模块实现1自适应场景感知策略规划、2目标驱动的启发式推理、3工具增强型自我反思、4自我改进的记忆链机制。3.1 Self-adaptive Scene-aware Strategy Planning要在通用且无约束的环境中实现视频异常检测关键在于动态感知当前视频上下文并构建针对性检测策略。考虑到现实世界中许多异常具有场景依赖性且视觉条件存在差异PANDA首先对输入视频进行自适应感知以提取高层级的环境上下文信息。Environmental Perception.给定用户定义的检测查询U s e r q u e r y User_{query}Userquery和包含N帧的输入视频序列V { f 1 , f 2 , . . . , f N } V\{f_1, f_2, ..., f_N\}V{f1,f2,...,fN}PANDA会均匀采样M个关键帧F { f 1 , f 2 , . . . , f M } F\{f_1, f_2, ..., f_M\}F{f1,f2,...,fM}并结合用户查询构建感知提示词P r o m p t p e r c e p t i o n Prompt_{perception}Promptperception。该提示词被输入至视觉语言模型VLM模型返回结构化的环境信息其中场景概述Scene Overview提供场景的高层级总结包括地点类型如街道、商店、停车场和观察到的活动潜在异常Potential Anomalies指当前场景下可能发生的可疑行为类型天气条件Weather Condition涵盖时段白天/夜晚和天气状况如晴天、雨天等属性视频质量Video Quality总结分辨率和清晰度如低分辨率、模糊、含噪。RAG-Based Strategy Planning.获取结构化环境上下文后PANDA开始规划检测策略。为避免模型幻觉并提升可靠性该规划过程通过检索增强生成RAG机制实现由多模态大型语言模型MLLM驱动。首先基于用户查询U s e r q u e r y User_{query}UserqueryPANDA构建知识库提示词P r o m p t k n o w Prompt_{know}Promptknow并利用MLLM生成结构化的通用异常知识库其中事件类型Event Type指用户指定的异常类别异常规则Anomaly Rules是与每种异常类型对应的检测规则应用场景Application Scenes是异常可能发生的上下文环境。针对每种异常类型我们预定义H个“规则-场景”对以构建知识库。PANDA将感知到的环境信息E n v I n f o EnvInfoEnvInfo作为查询检索相关性最高的k条异常规则最后PANDA整合用户查询U s e r q u e r y User_{query}Userquery、环境信息E n v I n f o EnvInfoEnvInfo和检索到的规则R u l e s a Rules_aRulesa构建规划提示词P r o m p t p l a n Prompt_{plan}Promptplan并输入MLLM生成检测策略方案其中预处理Preprocessing指定可选的视觉增强步骤如亮度调整、去噪、超分辨率潜在异常Potential Anomalies基于规则相关性和场景理解优化异常列表启发式提示词Heuristic Prompt包含针对每种潜在异常的分步推理指令支持下游推理模块进行结构化的思维链分析。通过整合自适应环境感知与RAG增强的策略规划PANDA确保后续异常推理具备目标导向性和上下文感知能力显著提升开放世界场景下的鲁棒性。3.2 Goal-Driven Heuristic Reasoning推理模块是PANDA分析视频异常事件的核心组件支持离线和在线两种推理模式。本节重点介绍离线模式在线模式的实现细节将在后续说明。在3.1节构建的检测策略方案指导下PANDA利用VLM执行目标驱动的启发式推理。给定用户查询U s e r q u e r y User_{query}Userquery、片段级视频序列V c l i p { c 1 , c 2 , . . . , c T } V_{clip}\{c_1, c_2, ..., c_T\}Vclip{c1,c2,...,cT}每个视频片段c t c_tct包含s帧和策略方案P l a n s t r a t e g y Plan_{strategy}PlanstrategyPANDA首先应用方案中指定的预处理工具得到增强后的视频片段其中潜在异常、异常规则和启发式提示词直接继承自规划阶段增强与反思信息Enhancement and Reflection Info包含自我反思阶段产生的内容将在3.3节详细说明包括工具优化结果、更新后的异常规则和启发式提示词。为增强时间感知能力PANDA配备短期记忆组件M e m o r y t e x t l − s t e p s Memory_{text}^{l-steps}Memorytextl−steps记录过去l步推理过程作为文本记忆同时维护对应的视觉记忆流M e m o r y v i s u a l l − s t e p s Memory_{visual}^{l-steps}Memoryvisuall−steps存储与最近l步推理对齐的视觉帧支持模型在推理过程中获取细粒度视觉线索。最终在潜在异常目标和丰富上下文知识的驱动下PANDA执行启发式推理其中状态Status表示VLM的判断结果正常Normal表示片段被明确分类为非异常异常Abnormal表示存在强异常证据信息不足Insufficient表示当前信息不足以做出明确判断分数Score对应每种状态下片段存在异常事件的概率原因Reason是VLM给出的状态判断依据。若结果为“信息不足”PANDA将触发反思机制以收集更多上下文或观察结果之后重新进入推理循环。3.3 Tool-Augmented Self-Reflection在复杂场景中PANDA可能无法明确判断视频片段是否存在异常。此时模型返回“信息不足”状态触发反思模块。PANDA采用工具增强型自我反思机制配备一系列用于视觉内容增强和辅助分析的专用工具τ { t o o l 1 , t o o l 2 , . . . , t o o l n } \tau\{tool_1, tool_2, ..., tool_n\}τ{tool1,tool2,...,tooln}包括图像去模糊、去噪、亮度增强、图像检索、目标检测和网络搜索等助力收集额外证据以支持决策过程。Experience-Driven Reflection.针对当前推理步骤返回的“信息不足”原因Insufficient ReasonPANDA首先查询其长期记忆链Long CoM将在3.4节介绍检索最相似的历史反思案例随后PANDA结合视频上下文信息包括用户查询、环境信息、策略方案、异常规则、短期记忆链、信息不足原因和历史反思经验构建反思提示词P r o m p t r e f l e c t i o n Prompt_{reflection}Promptreflection并输入MLLM分析不确定性原因并推荐合适的反思方案其中信息不足原因Insufficient Reason是MLLM结合VLM输出、环境线索和异常规则等上下文推断出的决策不确定性根源待使用工具Tools to Use指定用于信息增强的工具名称及其对应参数新异常规则New Anomaly Rule和新启发式提示词New Heuristic Prompt分别表示更新后的异常规则和重新设计的启发式提示词。Tool Invocation.PANDA执行反思结果中建议的工具功能以增强视觉和语义信息。工具调用过程可表示为其中文本增强信息Text Enhancement Info包括工具输出的总结如检测到的目标、网络搜索结果视觉增强信息Visual Enhancement Info包括处理后的视频片段c ^ t \hat{c}_tc^t和检索到的历史关键帧集c s { f 1 , f 2 , . . . , f s } c_s\{f_1, f_2, ..., f_s\}cs{f1,f2,...,fs}。Refined Reasoning.PANDA利用新获取的文本线索更新推理提示词并对增强后的视频片段输入重新执行推理若返回状态为“正常”或“异常”PANDA在下一步骤继续推理若仍为“信息不足”则重新触发反思。为避免无限循环反思轮次被限制为r。若经过r轮反思后结果仍为“信息不足”PANDA将为该状态分配默认异常分数跳过当前片段并继续处理下一个步骤。3.4 Self-Improving Chain-of-Memory为使PANDA通过推理、反思和优化推理的迭代循环积累经验逐步提升性能本文设计了自我改进的记忆链CoM机制如图3所示。该机制增强了长期上下文感知能力和视频序列决策的一致性包含短期记忆链short CoM和长期记忆链long CoM两个组件。Short CoM.在推理阶段短期记忆链包括文本推理轨迹M e m o r y t e x t l − s t e p s Memory_{text}^{l-steps}Memorytextl−steps和对应的视觉记忆流M e m o r y v i s u a l l − s t e p s Memory_{visual}^{l-steps}Memoryvisuall−steps如3.2节所述。在反思阶段短期记忆链表现为过去的反思输出集合R e s u l t r e f l e c t i o n h i s t o r y { R e s u l t r e f l e c t i o n 1 , R e s u l t r e f l e c t i o n 2 , . . . , R e s u l t r e f l e c t i o n l } Result_{reflection}^{history} \{Result_{reflection}^1, Result_{reflection}^2, ..., Result_{reflection}^l\}Resultreflectionhistory{Resultreflection1,Resultreflection2,...,Resultreflectionl}。Long CoM.PANDA还维护一个随时间演化的长期记忆链L o n g − C o M { M 1 , M 2 , . . . , M T } Long-CoM \{M_1, M_2, ..., M_T\}Long−CoM{M1,M2,...,MT}其中每个时间步t的记忆单元M t M_tMt包含三个关键输出M t { R e s u l t r e a s o n i n g , R e s u l t r e f l e c t i o n , R e s u l t r e a s o n i n g r e f i n e d } M_t \{Result_{reasoning}, Result_{reflection}, Result_{reasoning}^{refined}\}Mt{Resultreasoning,Resultreflection,Resultreasoningrefined}。该结构确保PANDA保留所有决策阶段的完整轨迹——初始推理、反思分析和反思后决策。视频处理初期长期记忆链为空PANDA依赖短期记忆链的局部窗口记忆进行初始推理和反思。随着更多片段被处理长期记忆链逐渐积累轨迹支持记忆一致性推理和反思规划。通过这种自我改进的记忆链机制PANDA能够利用积累的历史经验指导推理和反思过程使异常检测的稳定性和准确性随时间逐步提升。4 Experiments5 Conclusion在这项工作中我们介绍了Panda这是一个面向通用VAD的代理人工智能工程师当面对各种真实世界场景时它不需要训练数据或手动制作管道。熊猫集成了四个核心能力自适应场景感知战略规划、目标驱动的启发式推理、工具增强的自我反思和自我完善的记忆链。这些功能协同工作使熊猫能够自适应地检测各种、动态和以前未曾见过的环境中的异常。我们在多个基准上的广泛实验包括多场景、开放场景和复杂场景验证了Panda强大的泛化能力和稳健的性能无需任何训练。这些发现突显了熊猫作为现实世界场景中通用VAD解决方案的潜力。