专注于长视频理解的初创公司Memories.ai正式推出了其首款大型视觉记忆模型(Large Visual MemoryModel),这一突破性技术旨在赋予多模态大语言模型视觉记忆回溯能力。与此同时,Memories.ai宣布完成了800万美元的种子轮融资,该轮融资由Susa Ventures领投,Samsung Next、Fusion Fund、Crane Ventures、Seedcamp和Creator Ventures等知名机构跟投,且原计划募集400万美元,因机构需求旺盛而实现超募。
Memories.ai的核心技术亮点突出,其能够在本地或云端处理多达1,000万小时的视频,为安防、营销等众多场景提供可搜索索引、标签、分段与聚合报告。该公司联合创始人Shawn Shen博士,作为前Meta Reality Labs研究科学家指出,谷歌、OpenAI和Meta的端到端模型在超过两小时的视频上下文理解上仍存在较大困难,而Memories.ai希望通过复制人类视觉记忆的筛选能力,来解决这一行业空白。
此次推出的大型视觉记忆模型实现了视觉记忆检索功能,它能够精准解析用户意图,快速检索相关视觉记忆片段,并整合关联的视觉记忆信息,进而基于这些记忆和用户查询进行推理。其独特的智能决策机制,可以自主判断何时、如何以及调取哪些视觉记忆。在完成记忆信息整合后,模型能生成记忆引用,并以正确输出格式回答用户问题,让多模态大模型具备了无限长视觉记忆上下文处理能力。
在性能表现方面,Memories.ai的模型成绩斐然。在视频问答基准测试中,于MVBench、NextQA以及Temp Compass数据集中,该模型全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text数据集中,更是超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,创造了新的性能记录。