美团AI布局再落子:LongCat App携文本/音频/视频全模态能力登场,C端交互+ B端服务双轨并行

🤖 由 文心大模型 生成的文章摘要

2025年11月3日,美团正式宣布旗下LongCat大模型官方App开启公测,安卓与iOS用户可同步下载体验。这款搭载全新开源全模态模型LongCat-Flash-Omni的应用,不仅带来联网搜索与实时语音通话核心功能,更以5600亿总参数量的技术基底,展现出美团在AI赛道的突破性布局。

作为美团LongCat-Flash系列的第三款核心产品,此次上线的App深度集成了全模态能力。其支持的语音通话功能可实现超8分钟连续交互,实测中能实时生成并讲述睡前故事等内容,响应延迟达到毫秒级,这得益于模型采用的 Shortcut 连接混合专家架构及零计算专家设计,在270亿激活参数的轻量化运行中保持了高效性能。而联网搜索功能已完成首轮优化,安卓端此前出现的相关问题经官方修复后,用户卸载重装即可正常使用。值得关注的是,App将根据输入类型智能调用对应模型——文本交互依托longcat-flash模型,而图片、PDF等多模态需求则自动切换至Omni版本,不过目前图片上传功能仍存在待修复的兼容性问题。

技术层面,支撑App的LongCat-Flash-Omni模型创下多项开源纪录:在视频转文本任务中取得SOTA性能,短视频理解能力显著优于Gemini-2.5-Flash等竞品,长视频处理可与 Gemini-2.5-Pro比肩;音频领域更实现突破,语音识别(ASR)在LibriSpeech数据集表现超越Gemini-2.5-Pro,语音到文本翻译(S2TT)及音频理解均达当前最优水平。这种 “全模态不降智” 的特性,源于美团独创的五阶段渐进式训练策略,从文本预训练逐步过渡到音视频融合,最终实现128K tokens上下文窗口的长时记忆支持。

在交互体验上,该模型通过250名用户及10位专家的联合评测,在自然度与流畅度评分上比Qwen3-Omni高出0.56分,尤其在副语言理解、对话相关性等维度已看齐顶级模型。未来计划上线的视频通话功能,将进一步释放其跨模态融合优势,依托动态帧采样与分层令牌聚合技术,有望解决实时音视频同步与低延迟的行业痛点。

值得注意的是,LongCat App延续了美团的业务基因,在生成营销策划、节日文案等内容时,会自然融入美团买菜、本地生活等场景化建议,这种 “AI +业务” 的深度绑定,既区别于通用大模型产品,也为后续商户服务、智能客服等B端场景落地埋下伏笔。目前用户可通过官方体验地址及应用商店获取服务,模型代码已同步开源至GitHub与Hugging Face平台,开发者可基于此构建多模态应用。

「93913原创内容,转载请注明出处」