美团AI布局再落子：LongCat App携文本/音频/视频全模态能力登场，C端交互+ B端服务双轨并行

🤖 由文心大模型生成的文章摘要

2025年11月3日，美团正式宣布旗下LongCat大模型官方App开启公测，安卓与iOS用户可同步下载体验。这款搭载全新开源全模态模型LongCat-Flash-Omni的应用，不仅带来联网搜索与实时语音通话核心功能，更以5600亿总参数量的技术基底，展现出美团在AI赛道的突破性布局。

作为美团LongCat-Flash系列的第三款核心产品，此次上线的App深度集成了全模态能力。其支持的语音通话功能可实现超8分钟连续交互，实测中能实时生成并讲述睡前故事等内容，响应延迟达到毫秒级，这得益于模型采用的 Shortcut 连接混合专家架构及零计算专家设计，在270亿激活参数的轻量化运行中保持了高效性能。而联网搜索功能已完成首轮优化，安卓端此前出现的相关问题经官方修复后，用户卸载重装即可正常使用。值得关注的是，App将根据输入类型智能调用对应模型——文本交互依托longcat-flash模型，而图片、PDF等多模态需求则自动切换至Omni版本，不过目前图片上传功能仍存在待修复的兼容性问题。

技术层面，支撑App的LongCat-Flash-Omni模型创下多项开源纪录：在视频转文本任务中取得SOTA性能，短视频理解能力显著优于Gemini-2.5-Flash等竞品，长视频处理可与 Gemini-2.5-Pro比肩；音频领域更实现突破，语音识别（ASR）在LibriSpeech数据集表现超越Gemini-2.5-Pro，语音到文本翻译（S2TT）及音频理解均达当前最优水平。这种 “全模态不降智” 的特性，源于美团独创的五阶段渐进式训练策略，从文本预训练逐步过渡到音视频融合，最终实现128K tokens上下文窗口的长时记忆支持。

在交互体验上，该模型通过250名用户及10位专家的联合评测，在自然度与流畅度评分上比Qwen3-Omni高出0.56分，尤其在副语言理解、对话相关性等维度已看齐顶级模型。未来计划上线的视频通话功能，将进一步释放其跨模态融合优势，依托动态帧采样与分层令牌聚合技术，有望解决实时音视频同步与低延迟的行业痛点。

值得注意的是，LongCat App延续了美团的业务基因，在生成营销策划、节日文案等内容时，会自然融入美团买菜、本地生活等场景化建议，这种 “AI +业务” 的深度绑定，既区别于通用大模型产品，也为后续商户服务、智能客服等B端场景落地埋下伏笔。目前用户可通过官方体验地址及应用商店获取服务，模型代码已同步开源至GitHub与Hugging Face平台，开发者可基于此构建多模态应用。

「93913原创内容，转载请注明出处」

美团AI布局再落子：LongCat App携文本/音频/视频全模态能力登场，C端交互+ B端服务双轨并行

相关文章

印孚瑟斯董事长：人工智能的未来在于量身定制的小型语言模型

苹果CEO库克称赞DeepSeek

腾讯混元3D模型加速全球化布局国际站即将上线，多模型生态赋能产业升级

杭州深度求索公司推出适配国产芯片的DeepSeek V3.1模型

IDC：字节跳动、阿里巴巴和商汤科技是中国顶级生成式人工智能基础设施服务供应商

奈飞首次在原创电视剧中使用人工智能制作视觉特效

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban

AI应用推荐

热门

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

友情链接

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban