
爱诗科技在北京正式发布全球首个支持1080P分辨率的通用实时世界模型——PixVerse R1。这一突破性产品基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术构建,将视频生成延迟从传统“秒级”压缩至人眼可感知的“即时”响应,彻底打破“等待成片”的创作桎梏,实现“所想即所见、所说即所现”的实时交互与持续演化能力,标志着AIGC领域的视频生成正式从“静态输出”迈入“实时动态共创”的全新阶段,为视听媒体行业带来颠覆性变革。
在传统视频制作与AI生成流程中,高延迟、固定时长、片段化输出始终是难以逾越的行业痛点。无论是专业影视制作的漫长渲染周期,还是普通用户使用AI工具生成视频时的“盲盒式等待”,都极大限制了创作的即时性与互动性,无法满足动态共创、实时调整的核心需求。PixVerse R1的问世,通过三大核心技术协同发力,系统性解决了上述难题,构建起兼具真实感、持续性与交互性的“实时交互世界引擎”。
PixVerse R1的颠覆性体验,源于三大核心技术的协同创新,形成了从基础模型到生成机制再到响应能力的完整技术闭环。作为底层支撑的Omni原生多模态基础模型,打破了传统多模态系统“拼接式”处理的局限,采用统一Transformer架构与Token流架构,将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。与传统模型通过上采样提升分辨率不同,该模型全程在原生分辨率下训练,有效避免了画面模糊与伪影问题,通过规模化训练让光影变化、物体运动与物理交互具备高度一致性和真实感,使AI不再是简单“绘图”,而是模拟符合现实逻辑的数字世界。
自回归流式生成机制则攻克了长时序内容创作的核心难题。通过引入记忆增强注意力模块,PixVerse R1可生成任意长度的视频内容,同时长期维持角色身份、物体状态与环境逻辑的连贯性,彻底告别传统AI视频工具4-6秒的片段上限与画面突变、逻辑断裂的痛点。更关键的是,用户无需预设完整指令,可在视频生成过程中随时插入新需求,系统即时响应并动态调整叙事走向,实现“边创作边调整”的流式交互体验。
而瞬时响应引擎(IRE)则为“实时性”注入核心动力。该引擎通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新技术,将传统扩散模型所需的50+采样步数大幅压缩至1-4步,计算效率提升数百倍,使指令响应延迟低至0.5-2秒,真正进入“即时”响应阈值。这一突破不仅能支撑高并发API服务,更为未来在终端设备上的部署应用铺平了道路,让实时生成能力摆脱对高性能服务器的依赖。










