
上海人工智能实验室联合浙江大学共同推出全球首个视频转网页评测基准IWR-Bench,该基准填补了AI前端开发动态交互评测领域的空白。令人关注的是,在对28款主流模型的评测中,表现较为突出的GPT-5综合得分仅为36.35分,暴露出当前AI在前端开发动态交互能力上的显著短板。
据了解,传统的AI前端开发评测基准如Design2Code、WebSight等,仅能对模型复现网页静态布局的能力进行评估,无法涉及用户点击、表单提交、游戏操作等核心动态交互功能。“网页的核心价值在于动态交互,传统评测就像只审视建筑外观,却忽略了内部居住功能,不能真实反映AI在实际前端开发中的能力。”研究团队相关负责人表示。
而此次发布的IWR-Bench评测基准,实现了三大创新性突破,构建起更贴近真实开发场景的评测框架。在输入维度上,它摒弃单一截图,采用“用户操作视频+匿名化静态资源包”的形式,要求模型从时间序列中提取交互逻辑,例如在2048游戏任务中,模型需通过视频逆向推导数字合并规则与得分机制;任务生态方面,该基准涵盖113个真实网站任务,包含1001次交互动作与620个视觉检查点,覆盖从简单浏览到机票预订系统的全复杂度场景,且移动端任务占比达10.62%;在评测方式上,首创Agent-as-Judge机制,借助browser-use库驱动编程代理模拟用户操作,从交互功能正确性(IFS)和视觉保真度(VFS)双维度进行评分,有效避免人工评估的主观性偏差。值得一提的是,所有静态资源均以“asset_001.png”等匿名方式命名,迫使模型依靠视觉匹配关联资源,完全复刻前端开发实际工作流。
从评测结果来看,当前AI模型在前端开发动态交互领域的表现不尽如人意。即便是综合得分最高的GPT-5,其交互功能正确性(IFS)仅为24.39%,意味着超过75%的操作存在逻辑缺陷,而视觉保真度(VFS)虽达64.25%,但与功能实现能力形成巨大反差。这种“形似神不似”的问题在复杂任务中更为突出,比如在机票预订系统测试中,模型能精准复现页面表单样式,却无法实现日期筛选与价格联动逻辑;在扫雷游戏任务里,虽能渲染棋盘布局,却不能正确响应点击排查与游戏胜负判断。
此外,评测还发现两大意外现象:一是Claude-Sonnet-4、Gemini-2.5-Pro等模型的“thinking版本”较普通版得分仅高出0.3-0.8分,提升有限,表明基础模型能力仍是制约AI前端开发水平的核心瓶颈;二是VideoLLaMA3等视频专长模型表现垫底,甚至不及通用多模态模型,这说明视频转网页任务需要“视频理解+逻辑抽象+代码生成”的跨域能力,而非单一的视频处理专长。
对于行业而言,IWR-Bench的评测结果明确了AI前端开发技术的三大攻坚方向。首先是强化时序因果推理能力,让模型能从视频帧中提取“操作-反馈”因果链,而非孤立识别视觉元素;其次是提升状态机建模能力,将网页动态行为抽象为可执行的状态转换逻辑,解决事件监听与数据同步问题;最后是完善资源绑定机制,建立视觉特征与匿名资源的精准映射,提高跨模态信息关联的可靠性。








