小米大模型团队与北大信科提出对角蛇形自回归图像生成框架,刷新ImageNet基准测试成绩

🤖 由 文心大模型 生成的文章摘要

小米大模型团队与北大信科在图像生成技术领域取得重大突破,提出了对角蛇形扫描自回归图像生成框架(DAR,diagonal snake-like order)。这一创新性框架有效确保了相邻索引的token在空间上紧密相邻,在图像生成的自然度和效率上实现了显著提升。​

传统的图像生成方式多为逐行生成,这种方式生成的相邻像素在空间上可能不连续,导致最终生成的图像在视觉效果上不够自然。而DAR框架则另辟蹊径,它能够沿着图像的对角线,以类似蛇形的路径灵活地生成每个像素。这种生成方式更符合人类绘画时的直觉,使得生成过程更加流畅自然,也让相邻索引的token在空间上紧密相连,极大地提升了图像生成的质量和连贯性。​

小米大模型团队表示,在256×256 ImageNet基准测试中,DAR取得1.37的FID分数。FID分数是评估生成模型生成图像质量的常用指标,分数越低表明生成图像与真实图像越相似。此次1.37的FID分数刷新了当前同类技术的最好成绩,充分展示了DAR框架在图像生成领域的强大实力和技术优势,超越了此前所有的自回归方法。​

ImageNet是机器学习和计算机视觉领域极为著名的数据集,包含超过1400万张标注图片,覆盖约21841个类别。其核心部分ILSVRC是推动大规模物体检测和图像分类技术发展的年度竞赛,使用约100万张训练图像、5万个验证图像以及10多万张测试图像,共1000个不同对象类别。在这样具有广泛影响力和权威性的基准测试中脱颖而出,DAR框架的技术先进性得到了有力验证。​

小米官方透露,未来将进一步支持更灵活的多种分辨率图像生成。这一计划的推进,将使 DAR框架能够适应更多不同场景的需求,无论是高清图像生成,还是其他特殊分辨率需求的图像任务,都有望通过DAR框架实现高质量的输出,从而推动视觉内容创作迈向新的高度。

「93913原创内容,转载请注明出处」