在人工智能图像生成领域,苹果的机器学习研究团队带来重磅突破,成功开发出一款全新的人工智能系统——STARFlow。该系统致力于生成高分辨率图像,有望撼动扩散模型在该领域的主导地位,而扩散模型正是支撑DALL-E和Midjourney等热门图像生成器的核心技术。
这一重大进展在近期发表的研究论文中得到详细阐述。STARFlow由苹果研究人员携手加州大学伯克利分校、佐治亚理工学院等学术伙伴共同打造。该系统创造性地将规范化流与自回归变换器相结合,据苹果团队称,其性能已达到与当前最先进的扩散模型相媲美的水平。
这一成果的问世,正值苹果在人工智能领域备受争议的关键时期。在周一举行的全球开发者大会(WWDC)上,苹果对其Apple Intelligence平台的人工智能更新内容寥寥无几。这一情况不仅凸显出苹果在人工智能赛道上面临的激烈竞争压力,也让外界愈发质疑其在人工智能军备竞赛中的掉队态势,此前苹果已因在AI领域的发展迟缓而饱受批评。
研究团队在论文中明确指出:“据我们所知,这项工作首次成功展示了在这种规模和分辨率下有效运行的规范化流程。”团队成员除了苹果机器学习研究人员Jiatao Gu、Joshua M. Susskind和Shuangfei Zhai,还有来自各大高校的学术合作者。
STARFlow的诞生,是苹果为打造独特AI功能所做出的广泛努力的缩影。尽管谷歌、OpenAI等企业凭借生成式AI领域的创新频频登上媒体头条,但苹果另辟蹊径,持续探索能为自身带来差异化竞争优势的AI技术路径。
一直以来,扩展正则化流以高效处理高分辨率图像,都是人工智能图像生成领域的一大难题。正则化流作为一种能将简单分布转化为复杂分布的生成模型,在图像合成应用中,长期被扩散模型和生成对抗网络的光芒所掩盖。而STARFlow的研发,正是苹果团队攻克这一根本性挑战的成果。
研究人员表示:“STARFlow在类条件和文本条件图像生成任务中均展现出极具竞争力的表现,样本质量与最先进的扩散模型相差无几。”这充分证明了该系统在应对不同类型图像合成挑战时的强大适应性与多功能性。
为突破现有规范化流方法的局限,苹果研究团队进行了多项关键创新。STARFlow采用“深浅设计”架构,以一个深度Transformer块为核心,用于捕捉模型的大部分表征能力,同时搭配若干计算高效且效果显著的浅层Transformer块作为补充。此外,该系统选择在 “预训练自动编码器的潜在空间” 中进行操作,这种处理方式比直接进行像素级建模更为高效,能够让模型处理图像的压缩表示,大幅提升运行效率。
与依赖迭代去噪过程的扩散模型不同,STARFlow保留了标准化流的数学特性,这使得它能够在连续空间中进行精确的最大似然训练,无需进行离散化处理。这种训练方式赋予STARFlow独特优势,在需要对生成内容进行精确控制的应用场景,或是理解模型不确定性对决策至关重要的情况下,STARFlow能够发挥重要作用,这对于苹果所重视的企业应用程序以及设备端AI功能而言,具有潜在的巨大价值。
目前,苹果在人工智能领域承受着巨大压力。彭博社的分析文章曾指出,Apple Intelligence和Siri在与竞争对手的较量中处于劣势,而本周WWDC上苹果在AI方面的低调表现,也进一步反映出其面临的挑战。但STARFlow的出现,证明了扩散模型并非图像生成的唯一路径,通过另辟蹊径同样能够实现优异成果。这一突破或将为苹果开辟新的创新方向,充分发挥其在软硬件集成以及设备处理能力方面的固有优势,助力苹果在人工智能领域实现突围。