苹果发布开源模型SHARP:单张2D图像秒级转换高逼真3D场景

🤖 由 文心大模型 生成的文章摘要

苹果公司近期发布开源模型SHARP,该模型可在不足一秒内基于单张2D图像生成高逼真度的3D场景表征。

据苹果公司官方表述,“SHARP回归模型能够对所描绘场景的3D高斯表征参数进行回归运算”。本质而言,该模型可通过标准图形处理器(GPU)上的神经网络生成场景的3D表征。所生成的3D高斯表征支持实时渲染,能够为近景场景生成高分辨率逼真图像;该表征采用度量尺度,具备绝对比例属性,可支持度量尺度下的相机运动。

SHARP模型成功解决了视图合成领域的一项关键技术挑战。传统3D高斯散射方法需采集数十张乃至数百张不同视角的图像,而SHARP模型仅需单张图像,即可在单一处理步骤中完成完整3D高斯场景表征的生成。

苹果公司表示,实验结果显示,SHARP模型在多个数据集测试中均表现优于前代模型,图像质量误差降低25%至43%,同时处理速度实现显著提升。该公司进一步指出,此模型“在多个数据集上树立了新的技术标杆”。

该模型生成的3D高斯散射图像采用.ply文件格式,可兼容多款公开的3D高斯散射渲染器,且遵循OpenCV坐标系规范。在标准GPU硬件支持下,该系统可实现每秒100帧以上的3D模型渲染速率,能够支持从邻近视点呈现高分辨率视图;用户亦可渲染包含相机轨迹的视频,但此功能目前需依赖CUDA架构GPU。

目前,SHARP模型已在GitHub平台开放下载,支持通过命令行界面调用;相关研究论文《不到一秒的清晰单目视图合成》(Instant Sharp Monocular View Synthesis)已发布于arXiv预印本平台。

「93913原创内容,转载请注明出处」