
2025年中国计算机大会现场传来重磅消息——中科曙光正式发布国内首个科学大模型一站式开发平台OneScience,以国产GPU为核心算力基座,通过开放架构打破科学大模型开发的”三座大山”,标志着我国AI for Science(人工智能赋能科学研究)领域迈入工程化量产新阶段。
“过去实验室里复现一篇顶刊论文的模型,光环境配置就要一周,优化调参更是无底洞。”中科曙光高级副总裁李斌在发布会上直言,当前科学大模型正从”任务化”向”通用化”跨越,参数量激增导致的算力门槛与工程复杂度,已成为科研创新的主要障碍。针对这一痛点,OneScience平台整合曙光30年高性能计算积累,构建起覆盖全流程的科研智能体系:
预置场景化模板:内置地球科学、生物信息、流体仿真等六大领域数十个热点模型,气象预报、分子动力学等场景可直接调用启动训练;
自动化工具链:自研”SciOpt”引擎实现算子融合、通信压缩等策略自动匹配,性能平均提升3-5倍,配合可视化拖拽界面,调参过程如制作PPT般直观;
弹性算力支撑:无缝对接曙光AI超集群,千卡级任务一键提交,超30天稳定性测试验证的集群系统可实现百万级部件故障秒级隔离。
这些功能共同造就了”3小时造模”的行业突破:从数据准备到模型训练、优化部署的全流程耗时较传统模式缩短百倍,昌平实验室已借助该平台实现生物分子设计效率的跨越式提升。
OneScience的核心竞争力源于对国产GPU生态的深度适配。针对国外模型在国产硬件上”跑不通、跑不快”的痛点,研发团队历经三年攻坚,形成三大技术突破:
全栈优化方案:通过算子库重构、内存分配策略优化等技术,解决了国产GPU显存不足、通信延迟高等问题,支撑十亿级参数量模型稳定运行;
贯通式架构设计:遵循20余家企业联合发布的AI计算开放架构,实现从芯片指令集到应用框架的纵向优化,让千卡集群协同效率提升40%以上;
故障自愈机制:依托曙光AI超集群的”算存网管电冷”一体化设计,训练任务可自动规避故障节点,单机位故障对整体进度影响控制在1%以内。
国家高性能计算机工程技术研究中心总工程师刘冠川评价:”这种软硬件协同的创新模式,为AI动荡期的科研人员提供了稳定可靠的技术底座。”








