Taalas发布硬连线技术AI芯片 HC1性能提升10倍成本降九成五

🤖 由 文心大模型 生成的文章摘要

AI芯片初创公司Taalas正式发布全新硬连线技术,并推出首款搭载该技术的芯片HC1。这款专为Meta Llama 3.1 8B 模型打造的芯片,实现了AI模型推理速度10倍提升,生产成本降至传统方案的二十分之一,一举解决了大模型应用中长期存在的延迟高、成本高两大痛点,为AI推理芯片技术发展开辟了全新路径。

Taalas的硬连线技术核心突破在于将AI模型直接固化在硅片上,实现了计算与存储的深度融合,从根本上消除了传统芯片数据传输过程中的“内存墙”障碍。与Cerebras、Groq等企业采用的集成 SRAM 加速路径不同,Taalas的ASIC技术路线通过硬件级固化模型权重,让芯片成为模型的物理载体,大幅提升了数据处理效率。其首款产品HC1采用台积电6nm工艺制造,芯片面积达815mm²,集成530 亿个晶体管,单颗芯片即可完美适配 Llama 3.1 8B模型的运行需求。

性能测试数据显示,在Llama 3.1 8B模型、输入序列长度1k/1k的测试场景下,HC1芯片的每秒Token生成数(TPS)达到16960,远超行业主流产品——英伟达H200(230 TPS)、B200(353 TPS),以及Groq(594 TPS)、Sambanova(932 TPS)、Cerebras(1981 TPS)等专注AI推理的芯片产品,性能优势显著。除了速度提升,HC1在成本和功耗上同样表现亮眼,单颗芯片典型功耗仅250W,一台搭载10颗HC1的服务器总功耗仅2.5kW,可通过常规空气冷却机架部署,大幅降低了部署和运维成本。

针对单颗HC1仅能容纳80亿参数模型、与当前万亿参数前沿模型相比容量有限的问题,Taalas推出了集群化扩展策略。通过30颗HC1芯片的集群配置,可实现高达12000TPS/User 的吞吐速度,为用户带来近乎零延迟的推理体验,同时该集群方案每百万token成本仅7.6美分,不到同等吞吐量GPU方案的一半,即使考虑到HC1每年的更新成本,其综合成本优势依然明显。此外,Taalas还透露,针对更大参数的模型如DeepSeekR1-671B,已推出多芯片解决方案,未来还将推出支持200亿参数的下一代芯片HC2。

值得关注的是,Taalas的硬连线技术并非完全放弃灵活性。HC1在固化核心模型的同时,保留了可编程SRAM,可用于保存LoRA微调后的权重和 KV 缓存,还能通过 LaRA 适配器进行重新训练,搭配可配置的上下文窗口,实现了灵活性与极致性能的平衡。同时,该芯片的定制化流程大幅简化,仅需修改两层金属层即可适配新模型,结合台积电的 “晶圆厂最优工作流”,客户可在两个月内将模型权重转化为可部署的PCI-Express卡,而传统AI芯片的生产周期通常长达六个月。

不过,硬连线技术也为Taalas带来了独特的商业模式挑战——模型权重一旦固化在硅片中便无法更改,模型的升级迭代需要重新流片。对此,Taalas表示,当前主流大模型的版本发布周期正在拉长,且模型训练成本是定制芯片的100倍,相比之下,芯片重新定制的成本可忽略不计。目前该公司已为技术申请14项相关专利,后续将专注于开源模型的适配,同时也不排除与Anthropic、OpenAI等企业合作定制专用芯片的可能。

「93913原创内容,转载请注明出处」