
(本文作家为 硅基象限,钛媒体经授权发布) 文 | 硅基象限 不是替代,是重构,NPU让AI算力插足“乐高期间”。 昔日十年,AI算力的叙事险些被一家公司界说——NVIDIA(英伟达)。 从A100到H100,再到H200,GPU像一条握住扩张的算力工业活水线,把深度学习从实验室推向大模子期间。 但一个被永久淡薄的问题是:GPU领先并不是为AI而生,是为图形渲染而生。 这意味着它从一开动即是“通用并行策划架构”,而不是“AI原生架构”。 于是,一个更底层的趋势开动出现: 当AI策划限度指数级增

(本文作家为 硅基象限,钛媒体经授权发布)
文 | 硅基象限
不是替代,是重构,NPU让AI算力插足“乐高期间”。
昔日十年,AI算力的叙事险些被一家公司界说——NVIDIA(英伟达)。
从A100到H100,再到H200,GPU像一条握住扩张的算力工业活水线,把深度学习从实验室推向大模子期间。
但一个被永久淡薄的问题是:GPU领先并不是为AI而生,是为图形渲染而生。
这意味着它从一开动即是“通用并行策划架构”,而不是“AI原生架构”。
于是,一个更底层的趋势开动出现:
当AI策划限度指数级增万古,GPU的边缘效果开动下落。
产业开动向另一个标的转型,重新筹划策划范式,一种依靠专用策划芯片筹划逻辑(ASIC)的算力芯片——NPU出生了!
好意思国时刻4月22日,在Google Cloud Next行动上,谷歌推出两款第八代NPU芯片,TPU8t、TPU8i离别用于AI历练和AI推理。TPU8t每瓦性能上比前代产物擢升124%,TPU8i擢升117% ,TPU8i的每好意思元性能擢升80%。业内驳斥,“其如果对出门售,或将取代英伟达”。
云劳动厂搞芯片,并非是谷歌的私有道路。
全球云劳动市集的“大哥”亚马逊,在2018年发布首款用于推理的 NPU—Inferentia1,并在2023年推出了第二代Inferentia2,并在旧年底发布用于历练的NPU,Trainium3;名按序二的微软云也在2023年发布了首款云霄NPU(Maia 100),并在本岁首发布了Maia 200。
国内亦如斯。阿里在2019年发布首款NPU(含光800),专注云霄推理和视觉策划;2018 年开动百度发布基于ASIC逻辑的自研AI芯片昆仑1,并已迭代至昆仑芯3代。
2026年,算力芯片的大客户,字节卓绝也将对NPU下手。外媒知道字节卓绝已开动与三星洽谈自研NPU芯片,代号SeedChip,专为AI推理任务筹划,预测2026年3月底前委用首批样品。
2026年的趋势是芯片不再是一整块,谷歌、字节、阿里们思在英伟达的平台上,“拼”入我方的专用模块。
云厂商自研NPU,或将转换AI老本结构、能耗弧线,以致买卖模式。
什么是 NPU?谷歌TPU、阿里含光800等执行是一种NPU模式。
NPU(Neural Processing Unit)芯片,英文获胜翻译过来即是神经汇注处理芯片。
要意会NPU和GPU的离别,不错先从它们的底层逻辑开动,NPU广义上属于专用处理芯片(ASIC),而GPU属于通用处理芯片。
芯片按筹划逻辑不错被分为三类,通用策划芯片、FPGA(可重构硬件)和ASIC (专用处理芯片)。
第一是通用策划芯片,诸如CPU和GPU,一条教导驱动成百上千线程并行实行,很是擅所长理大限度并行策划,常常不转换硬件,而是通过软件(CUDA)转换“任务治愈”。这即是为什么世界齐说英伟达其实是一家软件公司,GPU中枢特征是高度可编程、适配扫数策划任务、架构复杂(需要许多缓存)。但代价是通用性越强,效果越低。
第二类是 ASIC(专用定制芯片),它是为了某一个特定任务(比如识别图像、处理语音)而特意定制的,数据流固定、能效极高,是一种“把算法固化进硅片”的筹划步伐。过失是一朝电路压印在硅片上,功能就无法革新,不够生动。ASIC的执行是把AI策划从“软件问题”酿成“物理问题”,但它也意味着生动性最低、更新周期长。
第三类是FPGA(可重构硬件),其不错通过“重新布线” 转换芯片硬件布局和转换软件代码,来转换芯片功能,像一套“乐高积木”,它介于通用和专用之间,常用于算法迭代快的原型栽植或边缘策划。
GPU功能广阔,不错并行作念许多事,淌若把这些本领齐用上,不错无比广阔,可是单价更高,也更费电,而 NPU只作念一件事或一类事,功能单一,可是单价低也更省电。
不卖芯片,只作念更具性价比的云云劳动商并不卖芯片,而是思要提供更具性价比的算力。
在2015年,谷歌就开动商讨NPU,那时,谷歌发现一个问题:其数据中心中,神经汇注推理需求暴涨,但GPU效果不及。
于是,谷歌里面启动了TPU神气。2015年第一代仅用于数据推理的TPU出生,2018年对外怒放Google Cloud TPU,2020–2024年开动插足“历练+推理一体化”阶段。
2026年,跟着TPU 8发布,谷歌初次明确分红两条道路:用于历练的TPU 8t和用于推理的TPU 8i,这背后反馈的是一个更大的趋势:AI算力的重点,正在从历练转向推理。
行业机构预测,到2030年,75%-80%的AI算力将用于推理。这意味着GPT历练一次,推理运行数亿次。因此,谁能把 1 分钱的推理老本压到 0.1 分,谁即是 将来的算力王者。
谷歌的两款芯片离别由两个配合方筹划,TPU8t由博通筹划, TPU8i由联发科筹划,两颗齐或将基于台积电2nm工艺,预测2027年底量产。TPU 8最中枢变化在于试图科罚“内存墙”问题,通过更高带宽HBM、更密集的片间互联。
据悉,这次TPU8对比上一代Ironwood产物,TPU 8i 推理芯片HBM容量从216GB增到288GB,带宽从6528提到8601GB/s,片上 SRAM擢升三倍达384M。集群限度从数万颗扩到13.4万颗,最多可连100万颗。
NPU并不是谷歌独角戏,亚马逊、微软等齐有NPU产物,而国内华为昇腾(Ascend)、寒武纪、地平线等也有访佛产物发布。
以前云厂商买英伟达的“全家桶”,目下他们思买英伟达的“地基”,我方盖“屋子”。
掌捏算力期间主动权TPU 8系列发布背后,是一个很是了了的计谋:去英伟达化。
如果TPU得胜,AI算力将从“GPU把握”酿成“多架构竞争”。
但取代“英伟达“,却并拦阻易。
最热切的问题是生态,英伟达的CUDA仍然是行业程序,CUDA 有 400 万栽植者。另一方面,TPU功能太过单一,GPU不错用于AI历练和推理、图形处理和渲染,可是TPU的功能单一。
业内东说念主士无边以为,NPU的意旨不是“替代GPU”,而是重新界说AI算力结构。将来可能出现,GPU四肢通用算力底座、TPU/NPU四肢AI专用加快层。
英伟达也看到了这个趋势,在2025年底,英伟达斥资 200 亿好意思元对 Groq 进行收购,Groq研发的 LPU (Language Processing Unit) ,在运行大模子(LLM)时,其速率是传统 GPU 的 10 倍以上。
这就像是昔日十年,大多手机厂商的竞争。当手机里最热切的Soc芯片如故被高通、联发科把握,具备广阔的护城河,自研Soc芯片需要付出很大的老本且濒临高风险。
那么,思要有私有上风、在市集上更具竞争力,大大宗手机企业不会接纳自研Soc芯片,而是针对Soc芯片的局部功能作念优化。
此前,三星、vivo、OPPO等手机厂商齐接纳自研用于擢升拍照本领的NPU芯片,完了各异化,比如vivo蓝图影像芯片、OPPO马里亚纳 MariSilicon芯片。
云厂商的算力竞争也接近尖锐化,越来越多用于历练和推理的NPU将会出现,并握住擢升本领。
将来真实的算力产业分水岭将是:谁能把AI推理老本压到极致开云kaiyun官方网站,谁就掌捏下一代算力期间主动权。