狗狗币,狗狗币走势,狗狗币怎么买,狗狗币在哪买,狗狗币价格,狗狗币挖矿,狗狗币官网,狗狗币交易平台,狗狗币钱包,狗狗币钱包下载,狗狗币最新消息,狗狗币注册,狗狗币开户,狗狗币下载网址,狗狗币APP
高功率带动单W价值提升。PSU是服务器电源进行AC-DC转换的核心,随着单体功率密度的提升,单W价格也在提升,呈现量价齐升局面。新一代GB300等GPU方案中,BBU、CBU逐步成为标配,能够解决负载波动率大的供电稳定、电压稳定问题。目前5.5 KW电源已进入量产阶段,后续伴随2026 下半年800 V HVDC 数据中心电力基础设施及 1 MW IT 机架逐步落地,电源将持续升级。随着功率密度要求的提升,UPS目前正在由600kW级向MW级迈进,以应对越来越大的功率密度需求,未来AIDC有望全面切换到HVDC为代表的全直流供电方案,电压等级也提升至800V。巴拿马电源等集成化、模块化产品逐步成为大厂青睐的主流,更先进的固态变压器(SST)也已开始研发和测试。
5)光模块:除了GPU等算力硬件需求强劲,也催生了网络端更大带宽需求。优秀的网络性能可以提升计算效率,显著提升算力水平。相较于传统的云计算网络,AI训练组网由叶脊架构向胖树架构转变,交换机和光模块数量大幅提升,且随着通信数据量的增加,对光模块的速率要求也更高。800G光模块2023年开始放量,2024-2026年都保持高速增长;1.6T光模块2025年开始出货,2026年有望放量,整个光模块产业链迎来量价齐升的景气周期。从竞争格局看,国内光模块巨头经历了一轮又一轮的竞争,与北美的云厂商深度绑定,占据了全球光模块市场的主要份额。从未来技术趋势演进看,中信建投证券建议关注硅光与CPO(共封装光学)。
2025年8月8日,GPT-5正式发布,包含GPT-5、GPT-5-Mini、GPT-5-Nano三个版本。GPT-5在数学、编程、视觉理解和健康领域表现突出,在数学AIME 2025(无工具)测试得分 94.6%、真实世界编码SWE-bench Verified得分 74.9%、多模态理解MMMU 得分 84.2%,健康HealthBench Hard 得分 46.2%,在各方面均位居前列。值得一提的是,GPT-5幻觉显著降低。在启用网页搜索时,GPT-5响应的事实错误率较GPT-4o降低约45%;深度思考模式下,错误率较OpenAI o3降低近80%。token定价方面,GPT-5为每百万输入token 1.25美元,每百万输出token 10美元,Mini和Nano则为GPT-5的1/5和1/25。随着近期Grok4、Genie3的陆续发布,大模型迭代提速,且准确率提升、成本降低,预计将加速AI应用的爆发,商业化也有望提速,帮助互联网大厂形成AI投入到商业变现的闭环,中信建投证券建议持续关注算力基础设施与AI应用等环节。
英伟达召开2025年度股东大会,机器人融合人工智能打造新万亿级市场空间。英伟达于美国当地时间6月25日召开股东大会,CEO黄仁勋宣布将机器人列为仅次于AI计算的公司第二大增长引擎,目标通过融合AI与机器人技术开辟物理世界AI新万亿级市场。为实现这一愿景,英伟达构建了全栈式技术壁垒:硬件层推出新一代机器人芯片 Thor SoC,兼容工业机械臂与自动驾驶车辆;软件层依托 Isaac Robotics平台整合GR00T人形机器人基础模型,支持多模态感知与物理仿真。无论自动驾驶还是更广阔的机器人应用,其训练软件都将依托于英伟达强大的数据中心芯片,端侧应用设备则采用其他专业芯片支持运行。展望未来,英伟达将由芯片供应商向“AI基础设施”平台商转型,搭建AI工厂进而成为AI产业的核心基础架构。当前机器人和汽车业务占英伟达整体收入比例约1%,但人工智能结合机器人、自动驾驶将发展成为万亿美元级别的增量市场空间。
全球Token消耗量呈现爆发式增长,免费AI服务的规模化普及成为核心引擎。谷歌将AI能力融合到搜索场景中,AI Overviews功能推动其2025年4月推理Token消耗量飙升至480万亿/月,较2024年同期的9.7万亿激增50倍。这一增长直接受益于其覆盖45亿用户的免费服务生态;中国市场的C端应用同样爆发,字节跳动豆包大模型日均Token调用量从2024年12月的4万亿跃升至2025年5月的16.4万亿,其中超60%消耗量来自抖音、今日头条的AIGC营销内容生成。与此同时,企业级Agent任务复杂度升级大幅推高单次消耗量:企业端单Agent解决供应链、财务等场景对于tokens消耗量达到十万数量级,针对复杂场景或多Agent协同则可能突破百万级别,较传统问答tokens消耗增长约2个数量级。当前海内外头部厂商持续发力算力基础设施建设,以满足激增的推理算力需求。
ASIC市场空间预期持续上调,助力各大云厂商自研AI芯片以满足激增算力需求。全球ASIC市场空间预期持续上调,核心驱动力源于云计算巨头为满足激增的AI算力需求而加速自研芯片部署。Marvell 在投资者交流会中提及其为微软Azure定制的ASIC芯片单token成本较GPU方案显著降低,同时解决了英伟达芯片供给缺口。Marvell为AWS、微软、谷歌、Meta等提供底层算力支持,得益于上述云厂商强劲的算力需求,Marvell预计2028年数据中心资本开支将超过一万亿美元,同时进一步上调数据中心市场规模2028年预期至940亿美元,较2024年4月的预期750亿美元上调26%,其中上调定制计算芯片(XPU和XPU配套芯片)市场规模指引37%。Marvell的竞争对手博通同样发力ASIC市场,博通CEO在业绩说明会上表示,2025财年第二季度博通人工智能收入超44亿美元,预计人工智能半导体收入将在第三季度增长至51亿美元,实现连续十个季度的增长,明年XPU部署将显著增加,超出公司此前预期。
Deepseek发布深度推理能力模型,性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练,模型效果逼近OpenAI o1模型,证明了大语言模型仅通过RL,无SFT,大模型也可以有强大的推理能力。但是R1-Zero也存在可读性差和语言混合的问题,在进一步的优化过程中,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型,主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段,R1在推理任务上表现出色,特别是在AIME 2024、MATH-500和Codeforces等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。
DeepSeek R1通过较少算力实现高性能模型表现,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。DeepSeek R1在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。
北美四大云厂商一季度资本开支持续高增,总计773亿美元,同比增长62%。其中,2025Q1亚马逊的capex为250亿美元,同比增长68%,微软的capex为214亿美元,同比增长53%,谷歌的capex为172亿美元,同比增长43%,Meta的capex为137亿美元,同比增长104%。四家云厂商对于2025年资本开支的指引保持乐观,谷歌、亚马逊、微软表示年初资本开支指引保持不变,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元。市场此前在DeepSeek出圈后认为算力可能加速通缩,资本开支可能会趋缓,但从北美云厂商的最新指引来看,投资依然强劲,反映出北美算力行业景气度依旧很高。
随着大模型应用的普及和用户互动频率的增加,LLM的Token使用量正在以惊人的速度增长。在近期举行的2025年Google I/O开发者大会上,谷歌表示目前系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。目前,Gemini的App上每月有4 亿多活跃用户。近期在字节跳动旗下火山引擎举办 Force 原动力大会上,公司宣布,截至2025年5月底,豆包大模型日均tokens使用量超过16.4万亿,较去年5月刚发布时增长137倍。Agent在解决复杂问题的过程中,会进行多轮对话或内部思考,每一轮的对话中都会产生大量的token。随着Agent在各种应用场景的快速普及,token数量还有望快速增长。
北美四大云厂商一季度资本开支持续高增,总计773亿美元,同比增长62%。其中,2025Q1亚马逊的capex为250亿美元,同比增长68%,微软的capex为214亿美元,同比增长53%,谷歌的capex为172亿美元,同比增长43%,Meta的capex为137亿美元,同比增长104%。四家云厂商对于2025年资本开支的指引保持乐观,谷歌、亚马逊、微软表示年初资本开支指引保持不变,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元。高带宽、高质量以及高可靠性的互联网络能够确保算力集群处于高效率的运行状态。人工智能数据中心建设景气度高,给光模块产业链带来广阔的空间,国内主要光模块公司的业绩持续增长。
展望明年,预计800G光模块需求仍然强劲,1.6T光模块有望快速放量。在AI数据中心中,越来越多的客户倾向于选择更大带宽的网络硬件。带宽越大,单位bit传输的成本更低、功耗更低及尺寸更小。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量,2023年和2024年的出货量都大幅增长。而AI对于带宽的需求是没有极限的,得益于网络较高的性价比,1.6T光模块有望加速应用。NVIDIA正在通过ConnectX-8 SuperNIC 升级网络平台架构,ConnectX-8是业内首款集成PCIe 6.0交换机和高速网络的网卡,专为现代 AI 基础架构设计,可提供更高的吞吐量,同时简化系统设计,并提高能效和成本效益。
CPO,Co-packaged Optics,即共封装光学技术,是将光芯片/器件与电芯片/器件合封在一起的封装技术。CPO的封装一般指两方面:一是光引擎(OE)中PIC和EIC的封装,二是光引擎和ASIC/XPU/GPU的系统级封装。共封装光学技术的优点包括降低功耗、降低成本和减小尺寸。降低功耗:信号传输的电路距离大大缩短,电信号损耗降低,简化后的SerDes去掉CDR、DFE、FFE和CTLE之后功耗降低,可节省30%+的功耗;降低成本:封装工艺成本更低,高集成度的光引擎成本更低,同时省去部分电学芯片成本,可降低25%+的成本;减小尺寸:借助硅光技术和CMOS工艺,共封装显著减小光电引擎各自独立封装方式的尺寸,同时实现更高密度的I/O集成。
Scale-up是指通过增加单个节点的资源来提升整个集群的算力。常见的单个节点是八卡服务器,随着大模型参数量大幅提升,英伟达先后推出了GH200 NVL32和GB200 NVL72等机架类产品,得益于高速的NVLink互连带宽,整个机架可类比为“One Giant GPU”,未来scale-up domain有望提升到千卡及万卡级别。2023年,英伟达宣布生成式AI引擎NVIDIA DGX GH200现已投入量产。GH200通过NVLink 4.0的900GB/s超大网络带宽能力来提升算力,服务器内部可能采用铜线方案,但服务器之间可能采用光纤连接。相比较传统的IB/Ethernet的网络,GH200采用的NVLink-Network网络部分的成本占比大幅增长,但是因为网络在数据中心中的成本占比较低,因此通过提升网络性能来提升算力性价比很高。
CPO技术是系统性工程,涉及到材料、器件、EDA、模块、设备等,对设计、封装和测试的要求非常高,因此目前产业中的现状主要是科技巨头在主导,产业链中的供应商配合。CPO/OIO中主要组成部分是CPO光引擎,采用的主要是硅光技术,因此两者的供应链也高度重合。参与到CPO/OIO研发的厂商主要是FAU、MPO、CW laser、光引擎、封装、流片厂、PCB厂商等,中信建投证券认为在各个细分领域具备较强优势的厂商,同样在CPO/OIO领域有望延续该领先优势。光引擎是核心产品,虽然目前主要是英伟达和博通等公司在主导,但是考虑到光引擎与光模块的设计、制造和测试环节高度相似,中信建投证券认为光模块公司仍然具备较大的优势。FAU、MPO和Fiber Shuffle等光纤连接器产品,在CPO/OIO产品上的价值量有望显著提升。CW DFB laser是重要的光源产品,在FR等波分复用的方案中,边缘波长的激光器难度较大,价值量也较高。
2025年4月,华为在云生态大会上推出CloudMatrix 384超节点,并宣布已在芜湖数据中心规模上线。据介绍,华为昇腾超节点凭借高速总线互联技术实现重大突破,把总线从服务器内部,扩展到整机柜、甚至跨机柜。在超节点范围内,用高速总线互联替代传统以太网。根据SemiAnalysis的对比分析,华为昇腾910C的单卡算力约为GB200的0.3X、HBM容量约为GB200的0.7X,但是在组成集群后,CloudMatrix 384算力约为NVL72的1.7X、HBM容量约为NVL72的3.6X。不足之处则是CloudMatrix 384能耗更高,系统总功耗是NVL72的3.9X,每FLOP功耗是NVL72的2.3X。正如任正非近期接受人民日报时所说,中国芯片产业可通过“叠加与集群”技术路径实现突围,在计算结果上与全球最先进水平相当。
英伟达NVLink与华为HCCS,两大厂商均希望打造自己的高速互联生态。自2014年开始,英伟达在其GPU中引入了NVLink互联技术。NVLink是由英伟达开发的一种高带宽、低延迟的点对点数据传输通道。它的主要用途是连接GPU,或者GPU与CPU之间的通信。经历了近十年的迭代,从NVLink1.0到5.0,GPU上的NVLink链路数从4条变为18条,随着serdes速率增长以及调制方式从NRZ升级为PAM4,单通道带宽从5GB/s升级至50GB/s,GPU之间通信的双向带宽达到了1800GB/s。华为HCCS对标英伟达的NVLink,能够给内核、设备、集群提供系统内存的一致访问,HCCS采用对等拓扑,单链路的最大带宽是56GB/s,昇腾910B中的HCCS采用点对点拓扑,单链路的最大带宽是56GB/s,聚合带宽392GB/S。高速的互联带宽对于模型的分布式训练至关重要,也成为英伟达与华为的核心竞争力之一。
UALink1.0规范发布:支持连接1024个加速器,每通道200GT/s带宽。UALink(UltraAcceleratorLink)由AMD、AWS、AsteraLabs、思科、谷歌、HPE、英特尔、Meta和微软9家企业发起成立,旨在为AIPod和集群中加速器与交换机之间的纵向扩展通信定义一种高速、低延迟的互联规范,挑战英伟达NVLink等互联在该场景的领导地位。2025年4月,UALink1.0发布,支持每通道200GT/s的最大双向数据速率,信号传输速率为212.5GT/s,以适应前向纠错和编码开销。UALink可配置为x1、x2或x4,四通道链路在发送和接收方向上均可实现高达800GT/s的速度。从标准发布到实际应用,还需要协调众多厂商配合,因此开放的互联协议能够真正在组网中应用预计还需要一至两年。中信建投证券认为,对于网络与交换环节建议重点关注交换芯片、网卡等公司。
GB200服务器进入规模化量产阶段,Blackwell将接替Hopper成为出货主力。在GTC 2024大会上,英伟达正式发布了新一代Blackwell架构AI芯片,并推出了基于该架构的新型机架式AI服务器参考设计GB200。由于散热挑战与液冷系统泄漏等问题,GB200系统在2024年量产推进并不顺利,整体进度滞后于预期。随着英伟达与供应链合作逐步优化设计,并解决关键技术难题,24年底Blackwell平台开始进入爬坡阶段,开启对Hopper平台的替代。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献。鸿海、广达等核心ODM供应商也普遍预计,GB200将在2025Q2加速放量,微软、Meta等多家云服务厂商也陆续部署新一代系统。
升级方案GB300有望于2025年下半年开启量产。英伟达在GTC 2025大会上披露,预计GB300将于2025年下半年量产上市。硬件方面,GB300采用12-Hi堆叠的HBM3e内存结构,每颗GPU配备288 GB显存,较GB200的192 GB提升50%。系统I/O也全面升级,整机网络带宽提升至1.6 Tbps,以满足更高并发推理的通信需求。在性能表现上,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍。为确保量产进度,英伟达此次在设计上回归稳定的Bianca板卡方案,并优化了液冷系统与供电模块。GB300将成为继GB200之后,又一轮AI服务器放量的关键驱动。
(1)TSV:不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块(Micro Bumping),然后连接这些凸块。由于TSV允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用TSV接合的堆栈有4层,后来增加到8层。最近,一项技术使得堆叠12层成为可能,SK海力士于2023年4月开发了其12层HBM3。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF),但SK海力士使用MR-MUF工艺,可以减少堆叠压力并实现自对准。这些特性使SK海力士能够开发出世界上第一个12层HBM3。
需求紧俏,HBM持续挤压DRAM产能。从需求端看,云计算厂商将更多资本开支投入AI基础设施,2024年北美CSP的资本开支增速在55%,主要来自AI推动,传统服务器需求基本持平,25Q1同比增长64%,预计2025年CSP资本开支维持大幅增长。算力需求的快速增长,算力卡的数量和配置快速升级,最终带来的是算力芯片和HBM需求的快速增长。结合海外存储厂商和咨询机构的预测, 2024年HBM市场规模达到160亿美金,同比增长300%,预计2025年达到320亿美金,同比增长100%。从供给端看,HBM供应仍然紧缺,在传统DRAM库存波动的情况下,HBM由于AI服务器的强劲需求,挤占DRAM产能的现象还在持续。
低成本是AI推理爆发的必要条件,北美CSP厂商均加速研发ASIC的步伐。大模型推理时代相较于移动互联网时代,底层逻辑发生了巨大变化。推理系统的成本几乎和客户使用量成线性关系,因此边际成本很高,且成本绝大部分是推理的算力消耗。因此,在大模型时代,能将推理成本降到极致的厂商有望获得最终的胜利。目前北美四大CSP厂商,除了继续采用英伟达GPU做模型训练之外,均在加速开发自家的ASIC产品,一方面因英伟达的GPU价格昂贵,硬件投入成本过高,另一方面,自研ASIC可针对特定需求进行优化,也能针对特定的应用进行设计,因此对于能耗或电力管理的控制将更加精准,此外,从供应链安全角度,也可以避免算力资源都来自英伟达、AMD等GPU厂商的风险。在同等预算下,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务,且性价比提高了30%~40%。2025年底计划推出的Trainium3,其计算性能更是提高了2倍,能效有望提高40%。谷歌的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低了70%。根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。
博通和Marvell均看好ASIC市场需求。博通和Marvell是ASIC定制领域的主要玩家,二者在AI定制芯片中占据了超70%的市场份额。博通定制的ASIC芯片广泛应用于数据中心、云计算、高性能计算(HPC)、5G无线基础设施等领域,根据博通最新财报,2025Q1公司AI芯片收入占比50%,同比增长77%,其中ASIC相关收入占比60%。博通认为XPU的需求会持续上涨,公司预计2025年下半年ASIC收入占比会持续上升,主要是因为推理模型需求增长使得AI芯片业务增速加快。Marvell的ASIC业务也成为公司强劲增长的核心动力之一。2024年12月初,Marvell与AWS达成了一项为期五年的战略合作协议,包括帮助亚马逊设计自有AI芯片。伴随AWS芯片的量产,Marvell在2025Q1实现营收18.95亿美元,同比增长63%,创历史新高。Marvell也预测,随着AI计算需求的增长,公司ASIC占比有望提升至25%,预计2028年数据中心ASIC市场规模将提升至429亿美元。
三大增量助力推理算力需求加速。AI算力消耗开始从训练走向推理,并且带来显著的算力增量,探究背后增量需求主要来自三方面:一是各家互联网大厂纷纷加速AI与原有业务结合,如谷歌搜索在今年5月21日正式迎来 AI 模式,并逐步在美国市场推出,考虑到谷歌搜索全球范围内年搜索量为5万亿次+,假设单次回答平均为2000 token,则该功能将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗),类似案例如抖音搜索、微博AI智搜,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验,类似的视频编辑、剪辑功能也被AI重塑;二是Agent和深度思考推理的结合,通过两者结合,Agent执行任务准确率大幅提高,Agent执行一次任务平均消耗token达到十万亿的量级,大幅超过AI搜索单次问答token消耗,并且能延伸到更多开放式场景,如智谱发布会演示的“用你最擅长的方式去赚100块钱”,同时多Agent协作的群体智能也已开始逐步商用化,过去复杂、多步骤的任务可通过Agent实现,Agent的普及将带来推理算力需求的大幅增长;三是多模态,随着多模态生成的图片及视频质量今年均显著提升,今年AI营销内容占比提升十分明显,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主,已经在生成创意内容时使用AIGC,并且AI营销内容占比超过10%”,而一分钟视频的生成token消耗基本在10万亿token量级,目前多模态模型开始步入快速商业化阶段,如快手可灵4、5月连续两月付费金额超过1亿,多模态的加速渗透带来明显的算力需求提升。
海外景气度投资:1)重视推理占比的提升:参照台积电Cowos扩产节奏,ASIC芯片在26年的边际变化最为明显,同时英伟达依然有较高增速;2)围绕机柜增量变化及新技术投资,25年下半年核心是英伟达NVL72机柜上量,其中液冷散热、铜连接、电源变化最大,散热方面将是AI算力领域未来几年核心技术升级方向之一,目前供应商以台系厂为主,考虑到中国大陆的公司扩产能力更具优势,中信建投证券认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系。铜链接方面,铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长。电源领域重视氮化镓等机会;3)围绕预期差及景气度投资,重视PCB,英伟达、亚马逊、META、谷歌等相关需求景气度高,并重视上游国产化比例提升,并且部分领域库存开始下降、价格具备一定弹性。
自从23年ChatGPT出现以来,基于AI业务token消耗的快速提升,海外大厂开启CAPEX高额投入周期,持续在模型训练和推理端加大算力投入,模型性能得到快速迭代。与此同时,伴随24年12月以来DeepSeek V3和R1的逐渐发布,其首次实现了国产模型在推理任务上与 OpenAI-o1的基本相当,并引发了访问流量的快速扩大(DeepSeek 应用(APP)于 2025年1月11日发布,1月31日DAU达 2215 万,达 ChatGPT 日活用户的 41.6%,超过豆包的日活用户 1695 万),伴随Deepseek带来的降本范式(FP8 混合精度训练框架)持续演化,模型输入/输出成本得到快速下降,AI应用大范围推广成为可能。云计算产业作为模型训练/推理需求快速扩大下的直接受益方,进入了持续高景气周期。
站在当前时点,云厂云业务营收增速与营业利润率(或EBITA利润率)是CAPEX投入的前瞻指引。2023年以来,伴随着Transform架构下Scaling law的持续生效,各家大厂均对模型训练做出大量投入。考虑到此时海外厂商并不以投入产出比来做出CAPEX投入的衡量,且模型能力边界本身尚不清晰,因此25年以前,更多以CAPEX本身作为实际算力需求的前瞻指引。但25年以来伴随LLM模型能力边界逐步逼近上限,模型训练需求相对有所下滑,推理开始成为核心需求来源,CAPEX投入产出比逐步进入可测算阶段。在此基础上,云业务增速与营业利润率趋势成为算力需求的直观体现,也是后续CAPEX投入力度的核心决定因素。
相比传统CPU实例,中期看GPU实例将具备更高投入产出效率。一方面,传统公有云商业模式下,云厂主要提供计算、网络、存储等同质化服务,难以在客户体验上产生本质性不同,更多是依托规模效应。而GPU租赁时代,客户需求主要聚焦于模型训练与推理,智算平台的运维能力和自动化、容错率是竞争优势的核心区分,“有效训练时长”是各家智算业务中的一项关键性能指标,如阿里云今年四月就强调,其“万卡级超大规模训练中,一个月内灵骏GPU集群有效训练时长占比能超过93%”,相对而言,大厂云平台具有更强稳定性;另一方面,在提供GPU实例租赁的服务同时,大厂同时也会提供模型训练/推理加速服务,通过算力与通信的调度实现训练效率数倍式提升。双重优势下,大厂GPU实例租赁具备一定溢价能力,相对传统CPU实例更具备投入产出比。
高算力需求推动算力中心单机功率密度提升,液冷散热走向必选。传统风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。此外,液冷散热相较于风冷更加绿色低碳,PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高,液冷散热往往更接近于1。从分类来看,液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
风冷散热主要元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。风冷散热原理方面,芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
液冷散热在散热能力及空间利用率方面优势显著。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。空间利用率方面。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
冷板式液冷可带走70%-75%的热量。冷板式液冷通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。从冷却效果来看,冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其它组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
冷板是服务器液冷核心部件。冷板的材质可以选用铜、铝、不锈钢和钛合金等不同材质。铜导热系数高,工艺性好,对于普通大气环境、海洋性气候条件及水等液体介质是适用的。铝冷板目前在数据中心行业的使用还比较少,核心原因系铝材质的换热能力低于铜材质,铝的导热率是铜的60%左右,相同换热设计下,铝冷板的热阻更高;此外,铝材质活性更高,更容易与冷却工质发生反应,严重的可能造成冷却工质杂质增加,冷板腐蚀、泄露,甚至最终影响系统使用。优点方面,冷板材质从铜到铝能帮助整个全液冷系统冷板重量节省约44%,而且铝冷板加工工艺灵活,大规模量产后一定程度上能比铜冷板成本节省20%以上。其他材质:石墨烯涂层冷板,即在铝板表面喷涂石墨烯(成本增加20%),但可减少冷板厚度30%,整体系统体积缩小。
浸没式液冷:通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
英伟达从Hopper到Blackwell硬件的第二大转变是采用了直接到芯片的液冷技术(DLC),以提高机架级别的计算密度。据估算,GB200 NVL36 L2A机柜热管理价值量中,服务器层面(冷板、风扇)价值量占比约26%,机架层面(Compute Tray、NV Switch、CDU、Mainfold)价值量占比约65%。GB200 NVL72 L2L服务器热管理价值中,服务器层面价值量占比约38%,机架层面价值量占比约47%。关注GB300服务器新变化:GB200服务器设计中,冷板采用“一进一出”配置,每个Compute Tray配备6对快接头,NVL72系统整体快接头数达126对(Switch Tray 2对),总价值量约10080美元;而GB300可能摒弃“大冷板”,为每个GPU配备单独的冷板,单个Compute Tray数量从6对增至14对,但新型快接头价值量有所下降,经测算,NVL72系统中快接头总价值量约14040美元。
服务器平台持续升级带来CCL材料等级提升及PCB层数增加。根据Prismark数据,PCIe3.0总线标准下,信号传输速率为8Gbps,服务器主板PCB为8-12层,相对应的CCL材料Df值在0.014-0.02之间,属于中损耗等级;PCIe4.0总线Gbps的传输速率,PCB层数需要提高到12-16层,CCL材料Df值在0.008-0.014之间,属于低损耗等级;当总线Gbps,PCB层数需要达到16层以上,CCL材料Df值降至0.004-0.008区间,属于超低损耗材等级。2024年BrichStream平台开始逐渐渗透,尽管PCIe标准认为5.0(AMD平台对应Zen5),但CCL材料等级已经逐渐向UltraLowLoss升级,PCB板层数提升至18-22层。
涂层技术能提升PCB刀具性能与寿命。涂层是刀具非常常见的一项工艺,在刀具形成后,外发涂层会让刀具的整体质量更加优秀,在润滑、抗耐磨、排屑等方面实现较大提升,涂层其实也分为很多不同的样式,常见的钻头涂层有黄钛TIN,紫钛高铝钛等。一般涂层刀具的切削力比未涂层刀具平均降低15%-20%左右,与之对应的则是涂层刀具寿命的提升。ta-C是一种无氢DLC涂层,其sp³与sp²键比值高,具有极高硬度和强润滑性,ta-C图层显著提升了孔位精度和加工品质,在有效降低断针发生几率、防止涂层钻针粘着,改善排尘等方面发挥重要作用。薄而光滑和高硬度等特点充分保证了刃口锋利,可应用于加工有色金属复合材料、中高TG、无卤素高速板、软板、铝基板、封装板等。
在大模型训练过程中,包括多种并行计算方式,例如TP(张量并行)、 EP(专家并行)、PP(流水线并行)和DP(数据并行)。通常来说张量并行和专家并行需要较大的通信量,对大规模GPU集群的通信能力提出较高要求。GPU集群的组网通常分为Scale Up和Scale Out 两种拓展方式,Scale Up向上扩展,也叫纵向扩展,增加单节点的资源数量。Scale Out向外扩展,也叫横向扩展,增加节点的数量。Scale Out网络提供Tbps级别的带宽,Scale Up网络提供10Tbps带宽级别的互联,Scale Up凭借通信速度更快、成本更低、方便运维成为发展重点,搭建超大带宽互联16卡以上GPU-GPU的Scale Up系统成为一个重要趋势,这样的Scale Up系统通常被称为超节点。
在开放协议中,目前的开放标准不止一个,基本上都是以以太网技术(ETH)为基础,以太网技术最成熟、最开放,也拥有最多的参与企业。在超节点开放标准中,其中比较有代表性的,是由开放数据中心委员会(ODCC)主导、中国信通院与腾讯牵头设计的ETH-X开放超节点项目。在 ETH-X 的架构中, 分为 Scale-up 和 Scale-out 两个主要组网部分, 其中 Scale-up 网络负责 HBD 内部 GPU 与 GPU 之间的互联, HBD可以由一个或者多个高功率 Rack 组成,通过 Scale-up 进行扩展;多个 HBD 通过 Scale-out 的扩展方式组成更大的 GPU 集群。国内字节、阿里、腾讯新一代服务器分别采用超节点设计,预期将进一步带动铜连接整体市场空间。
整体来看,AI电源的架构从供电次序的角度来看主要分为三级:UPS—AC/DC—DC/DC。在数据中心的电力从电网传输到加速器芯片的过程中,电压要从1-3万伏特降低至0.5~1伏特以供芯片使用,其中电源主要指AC/DC与DC/DC部分。AC/DC环节的输入是PDU输入的交流电,经过降压、整流两个过程最终输出12V直流电,此后再经过层层降压以达到芯片的工作电压(AI服务器因为耗电大,为减少损耗所以可能选择先输出较高的50V/48V电压)。DC/DC环节则进一步将电压调降至芯片可用电压,一般而言是将12V降至1V或0.8V,若整体服务器功耗较大,也可能是先从50V/48V降至12V,再从12V降低至1V或0.8V。