中信建投:网络升级可提升算力效率 1.6T光模块有望加速产业化

2023-08-09 08:00:07 40

中信建投发布研报表示,在AI数据中心中,越来越多的客户倾向于选择更大带宽的网络硬件。带宽越高,单位bit传输的成本、功耗以及尺寸更有优势。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求,其在2022年底开始小批量出货,2023年和2024年的出货量都将有望呈现高速增长的态势。该行认为,1.6T光模块升级周期有望缩短。

该行从上游光电芯片、连接器,中游光模块公司以及下游云厂商客户等维度,分析了目前1.6T光模块相关的进展。1.6T时代,相比较铜缆,光模块是主要方案,光模块中单模是主要方案,单模光模块中硅光和薄膜铌酸锂均有机会取得突破。虽然2023Q2海外云厂商的Capex下降,但各家云厂商对未来资本开支维持较乐观的指引口径,对AI业务发展均给予较高期待。该行认为高速光模块的行业景气度仍在提升。

中信建投的主要观点如下:

1.6T光模块加速发展,网络对算力系统的重要性持续提升。2022年,传统云计算市场光模块已经升级至800G速率,在AI领域,我们认为无论是训练还是推理,2023年-2024年期间800G都将是AI数据中心的首选。相较传统的IB/Ethernet的网络,GH200采用的NVLink网络部分的成本占比虽然大幅增长,但网络在数据中心中成本占比仍较低,通过提升网络性能来提升算力效率,性价比很高。带宽越高,单位bit传输的成本更低、功耗更低以及尺寸更小。1.6T光模块有望在2024年下半年小批量出货,升级周期缩短,预计提早一年左右。

OSFP-XD可能为1.6T光模块主流的封装方案,光口单通道200G,电口单通道100G。从上游芯片来看,200G PAM4 EML光芯片目前进展相对比较快,1.6T DSP电芯片有望取得突破;从上游的光连接器来看,多款不同产品将采用不同的连接器;从下游的客户来看,英伟达、谷歌和亚马逊可能会是1.6T光模块的主要需求客户。以英伟达的GH200架构为例,假设PCIe和NVLink的下一代带宽增加一倍,那么在训练场景下,非常乐观的情况下H100与1.6T光模块对应比例有望达到1:12。

北美云厂商收入增速有所回暖,各家云厂商对未来AI的投资指引乐观。AWS用于AI的超算集群,采用无阻塞网络,AI芯片包括英伟达GPU和自研的芯片,AWS的网络采用EFA配合SRD协议,因此光模块及交换机预计也采用定制化方案。Meta的用于训练的超级集群的网络与英伟达的 DGX A100 SuperPOD胖树三层网络架构非常相似,GPU与光模块的比例也基本一致。谷歌数据中心探索OCS(optical circuit switch)光交换机新方向,可取代Spine层交换机。基于OCS的网络架构中,对光模块用量影响较小,但对光模块ASP提升较大。

风险提示

AI需求不及预期;竞争加剧;国际环境变化影响供应链安全;行业前沿技术研发进展不及预期等。

追加内容

本文作者可以追加内容哦 !