为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

(一)广域网,横跨海陆

为了AI还真是,

搞网络的钱不少花,

大动作,大投入,

数据中心内部网络,重做;

数据中心外部网络,也重做;

确切表达,不是完全推翻,但也是大变革。

数据中心里的网络,

谭老师我写了好几篇了,

高低得看看,跨数据中心的网络,也就是广域网,

这网规模大,非常大,巨大,

这么大,还想做好,岂不很难?

重做,要有很大决心,挑战一堆。

但有AI在,谁也阻挡不了头部大厂的决心。

有网络技术大佬曾和我说,

大网的难度比起小网,至少高两个数量级。

这种大网,动不动就跨海;

Meta的广域网海底电缆怎么搞的呢?

2025年11月,

《解锁AI潜力,跨越5万公里全球》;

5万公里,比地球周长还长。

每根光缆里塞16对光纤;

这是老系统的两倍容量;

还要“疏通高层关系”,

跨越50个司法管辖区,

花近6年时间,动用35艘海上船只,

累计运营时长相当于32年。

为了AI,把底层的广域网重做一遍吗?

以前的海底光缆,大多是运营商专属,

要么一家独揽,要么几家瓜分,

小服务商想拿到带宽,不仅贵,还得看人脸色。

这么大的工程,为啥是美国Meta公司出头?

这背后,是科技巨头对全球广域网话语权的争夺;

就不展开了,C位是广域网,

科技巨头的投入和野心,都浓缩在漫画里了。

跨海之后就上岸,城市之间建广域网,

那该怎么干呢?

为了AI,把底层的广域网重做一遍吗?

(二)先问客户,需要一张什么样的广域网?

面对尊敬的金主(网络用户),

稳定性要高、性能要好、成本要低,

请努力保持微笑。

(此处有3000字的怨气没发出来)

稳定性,

首屈一指重要,

或者说,稳定性是n个零前面的一,

历史中绝不缺少稳定性的教训,

不过,人类从历史中学到的唯一的教训,

就是没有从历史中吸取任何教训;

而且,广域网的故障,

从来没有“小教训”;

为了AI,把底层的广域网重做一遍吗?

风波历尽,在保障稳定的前提下,

就要比拼性能了。

性能有几个最重要的核心指标:

带宽、网络延时、丢包率;

而今,需求五花八门,

“高性能”早已不再是单一维度的指标。

有些要低延迟,像视频会议;

有些追求极致低延迟,

如,股票高频交易;

有些更看重带宽稳定与零丢包,

如,AI训练的数据同步;

正因如此,好网络不在于一味给带宽给资源,

而在于“对症下药”,

根据每类(应用)需求,

恰如其分地提供服务质量,精细控制。

这种理念背后还有一个现实考量:

高性能,有成本,

如果为所有流量都配超低延迟,

零丢包和超高带宽,

不仅资源浪费严重,

整体系统成本也将难以承受。

事实上,许多应用对网络瑕疵很有容忍度。

例如,普通网页浏览,

过程中偶尔丢失几个数据包,

浏览器会自动重传,用户几乎毫无感知;

而同样的丢包,

若发生在AI模型训练的数据同步阶段,

则可能导致训练速度骤降,甚至任务失败。

于是,“差异化服务”这一能力走上舞台中央,

因此,理想的网络架构应当——

能识别不同业务类型,

并为其分配匹配的服务等级(SLA)。

啥业务配啥待遇,

不搞一刀切;

这种“因地制宜”的策略,

既保障了核心业务的性能需求,

又避免了不必要的开销。

归根结底,最好的性能并非“绝对最强”,

而是“刚刚好”。

这正是,网络的核心价值所在。

成本是商业逻辑的基础,无须多言;

为了AI,把底层的广域网重做一遍吗?

再加一点,

离开规模谈稳定,性能和成本,

是耍流氓。

什么意思呢?一个AI实验室里,

5台服务器40张GPU卡,

稳定和性能都可以十分卓越,

但,这种卓越无法复制于,

4000张GPU卡的大规模集群。

站在头部大云厂商角度,

要以低成本提供高稳定,

高性价比的网络服务,

成本包括Capx(资本性支出),

和Opex(运营性支出),

其中Opex是大头,

也就是说,大规模网络的运维效率是重中之重,

怎么样提升?又做到何种程度?

我只能说,这种“理想”,

AWS做到了,谷歌,Meta也做到了,

阿里云做到了,

这类代表性网络架构,也已成熟,

比如,阿里云HPN。

这些是数据中心网络的情况,

而对于广域网而言,

则是另一番天地。

广域网历史包袱很重,

以前的广域网(技术架构),

过于复杂,已然事实,

想翻转此局面,

中小厂商肯定没有实力,

大厂商谁会出手?

在何时出手,而又如何出手?

复杂加复杂,直接遭遇不可能三角,走不通了。

为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

(三)聊下广域网设计原则

如何达成“梦中情网”?

简化的确是一条思路,

关键在于,怎么简化?

得找个真正的专家聊聊;

好在,有机会和,

阿里云广域网架构与研发总监苏远超聊了,

他是这么说的:

“多年以前,当我还在思科做架构的时候,

我们就开始思考,

传统网络架构需要增加新功能,

恐怕勉为其难,力不从心;

比如,控制面特别繁重、扩展困难、

运维繁琐、容易出错……

但是重构这事,在思科公司落不了地,

它不只是网络本身的变革。

有很多依赖项,

需要网络和运营支撑系统一体化才能做成。”

这可能是阿里广域网(eCore)曾经的“野望”,

而今,eCore正在运行,用“现实”代替“想法”。

几个小时,我们讨论得很充分,

还是那句老话,技术的突破,常在工程前沿阵地。

我顺手总结了超哥的核心观点:

为了AI,把底层的广域网重做一遍吗?

一举解决从前传统广域网三十年的难题,

第一,最根本的一点就是“简化”。

过去,网络协议繁杂,功能堆叠,

导致路由器设备十分庞大,

从上到下简化,将原有的N个协议,

精简至两个(ISIS和BGP),

大大缩小了难题的空间,

难度指数级地下降。

第二是高可靠架构设计

架构高冗余,故障域减少;

AI对网络稳定性的要求苛刻,

“故障爆炸半径最小化”。

第三是运维卓越,

第四是面向服务,此篇按下不表。

这些原则需要在具体设计中平衡。

不难观察:顶级厂商创新方向,

他们力图简化,

且追求获得更好的服务。

我总结一下:简化的工作很多,

不仅简化控制平面,

还重构网络分层、协议运行域划分等,

把全网的大域分解成,

小的平面和更紧凑的运行区域;

这样一来,协议状态无需全域同步,

从根本上缩小故障域,

从而提升稳定性。

“稳定性”一词,总是频繁提到,

甚至有时候把一些表面上的改进,

也归为“为了稳定性”。对稳定性的考验,

一天24小时,要真实数据加以说明。

苏远超告诉我:

“今年城域网故障就减少了80%以上。”

为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

(四)“为何你们能做单栈单片”?

单栈的“栈”是协议栈,

单片的“片”是芯片;

很明晰哪,单栈是软件,单片是硬件,

挑战性问题抛给阿里:

为何你们能做,而不是别人?

这就得从历史的相似性中找一些启发:

以前思科公司,

为了让一个路由器达到很大的带宽,

把一个路由器拓展到,

多框连在一起(Multi-Chassis Router),

可惜,这个做法很有局限性,

虽然解决了一个问题,

但是引入了更棘手的问题。

也就是:解决了规模和性能,

但是引入了,

高运维成本和难运维的问题;

这熟悉的配方,熟悉的套路,

这套“枷锁”和当下热门的AI超节点,

是不是十分类似?

我不下结论,交给读者自己判断。

打开这个“枷锁”的钥匙,

我认为是“单栈单片”,

这是一种设计理念。

先把协议简化,简化软件,

再简化硬件,双管齐下。

为什么以前不这么干?

因为以前软件和硬件,都没准备好。

比如,路由器承载很多功能,

且要求大带宽。

芯片很难同时做到,

因为功能丰富和带宽是相互妥协的关系。

要么放弃丰富功能,要么放弃大带宽,

纠结很多年,总需要一个新出路。

这时候就不得不提,

源于思科公司的Segment Routing技术。

或者说,思科团队也追求简化思想,

需要和一个持有相同技术理念的软件团队,

双向奔赴。

于是,思科和阿里的合作,水到渠成。

协议简化之后,

路由器设备也可以采用大带宽芯片来实现功能。

然而,对于路由器设备来说,

仅仅依靠大带宽是不够的,

它还需要大缓存来支持长距离传输。

针对这一需求,

思科的Silicon One 

P200 芯片应运而生。

单栈单片架构,

既具备大带宽,又具备大缓存,

是经过特定优化的芯片。

于是,一通操作猛如虎,

带宽直达51.2T。

为了AI,把底层的广域网重做一遍吗?

架构和协议简化了,

高效且专门优化的,

大带宽芯片(51.2T)也有了,

此时,控制面和数据面的条件都已具备,

单芯片的路由器已然成为可能。

设备简化到什么程度呢?

披萨盒式(Pizza-box)白盒路由器,

最终,做到了:

原本,

需要多个芯片拼接在一起;

现在每台设备只配备一个芯片,

避免了多芯片协作的复杂性。

结果,虽然设备数量增多,

但每台设备变得简单,

整体架构高效和灵活。

简单来说,

这是协议栈的简化和大带宽芯片,

相辅相成的结果,

也就是“单栈单片”

为了AI,把底层的广域网重做一遍吗?

(五)架构设计图长啥样?

简化,听上去真不错,

但要落地,并非易事,

如何简化呢?最好先来看全局图;

苏远超给我看了一张《高层次设计图》,

为了AI,把底层的广域网重做一遍吗?

将广域网分解成多个层次,

每个层次负责处理特定的功能或问题,

从而简化了整个网络的管理和操作,

层次化设计确实可以看作,

是一种“分而治之”的策略。

图上阿里云广域网络(名叫eCore),

分为边缘(Edge)和核心(Core)两部分。

核心层里有EC(核心路由器),

就像城市间的飞机,

数据经过EC,好比坐上了飞机;

有飞机自动导航系统,

路由器之间使用ISIS协议,

在不同的城市之间,

比如,京沪牛马专线,传输数据;

而在边缘层是(也就是EAR和ESR),

分别好比汽车和电瓶车,

负责处理从overlay网络(虚拟网络),

到underlay网络(底层网络)的转发。核心层里,

核心路由器主要任务是路由计算,

比如,最短路径选择,

让流量按最优路径传输。

为了AI,把底层的广域网重做一遍吗?

我们按照进出的顺序撸一遍,

当要传输内容从数据中心出去时,

怎么走呢?

首先,会经过边缘路由器,

这些路由器擅长处理数据的封装,解封装。

接着,数据流会进入核心层路由器,

在这些核心路由器上,计算最优路径,

简而言之,核心层和边缘层的划分,

体现在路由器负责工作的不同。

为了AI,把底层的广域网重做一遍吗?

怎么进出数据中心?

得好好理解核心层和边缘层,

再捋一下《数据中心一日游》攻略:

1.PKT(原始发送的内容)先到ESR:

数据包从源头出发后,

首先到达ESR(Edge Service Router)层。

在此阶段,原始数据包(PKT),

会被封装(overlay网络),

形成一个新的封装层,

使得数据包可以通过虚拟网络进行传输。

2.ESR封装后,进入EAR:

给数据包封装(underlay网络),

通过EAR(Edge Access Router),

进入underlay网络。

尽管数据包仍然带有overlay封装,

EAR会给数据包加上封装(underlay网络),

使其能够在物理网络中转发。

EAR负责将带有封装的数据包

(overlay和underlay),

传输到下游网络。

3.数据包走出EC设备,

会在EAR剥掉封装(underlay网络),

再在ESR阶段把封装剥掉(overlay网络),

走出EAR和ESR之后,

进入数据中心前,会恢复为原始数据包(PKT)。

为了AI,把底层的广域网重做一遍吗?

(六)为何服务得更细腻

理解这点,需要理解源路由技术,

英文名,Segment Routing,SR;

有了SR,用上SRV6协议,

才能有提供精细服务的可能。

当然落地还需要芯片,

思科公司Silicon One芯片。

不过,得单拎出来讲;

这篇到此,下篇见。

为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

为了AI,把底层的广域网重做一遍吗?

文章来自于微信公众号 “亲爱的数据”,作者 “亲爱的数据”

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索