新瓶旧酒or涅槃重生?操作系统的 AI 进化终将走向何方?

过去一年,AI 技术已从概念热潮深度渗透至产业肌理,成为驱动 IT 基础设施重构的核心引擎。当大模型、异构算力、智能体(Agent)等技术要素持续冲击传统技术体系,操作系统作为软硬件协同的核心枢纽,其 AI 进化的本质也引发了行业的深刻思考:OS 的 AI 进化,究竟是换汤不换药的 “新瓶旧酒”,还是颠覆底层逻辑的 “涅槃重生”?

带着这一核心命题,「AI 进化论:智算时代 OS 的破局之路」收官直播,特别邀请到两位横跨学术前沿与产业实践的顶尖专家——阿里云操作系统团队资深总监、龙蜥社区技术委员会主席杨勇,以及中国科学院软件研究所高级工程师、RISC-V 行业生态负责人郭松柳,从全球技术差异、内核价值重构、异构算力适配、生态建设路径等维度,展开了一场深度对话。本文将基于直播实录,以媒体视角整合核心观点,解码 AI 时代 OS 的破局之道。

新瓶旧酒or涅槃重生?操作系统的 AI 进化终将走向何方?

行业争议与全球分野

国内外 OS 的 AI 进化核心差异

当前,AI 与操作系统的融合已成为行业共识,但国内外主流厂商的技术路线却呈现出显著分野,这种差异背后隐藏着硬件基础、生态模式与场景需求的多重博弈。

从产业实践来看,OS 与 AI 的融合核心围绕两大方向:一是 OS 为 AI 基础设施服务(OS for AI),二是将 AI 技术融入 OS(AI for OS)。国外以英伟达为代表,已跳出传统 “以芯片为中心” 的思维,转向系统级重构。“国外和国内厂商的差异,本质是是否从‘以芯片为中心’转向重新设计系统”,杨勇直言,英伟达的超节点操作系统 DGX OS 通过将 Ubuntu 与自身并行栈深度融合,重新定义了操作系统的边界。这种领先性源于英伟达在硬件算力与软件栈积累的双重优势,“其核心价值不仅是高性能芯片,更是长期构建的完整软件生态”。

国内厂商的突围路径则呈现出鲜明的本土化特征。郭松柳观察到,国内在硬件绝对性能存在限制的背景下,走出了两条有效路径:一是开源社区的深度协同,“去年以龙蜥社区为代表的几大操作系统社区联合统一了内核版本,数百个基础组件也实现了版本统一”,这种协同大幅降低了硬件适配成本与软件重复开发工作量,而阿里云正是这一协同机制的核心推动者;二是 “以软补硬” 的创新思路,“当硬件性能有差距时,我们可以从软件或系统设计上做优化,挖掘算力潜力”。阿里云在龙蜥社区中主导的多项软硬协同优化方案便是非常好的实践。

“我们很难说今天一切就仅仅是以 AI 芯片为中心,GPU 确实重要,但是大模型的算法同样重要。所以在这个过程中我们做一个支持异构的 AI 基础设施就需要结合软件、硬件去综合考虑。”杨勇表示,阿里云联合龙蜥社区做了 Attention Forward Disaggregation 优化,将 MoE 模型中运算特征不同的 Attention 网络和 Forward 网络拆开,然后部署在不同芯片上,最终获得了明显的性能提升。“目前我们向 SGLang 社区贡献了相关代码。这背后就是我们从模型角度切入的思路——神经网络越做越大,很多问题本质是系统问题,而阿里云正好擅长计算网络通讯量、研究高效网络设计,这些能力和神经网络的设计思路有大量相通之处,所以才能快速切入这个方向。这也印证了系统创新还有大量机会。”

目前,在 AI for OS 方向,国内外基本处于同一起跑线。“国内有独特的场景优势”,杨勇以豆包手机的 AI 融合尝试为例,强调服务器侧也正涌现出更多接地气的产品。这种差异的核心驱动因素清晰可见:国外依托硬件与软件栈的长期积累,偏向自上而下的系统级重构;国内则凭借开源协同的生态优势与丰富的场景资源,走出自下而上的突围路径,两者共同构成了全球 OS AI 进化的多元格局。

内核之辩:边界入侵还是价值重构

国内外技术路线的分野,最终都指向一个核心争议 —— 当用户态技术能实现越来越多的资源管理功能,传统内核的价值是否被削弱?GPU 时代,模型框架与 CUDA 生态在用户态 / 应用层即可实现调度优化、显存池管理等能力,恰好让 “内核能力边界被入侵” 的疑问成为行业焦点。但从两位专家的视角来看,这一现象并非 “入侵”,而是技术演进下的边界扩容与价值重构。

“与其说被入侵,不如说是另辟蹊径”,杨勇给出了辩证的答案。他指出,Linux 内核诞生于 “CPU 为中心” 的体系结构,设计逻辑基于传统计算场景,而 AI 时代的大模型与 AI 芯片是从边缘走向中心的全新场景,传统内核的演进路径难以适配这种变革。英伟达的实践恰恰说明,新的技术需求正在推动操作系统边界的重构 ——“CUDA 等并行软件栈并非独立于 OS 之外,而是被重新定义为 OS 的一部分”。

据介绍,阿里云于 2025 年发布的 Alibaba Cloud Linux 4(简称:Alinux 4)正是以“智算底座重构者”的身份,推动操作系统从传统通用计算架构向“AI 原生操作系统 + 通用计算融合体”的范式跃迁,打造面向未来的智算时代操作系统底座。

如何真正重构智算底座?Alinux 4 从三个维度给出了它的答案:

  • 技术方案上,在 AI 领域,超大规模分布式训练、训推一体混合部署、异构计算资源调度等需求持续倒逼操作系统从底层架构到上层生态进行深度重构,确保智算模块必须紧跟业界发展趋势。

  • 演进节奏上,智算时代,企业往往处于从“通用计算”向“通用和智能计算并重”演进的阶段。因此,智能计算的架构选型要满足当前 AI 训练和推理的需求,还需要兼顾客户的业务可持续发展。

  • 生态支持上,AI 芯片市场呈现出高度碎片化的趋势,如:NVIDIA、AMD、华为昇腾、寒武纪等厂商各自拥有不同的硬件架构和软件生态,阿里云服务器操作系统 V4 在设计之初就综合考虑了以上因素,并在系统和内核层屏蔽了相关差异。

郭松柳则从内核演进历史进一步佐证:“Linux 内核的功能边界始终在动态扩展,从最初的基础资源管理,到后来纳入文件系统、外设驱动,本身就是不断吸纳新需求的过程”。AI 计算的特性与传统计算截然不同,“数据量巨大且呈流式传输,对 Cache 安排、数据存储顺序的要求都不一样”,这意味着内核需要针对性优化,而非被用户态技术替代。他分享了一项学术研究成果:“通过 eBPF 调控 Cache,能让 AI 计算性能提升 2-3 倍,这正是内核适配 AI 场景的创新尝试”。

这场辩论的核心结论已然明确:AI 时代的内核并非被入侵或替代,而是在适应新场景的过程中实现了功能边界的扩容与能力进化。“今天只是起点,我们需要重新思考基础设施与 AI 应用的研发逻辑,内核也会在这个过程中进化出全新能力”,杨勇强调,作为软硬件协同的核心枢纽,内核的价值只会随着 AI 技术的深入而更加重要。

核心技术重构与实践落地

从云原生到 AI 原生的技术跃迁

内核价值的重构,本质是 OS 底层技术逻辑适配 AI 场景的必然结果。其中,阿里云 OS 从 “应云而生” 到 “因 AI 而进化” 的跃迁,正是产业界 OS AI 进化的典型样本,从技术演进的视角来看,这场进化并非 “新瓶装旧酒”,而是底层优化逻辑的彻底重构。

杨勇以亲身经历复盘了这场跃迁的核心差异。“我刚加入阿里云的时候,正是云计算正快速发展的时候,云原生被视为产业目标”,杨勇表示:“云原生时代,OS 的核心命题是支持应用的云原生化,当时操作系统的压力来自于资源切分、隔离与稳定性”。他回忆道,当时的服务器以 256GB 内存为主,512GB 已属高端,阿里云服务器操作系统的核心破局点是容器技术,比如通过安全沙箱实现隔离,通过 cgroup 技术优化资源 QoS,目标是 “更小的资源切分、更低的成本、更强的运维稳定性”。

进入 AI 原生时代,大模型参数量的指数级增长带来了全新的命题。“AI 时代的模型太大了,对显存、显卡、主存的需求激增,现在 TB 级内存的服务器已成常态”,杨勇表示,AI 芯片在服务器成本中占比极高,这带来了两个核心变化:一是资源难以切分,二是大量资源由并行软件栈和 AI 芯片驱动管理,OS 的角色从 “主导者” 转变为 “协同者”。

核心目标的转变更为关键。“AI 时代的核心是优化算力效率,哪怕提升 5%、10%,带来的收益都非常显著”,杨勇强调。但这种进化并非割裂,“云原生时代积累的容器技术、分布式架构,为 AI 算力部署提供了基础,现在所有 AI 业务系统都运行在云原生底座上”。两者既有延续性,核心命题却完全不同,AI 不仅是对 OS 的功能补充,更在推动 OS 进行底层逻辑的重构。

以 Alinux 4 为例,作为阿里云面向下一代基础设施推出的操作系统,Alinux 4 通过加强 GPU、CPU 及 CIPU 之间的协同设计,来提升 I/O 性能与资源利用率。这样,在 AI 原生化趋势的演进过程中,操作系统能够更全面地实现了对智算服务器及各类 AI 新硬件平台的兼容性与使能支持,进而助力创新应用的高效运行。

从学术视角看,郭松柳认为这种进化体现了明确的技术范式迭代。“操作系统的核心角色是‘管理硬件、提供统一接口’,但 AI 时代的硬件形态与负载特性都发生了本质变化”,他用一个生动的比喻解释:“就像交通管理,从只有轿车到有了高铁,管理逻辑必须完全重构”,GPU 的并行计算能力与 CPU 的串行计算差异,正是这种范式转变的核心体现。

异构算力适配与实践价值验证

技术范式的转变,最终要落地到算力适配与场景价值上。GPU 、RISC-V 等带来的异构算力的普及,是 AI 时代的显著特征,也推动 OS 在技术适配与实践落地中不断突破。

实际上,AI Infra 驱动下的 OS 全栈优化,核心围绕 “降低 Token 成本” 展开,具体体现在性能、稳定性、部署效率三个维度。

其中,性能优化的核心是释放 AI 芯片算力。阿里云推出的操作系统 AI 增强套件,正是针对这一目标的实践成果。“AI 场景的性能提升主要在数据面,核心是让 GPU 充分发挥算力”,杨勇以智驾场景为例,车厂将模型训练放在云端,海量数据从存储到内存再到 AI 芯片的传输路径上,常出现 “CPU 机头拖累 AI 芯片” 的瓶颈,“我们的优化就是聚焦这条链路,提升 CPU 与 GPU 的数据交换效率”。

实践落地的价值已得到充分验证。阿里云服务器操作系统 V4 通过 “云 + AI” 驱动研发,在九代实例上实现 15%+ 的端到端性能提升。“我们的性能验证建立在垂直场景 Benchmark 基础上”,杨勇介绍,在智驾场景中,模型训练迭代周期缩短 15%;在电商推荐场景,推理吞吐量提升 20%,这些成效通过开源工具验证,确保了可复现性。

稳定性优化是降低 Token 成本的关键保障,也是当前 AI Infra 领域的突出短板。“今天的分布式推理、训练框架里,缺少过去通算领域成熟的可靠性技术”,杨勇直言,不管是推理还是训练,当前都以分布式部署为主,但行业普遍缺乏冗余备份、容错机制以及 Scale out 或 Scale up 的自动伸缩能力。“稳定性不好会带来服务爆炸半径大的问题,一旦一块卡坏了,部署又没有冗余,直接就不能服务了,甚至几百块卡同时算力断供,Token 成本会大幅上升”。针对这一短板,阿里云在系统层面融入了通算领域的可靠性设计思路,进而减少因硬件故障或负载波动导致的算力损耗。

性能与稳定性的提升,最终需要通过高效部署转化为实际价值。部署效率的优化,核心是解决智算集群 “上架慢、落地难” 的痛点。“建一个智算中心,采购了上千块卡,却要花很长时间搭建调试”,杨勇举例,前一阶段某科技公司股票大跌,部分原因就是市场发现其囤了大量算力,但上架交付周期过长,导致算力无法及时转化为价值。

对于企业而言,AI 增强型 OS 的落地门槛还集中在复杂链路运维、环境适配与人才短缺,这正是部署效率优化的核心靶点。阿里云通过容器化解决方案降低环境配置门槛,“把大模型、推理框架预集成到容器模板,用户一键部署即可”,同时通过自动调优技术,让用户 “无需手动配置,开箱即享最优性能”。杨勇也坦言,全链路标准化的缺失是当前最大的门槛,“需要硬件、OS、框架、模型厂商共同制定标准,降低企业落地成本”,目前阿里云正联合龙蜥社区推进这一工作。

而在异构算力的适配方面,RISC-V 的崛起则提供了一种全新可能。“RISC-V 的核心优势是指令集可任意扩展,能根据 AI 负载定制设计”,郭松柳分享了行业进展:Ubuntu、Fedora、龙蜥等国内外主流 OS 社区均已发布支持 RISC-V 23 的版本,RISC-V 正式成为 OS 支持的 “一等公民”。在智算领域,英伟达、摩尔线程等厂商已将算力卡上的控制芯片替换为 RISC-V 架构,美国 Tenstorrent 公司更是构建了 “RISC-V CPU+RISC-V 算力卡” 的全栈体系,“统一架构能够大幅降低软件栈的维护复杂度”。

RISC-V 的功耗优势同样值得关注。“在相同算力条件下,RISC-V 的功耗可降低 20%-30%”,郭松柳强调,这一优势在智算中心规模化部署后尤为重要,能显著降低能源消耗与运营成本。杨勇补充道:“谷歌的 TPU 也使用了 RISC-V 的 IP,做了很多创新性工作,AI 服务器、AI 算力是 RISC-V 的重要机会”。

未来趋势与生态共建之路

进化方向:通用化与场景化的螺旋上升

技术的落地与算力的适配,让 OS 的 AI 进化的轮廓愈发清晰。关于未来 OS AI 进化的主流趋势,杨勇结合阿里云的实践给出了 “螺旋上升” 的判断:“从当前的专用化,走向中期的通用化,再到长期的专用化与通用化融合”。

他认为,当前 AI 技术仍处于早期阶段,模型与场景的适配性不足,专用化是必然选择。“不同行业、不同应用的需求差异显著,通用化的 OS 难以满足所有场景的优化需求”。但随着模型架构的成熟、算力成本的降低,通用化将成为中期主旋律。“就像电气化时代,电力技术从专用化走向通用化,成为所有行业的基础支撑”,AI OS 也将逐步形成通用的技术框架与接口标准,降低行业应用的门槛。

当 AI 技术全面普及后,行业对 “极致效率” 的追求将推动专用化的回归。“在通用框架的基础上,针对特定场景进行深度定制”。这种螺旋上升的趋势,在通算领域已得到验证:“先通过通用化实现信息化普及,再通过专用化提升行业效率”。

郭松柳从 RISC-V 生态的角度补充了场景化的价值。端侧场景的多样性(如 AI 眼镜、智能手表、工业传感器)决定了 OS 必须走向场景化。“不同设备的资源限制、交互方式、AI 负载差异巨大,通用化的 OS 难以兼顾所有需求”。以 AI 眼镜为例,“其 3D 显示、手势交互等需求,对传统 2D 渲染、键鼠交互的 OS 架构提出了全新挑战,需要针对性定制”。

实际上,两位专家的观点最终形成了一个共识:即通用化是技术普及的基础,场景化是效率提升的关键,两者将在不同阶段占据主导地位,最终形成 “通用框架 + 场景插件” 的融合形态,其中 OS 提供通用的资源管理、安全隔离、生态适配能力,同时通过插件化方式支持不同场景的定制化优化。

Agent 生态:OS 的新战场与技术挑战

通用化与场景化的融合,在 Agent 生态中体现得尤为明显。2025 年,Agent 成为 AI 领域的热门词汇,其演进被视为人工智能发展的重要方向,而操作系统作为底层支撑,在拥抱 Agent 的过程中同样面临着新的机遇与挑战。

从产业实践来看,阿里云服务器操作系统面向 Agent 的布局主要围绕两大方向:一是利用 Agent 技术解决自身系统服务问题,二是构建兼容开放的 Agent 生态底座。“操作系统代码量庞大,传统运维与研发依赖大量人力,大模型技术为这些场景提供了优化空间”,杨勇介绍,阿里云已开始尝试 AI 辅助代码 review、智能化运维故障排查等应用,“我们有数据和场景优势,能更好地将大模型能力融入 OS 的研发与运维流程”。

但 Agent 生态的发展仍面临巨大的不确定性。“AI Agent 的开发模式仍在快速迭代,从早期的提示工程、RAG,到如今的多轮对话、Multi-agent 架构,应用开发框架尚未成熟”,杨勇透露了一个关键行业现状:“目前主流 Agent 厂商均采用闭源商业路径”,这源于 Agent 开发的重资产特性——“需要消耗大量 Token,成本很高”。

对此,他提出了开源社区的应对思路:“就像 Linux 能运行 Oracle、SAP 一样,开源社区应以包容的心态支持闭源 Agent 厂商”,龙蜥社区正计划邀请 Agent 厂商加入智算联盟,通过解决方案合作的方式推动生态适配。“当前生态建设的核心是开发者生态,而非商业互认”,在技术标准尚未成熟的阶段,通过联合创新形成解决方案,是 Agent 生态落地的关键路径。

从学术视角看,郭松柳指出,OS 支撑 Agent 生态还需突破三大技术底座能力。首先是资源调度与平衡能力,“未来大量 Agent 将运行在端侧、边缘侧等资源受限设备上,如何在 Agent 占用大量资源的同时,保证其他应用正常运行,是核心问题。Agent 运行过程中能否被打断?打断的代价是什么?这些都需要 OS 来平衡”。

其次是安全性保障能力。“Agent 需要连接大模型与终端设备,涉及数据传输与系统控制,数据安全与系统安全至关重要”,尤其是在车、工业控制等关键场景,“Agent 的不靠谱可能导致严重后果,这个时候就需要 OS 提供有效的隔离机制与应急控制能力”,比如通过通用计算介入,对 Agent 进行打断或指令修正。

最后是多模态交互适配能力。“随着 Agent 与物理世界的连接日益紧密,OS 需要支持 3D 显示、手势交互等多模态方式”,这对传统 OS 架构提出了全新挑战。郭松柳总结道:“Agent 生态的发展,要求 OS 从‘管理资源’向‘连接人与物理世界’进化”。

涅槃重生:OS 的进化关键与行业启示

无论是技术路线的选择、算力的适配,还是 Agent 生态的布局,最终都指向 OS 实现 “涅槃重生” 的核心命题。操作系统的 AI 进化要实现真正的 “涅槃重生”,而非表面的功能叠加,核心在于紧跟算力需求与应用场景,通过开源协同与软硬一体创新,重构核心能力。

杨勇认为,OS 的定义从未固化,即“从早期的资源管理工具,到云原生时代的容器底座,再到 AI 时代的算力协同枢纽,OS 的进化始终围绕‘解决核心矛盾’展开”。AI 时代的核心矛盾是 “算力供给与应用需求的不匹配”,OS 的涅槃重生必须聚焦于这一矛盾,“从‘管理资源’向‘激活算力’转变,从‘被动适配’向‘主动创新’转变”。

谈及对从业者的建议,杨勇表示主要是三个方向:

  • 一是拥抱开源协同,“AI 时代的技术复杂度远超单一企业的承载能力,开源社区是技术创新的核心载体”;

  • 二是聚焦实际问题,“不要追逐热点,要深入场景找到真正的痛点,技术创新必须为解决问题服务”;

  • 三是保持开放心态,“OS 的进化是全产业链的协同行为,需要与硬件厂商、框架厂商、用户深度合作”。

郭松柳则从技术选择与生态建设的角度补充:

  • 首先也是拥抱开源,“开源打破了技术垄断,为开发者提供了深入核心技术的机会,也为企业降低了创新成本”;

  • 其次是勇于选择新架构,“RISC-V 等新架构虽然生态尚未完全成熟,但发展速度快、灵活性高,是 AI 时代的重要机会”;

  • 最后是重视软硬一体,“AI 时代的 OS 创新不能脱离硬件,需要与硬件厂商深度协同,挖掘算力潜力”。

毋庸置疑的是,在这场操作系统的 AI 进化浪潮中,人才成为了国产 OS 突破技术壁垒、实现 “领跑” 目标的关键变量,两位专家在结尾也不约而同地向行业发出人才号召。“操作系统是技术体系的基石,AI 时代的变革为国产 OS 提供了前所未有的机会”,杨勇感慨道,国产化的目标不是 “替代”,而是 “领先”,“就像中国家电行业一样,无需强调‘国产化’,本身就是先进的代表”。郭松柳更是直言:“如果 AI 会替代程序员和架构师,那操作系统的程序员和架构师可能是最后一个,因为它特别复杂”。

结    语

操作系统的 AI 进化不是一蹴而就的过程,而是一场涉及技术范式、生态格局、产业协同的深度变革。它既不是简单的 “新瓶装旧酒”,也不是颠覆一切的 “推倒重来”,而是在继承过往技术积累的基础上,针对 AI 时代的算力特性与应用需求,实现核心能力的重构与边界的拓展。

从国内外的技术差异到内核价值的重构,从异构算力的适配到 Agent 生态的布局,从性能优化的实践到落地门槛的降低,这场进化的每一步都充满了挑战与机遇。操作系统的涅槃重生,需要产学研用各方的坚守与创新——开发者深入技术细节,企业聚焦实际场景,社区推动协同创新,政策给予生态支持等。

AI 时代的大幕才刚刚拉开,操作系统的进化之路也还漫长。但可以确定的是,只有那些紧跟算力需求、拥抱开源协同、聚焦场景价值的参与者,才有机会在智算时代的 OS 破局之路上占据核心位置。以阿里云为代表的国产 OS 厂商,正通过龙蜥社区等开源生态,联合产业链伙伴持续突破。随着这场变革地持续深入,国产操作系统将有机会实现从 “跟跑” 到 “领跑” 的真正跨越,并构建起自主可控、技术先进的生态体系。

文章来自于“InfoQ”,作者 “付秋伟”。

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索