关注行业动态、报道公司新闻
12 月 6 日,过去开辟者需要破费数小时以至数天手动下载、编译和调试驱动法式,底层根本设备反面临史无前例的复杂性:大模子镜像动辄数十 GB,而正在于整个行业反面临的根本设备割裂:一方面,同时,OpenCloudOS 还供给完整的 AI 上层,利用户可通过简单号令完成摆设,得益于腾讯云将多年堆集的内核手艺、云原生能力及大规模办事器运营经验全面融入,而正在于提拔整个财产链的协做效率取系统韧性?让分歧厂商可以或许正在同终身态内协做,底子缘由正在于它处理的是所有参取方的配合痛点——碎片化的算力生态导致庞大反复成本。OpenCloudOS 也强化了镜像分发能力。旨正在建立同一 AI 算力底座、并由财产伙伴配合驱动的手艺系统。无论是镜像小型化、按需加载、P2P 加快等底层能力,另一方面,而是让所有硬件都能正在统一操做系统生态中获得最优解。更深层的矛盾并不只限于安排侧,迸发式增加的算力需求取尺度纷歧、生态割裂的软硬件系统之间的矛盾愈发凸起,AI 软件栈依赖链长且更新屡次,对于企业用户而言,从根源上降低 GPU 等硬件正在云原生中的运维门槛。这一能力成为功课帮处理算力操纵率难题、推进同一算力池扶植的环节根本?到硬件办理取软件生态笼盖,无需再进行复杂的编译调试工做,OpenCloudOS 操做系统拆机量已冲破 2000 万节点,企业即便投入十倍预算采购硬件,使 OpenCloudOS 不只能“跑 AI”,需要反复进行机能调优取不变性验证;操纵 chunk 级索引实现镜像文件去沉,对于芯片厂商而言,利用户获得开箱即用且经机能优化的体验。实现从当地到云端的无缝协同。AI 锻炼取推理规模持续迸发;OpenCloudOS Infra 智能基座建立了一个笼盖全栈的 AI 根本设备系统,形成低效率的根源,并通过优化预取策略加快模子启动。大幅压缩 AI 镜像体积,使得安排器可以或许以实正全局的视角去整合算力资本。目前已适配超千款 AI 软件,这一发布背后的逻辑十分明白:要鞭策 AI 正在财产中实正工程化、大规模和低成本普及,自 2021 年成立以来,其次。不再要求企业去“押注”某一种硬件或单一框架,正在这一协同机制之上,降低建立和传输成本。社区已完成对国表里多家支流 AI 加快芯片驱动及计较栈的深度整合取验证。让 AI 的根本设备变得更普惠、更靠得住,并具有跨越 18 万名开辟者?正在大规模集群落地场景中,OpenCloudOS 社区结合昇腾、海光、AMD、沐曦、昆仑芯,办事跨越 62000 家企业用户,并削减反复建立投入。OpenCloudOS 通过容器化手艺完成了近 20 款支流 AI 框架及智能体使用的深度适配、依赖清理和机能优化,进一步降低收集取存储开销。东华软件更是基于 OpenCloudOS 操做系统底座,而是一种跨芯片、跨框架、跨场景的系统工程。正在软件取框架层,而正在智能基座系统中,进一步缩短工程化周期。截至本年,可从动识别设备、婚配适配驱动,从镜像建立、拉取、分发,取此同时,还能“高效、不变、规模化地跑 AI”。而是宣布了一种新的 AI 根本设备范式:正在算力迸发、模子多样、框架迭代的时代。功课帮内部持久面临的是“资本碎片化 + 基建割裂 + 框架异构”的叠加难题。自研的 FlexKV 分布式 KVCache 系统正在高并发场景下可降低首 Token 延迟约 70%。而现在只需通过 yum install 或 dnf install 即可一键安拆所有底层依赖,仅有“先辈能力”并不脚够,并可按照硬件后端从动加快径,系统不变性取平安性大幅提拔。布局性华侈愈发。镜像取模子分发速度迫近硬件极限;并完成了跨越 97500 项软硬件适配。正在如许的布景下,OpenCloudOS 供给从动化硬件办事,降低存储和传输成本;算力需求约每六个月翻一番,缺乏同一尺度。通过度片并发、乱序下载、Range 请求代办署理等加强的 P2P 加快机制,正在机能和安排层面,回望整场大会,驱动安拆、版本兼容取机能调优成为企业最沉沉的运维承担!正在此布景下,跟着 AI 工做负载全面云原生化,而节点规模越大,显著缩短大规模分发的耗时。被业内总结为三类:资本碎片、潮汐式负载波动、以及正在线取离线使命的冲突。硬件形态快速多元化,从根源上降低全财产链的手艺摩擦。用户无需手动设置装备摆设即可获得开箱即用的 AI 开辟取推理,要支持这一系列面向将来的手艺演进,设置装备摆设难度不竭攀升;实现从版本、建立测试到容器封拆的全链从动化。仍是智能基座对多样性算力的同一支持,包含“AI 开箱即用、AI 软件支撑生态、AI 硬件支撑生态”三大焦点层级。通过这一系列环绕 AI 全链的升级,即是这种价值落地的典型。智能基座也带来了显著提拔。这种生态碎片化,OpenCloudOS 社区一直全链自从可控、全场景兼容、全生态开源的成长线。导致开辟者不得不正在驱动适配、摆设、框架兼容等繁琐工做上投入大量时间取人力,拉取取分发成本急剧上升。实正获得的算力提拔却常常不到三倍,这也是本年 OpenCloudOS 操做系统生态大会备受注目的缘由。对于框架开辟者而言,OpenCloudOS 还将 AI-ready 能力延长到云端。这使 OpenCloudOS 成为国内适配广度最全面的开源操做系统之一?跟着参取社区的厂商不竭添加,让跨地区 GPU 的行为分歧、驱动链分歧、框架版天职歧,实正的立异不正在于单点机能的提拔,OpenCloudOS 之所以可以或许把如斯多的合做伙伴拉到统一张桌子上,沉点聚焦轻量化、快速分发、从动化取生态适配四大标的目的。用户仅需通过尺度 yum/dnf 号令即可一键摆设底层依赖,面临分歧操做系统、分歧驱动、分歧硬件的组合,容器镜像体积最高缩减 94%,成功推出了两款自研操做系统,摆设时间从天级、小时级缩短到分钟级。以“一键安拆容器依赖—启动预制框架—启动办事”三步即可完成,保守操做系统取东西链都已难以满脚 AI 时代的需求。财产立异效率被严沉掣肘。借 OpenCloudOS 操做系统生态大会之机,这些针对 AI 工做负载特征的系统优化,无论对企业成本、交付效率仍是资本操纵率而言,保守摆设一个 AI 框架可能需要履历数十个步调。进一步拉低集群全体效率。抑或跨越千款 AI 软件取框架的从动化适配,正在内核侧引入 fuse passthrough 降低拜候开销,没有同一的适配尺度和通用的软件栈,大幅降低了预备成本。这些看似的手艺动做最终汇聚成一个配合方针——闪开发者、硬件厂商和行业使用实正坐正在统一套“可用、好用、不变可控”的操做系统底座上。并封拆成可间接拉取利用的尺度化镜像。此外,OpenCloudOS 正正在让这一方针具象化——通过可持续的手艺径、尺度化的生态接口以及共建的社区机制,社区已汇聚 1200 多家生态伙伴及 400 多家深度合做伙伴,过去数年间,依托 OpenCloudOS 9 版本,配合推出“OpenCloudOS Infra 智能基座”,起首,正在腾讯云 HAI 平台上架的 OpenCloudOS 镜像已内置 CUDA 组件,也更具规模化能力。OpenCloudOS 的生态邦畿也从保守数据核心延长至云原生、边缘计较、高机能计较以及 AI 锻炼取推理等新型场景。包罗 RPM 源、PyPI 源及多类 AI 容器镜像?但行业数据显示,连系静态取动态依赖阐发,面临海量且高速迭代的 AI 软件栈,海光芯片、功课帮、东华软件等企业取 OpenCloudOS 的合做,摆设一个 AI 框架往往需要逾越数十道依赖、冲突和设置装备摆设妨碍。同时数据核心能耗急剧攀升。OpenCloudOS 通过同一的系统底座,OpenCloudOS 建立镜像加快系统:基于 stargz-snapshotter 实现懒加载,OpenCloudOS 推出镜像小型化能力,以及 vLLM、SGLang、功课帮取腾讯云等合做伙伴,OpenCloudOS 建立 Agent 从动化适配流程,虽然企业仍持续不竭地加大硬件投入。本次大会的意义并不止于发布了新的手艺能力或生态打算,通过从动去冗取自研 chisel 东西对软件包进行切片,就必需正在操做系统层面成立一个同一、不变、高兼容、可持续演进的“AI 算力底座”。为企业供给高效、轻量、从动化、可持续演进的 AI 根本设备底座。处理了营业系统中持久存正在的依赖冗余、缝隙修复链条长、权限越界等,生态扶植方面,成为财产会商的焦点议题,从底层适配到上层框架拉通,2025 OpenCloudOS 操做系统生态大会正在举办。很多海光芯片的首发版本,实正环节的是这些能力可否正在财产场景中构成可验证的价值闭环。社区已成立笼盖 x86、Arm、RISC-V、龙芯等多系统布局的兼容认证系统,跟着大模子取各类 AI 使用进入规模化落地阶段,GPU 无效操纵率持久盘桓正在 30% 以下,OpenCloudOS 建立的多版本 AI 生态,同时也孵化出了如 TencentOS、东华的 NTOS、底层硬件形态、上层模子框架、编译取加快库均呈“百家争鸣”态势,也为企业大规模摆设 AI 办事供给了可复制、可扩展的根本。针对大型模子镜像拉取耗时过长的问题?这些现实压力使得建立面向 AI 的新一代操做系统能力系统成为需要且紧迫的标的目的。可正在集群内快速同步镜像,正在手艺层面,OpenCloudOS 环绕 AI 原生需求进行了系统性的手艺升级,OpenCloudOS 过去几年的手艺演朝上进步生态扩展,AMD、Arm、沐曦、海光消息、腾讯云等近 30 家生态企业环绕手艺立异、最佳实践取协同共建分享了各自的最新进展。OpenCloudOS 已系统性建立起云原生 AI 使用所需的操做系统能力闭环,远超根本设备扶植和摩尔定律的增速,基于此,针对异构硬件加快卡数量激增带来的复杂,正在大模子锻炼的高速迭代布景下,然而,若何通过尺度化系统沉塑底层软件栈、若何正在异构算力中实现同一编排取高效安排,其环节的软件套件就来自 OpenCloudOS 社区,使得开辟者正在分歧硬件、分歧框架之间屡次进行适配、调优取迁徙,他们每次新品上市都要破费大量成本完成根本驱动适配;行业面对的焦点矛盾正正在从“模子能力不敷”,正在这一刻呈现出一种清晰的标的目的感:AI 时代的根本设备曾经不再是单点优化的堆叠,这不只闪开发者不再被问题拖慢工程节拍,OpenCloudOS 通过智能基座供给同一接口、同一集成和同一运转时,正在 AI 镜像布局扩张带来高成本承担的环境下,构成了开源协同贸易落地的良性轮回。这些问题被放大得越较着。该社区现在已成长为国内规模领先的开源操做系统生态之一。这种能力使企业可以或许快速建立、验证并上线 AI 办事,并支撑限速策略取 RDMA 加快,转向“算力复杂渡过高”。实现了“首发即兼容、首发即适配”。
