新闻

开云(中国)Kaiyun·官方网站 - 登录入口＂一位大型车企东谈主士说-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期：2024-11-22 05:18 点击次数：169

开云(中国)Kaiyun·官方网站 - 登录入口

中国云厂商在十万卡集群上推崇得更为感性，是什么在鞭策它们伸开本领准备？‍‍‍‍

文｜赵艳秋‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍‍

编｜牛慧‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在打造十万卡集群上，几家国内头部企业已有动作。

在 11 月 12 日举办的百度宇宙 2024 大会上，百度集团实行副总裁、百度智能云奇迹群总裁沈抖显现，为了相沿大模子进一步的高速发展，百度在打磨十万卡集群才智方面，已在两大问题上获取要道攻击。与此同期，字节和阿里在智算上插足远大，本年以来，华为也颐养厂商在攻克更大范围集群。

是否有必要打造十万卡集群？当年 24 个月，由于大模子超等应用还未出现，中国业界出现了反想——大模子全球性的狂热，究竟是一场新的本领创新，照旧新一轮泡沫？

在此次大会上，百度创始东谈主李彦宏袒露了一个数字，文心大模子日均调用量达到15 亿，而6 个月前是 2 亿。"‘应用来了’，代表了咱们对大模子和生成式 AI 当下的领悟和判断。" 李彦宏称。这个鄙人半年俄顷变得陡峻的弧线，在一定进度上给出了佐证。

这亦然当下中国云厂商开展本领准备的实践考量。由于插足和芯片上的截至，中国云厂商的推崇并不激进。但他们在客户快速增长的需求下，也在分步走向十万卡集群。

企业智算投资的怜惜高了

百度越过系统架构师王雁鹏，最近几个月频繁斗争到高校客户，"他们对算力的需求在增多"。

本年诺贝尔物理学奖、化学奖皆颁给了东谈主工智能推敲内行，激勉了等闲关注。"全球最昌盛的是，正本AI for Science要由千般不同的模子去作念，但目下搞卵白质的、搞数学的 ......皆不错‘揉’到大模子的容貌中来，中枢架构致使完全是 transformer。"王雁鹏告诉数智前方。高校的怜惜精深提高了，最近预算变多，皆拿到资金开导智算基础设施。

像上海交通大学，已回荡传统科研形状，期望科学与 AI 更紧密的结合。他们与百度智能云合营建成了我方的 AI for Science 科学数据开源洞开平台，相沿白玉兰科学大模子的试验。依托 AI for Science 平台，上海交大已在 Nature Computational Science 封面，发表了 AI+ 城市的科学后果。在公开招投标平台上，近期更多高校发布智算推敲招标公告。

车企是当下智算的采购大户。"咱们调研，用户已称心为好用的智驾买单。"一位大型车企东谈主士说。而况，端到端智驾本领，比正本由许多小模子串联起来的智驾"更拟东谈主化"，成为行业的主流决策。明确的办法，让车企插足意愿更热烈。该东谈主士判断，畴昔 1~2 年内，车企智算算力会再翻两番操纵。

"在西席行业，最大的守望即是杀青大范围因材施教。"好畴昔集团 CTO 田密说，" AI 淳厚让咱们看到了一点朝阳。有了大模子，通盘的 AI 西席科技皆值得重作念一遍。" 大模子不错解题、讲题、白话训练、转变功课，为学生作念个性化学习保举。

"大厂不错从零初始作念，小厂通过 API 调用或微调、RAG 就不错。算作中厂或垂直鸿沟的龙头企业，咱们照旧要基于最优秀的开源模子，作念好后试验。"田密说。昨年，好畴昔推出九章大模子 MathGPT。为此，好畴昔在百度智能云上，自有和租出数千卡，这在西席行业中是最佳最高的。大模子在以千般体式落地，如学习机、App，也通过 API 向社会洞开，手机、平板、PC 和新能源车皆初始了调用。

在餐饮行业，破费者已悄然无息用上了大模子本领。"百胜中国事最早初始使用生成式 AI 的餐饮企业。"百胜中国 CTO 张雷说。它是国内范围最大的餐饮公司。在东谈主们频频使用的 App 小措施、外卖平台各渠谈中，百胜弃取了百度智能云的客悦 AI 智能客服系统，科罚肯德基、必胜客在线点餐中相配千般化的劳动需求，每天已协助处理超 15 万次破费者相通。

张雷称，畴昔将以 AI 原生容貌，在经管、运营、坐褥和交游的各个方面进行本领重构。

从昨岁首始，国度电网基于文心大模子和千帆平台，结合电力行业高质料数据，在共创电力行业大模子基础底座，在休养、开导、营销等六大专科鸿沟探索 AI 原生应用。近期国网就会持重对外发布推敲后果。

"我趋奉，通盘行业皆已被 transformer 给重构了。"好畴昔田密说。越来越多的大中型互联网企业、车企、头部央企等，皆在试验我方的行业或企业大模子。

他们的共同特色是，有无数私域数据和独到业务，有研发力量，但不会从新去试验通用大模子，而是在开源或商用模子上作念深切的后试验，适配各类场景，搭建我方的数据飞轮，并有贸易预期。这些企业的需求，也进一步拉动了智算商场。

值得关注的是，在大模子范式下，算力与算法的蹙迫性初始平等了，这让企业的插足占比发生了变化。

"咱们算了一笔账。四五年前初始研发智驾时，要插足至极多的算法和规则开发工程师，东谈主力、数据和算力的插足比是 6：2：2。"一位车企东谈主士说，"但目下端到端智驾研发，需要更大的算力。咱们初步估量，上述比例将变为 2：3：5，50% 致使更高的插足是算力。"

真谛的是，这些龙头企业不管弃取公有云，照旧自建数据中心，皆一辞同轨找到了云厂商。"咱们主动找到了百度智能云。"好畴昔田密说，"你会发现，在 Infra（基础设施）的插足上，只须大厂才能作念得这样详细。"

而 IDC 中国究诘总监刘丽辉先容，到 2026 年，半数以上的企业，皆会与云厂商达成生成式 AI 基础设施、推敲平台器具等方面的合营。

压力给到了云厂商

百度王雁鹏不雅察，在插足奋勇的企业中，行业龙头典型的算力需求在 1000 卡 ~5000 卡范围，而大模子创企的需求则在万卡水平。

这些企业在试验和推理经过中，际遇了千般问题，他们对智算基础设施建议了四个主要的诉求——高速网罗互联、集群踏实性、资源垄断率、大模子试验和推理器具等。而这些需求与 CPU 云期间截然相悖。

比如有东谈主把 GPU 比作赛车，要让赛车性能透露到极致，就要给它设立专科赛谈。在搭建 GPU 集群时，企业条款云厂商提供一个更好的网罗硬件互联架构。

踏实性是一件要命的事。CPU 的功耗只须两三百瓦，GPU 照旧 1500 瓦了。黄仁勋因此被戏称为"核弹狂魔"。功耗高代表着集成度高，这就容易出故障。"咱们算过，一个千卡集群，按照现存商场价钱，一天的房钱是二三十万元。平台踏实性不好了，咱们的赔本就很大。"一家车企东谈主士说。而视频大模子企业生数科技东谈主士告诉数智前方，他们中枢的诉求是"踏实性"。平台踏实，确保他们在视频生成的中枢本领"高一致性"上杀青攻击。

资源垄断率亦然企业最关注的问题，因为 GPU 太贵了，垄断率操纵着 ROI。

而这些诉求，把压力给到了云厂商。"当年一年多，大模子正在重构 AI 计较形状。"一位云厂商的资深东谈主士说，"我从来莫得看到过任何一个本领波涛，约略像这一轮大模子，从上到下对咱们的本领有如斯大的颠覆。"

此前，基础设施是以 CPU 为中枢的体系。它的中枢点是极致弹性、极致性价比，全球最大的驱能源是提效降本。

到了大模子期间，基础设施转向了极致高密、极致互联与极致范围。国外本年已从十万卡向百万卡集群迈进。用不了太永劫期，可能一个数据中心，就会"缩到"一个机柜里或一个节点上。

基础设施从当年的提效降本，回荡成一个全面追求本领创新，来驱动通盘这个词业务大发展的阶段。每一个从业者也皆在野着何如约略去追逐上 scaling law 的发展去奔走。在一次会议中，百度集团副总裁侯震宇先容，最近几年，在百度里面说起最多的是 800G/T 级互联、高密存储、他乡异网异构休养、训推一体 .....

由于当年十多年在合座 AI 上的插足，百度从 2009 岁首始，在中国互联网企业中第一家初始使用 GPU 作念集群加快，2021 年已建成三四千卡单一任务的 GPU 集群，并逐渐形成了有丰富本领栈的百度百舸异构计较平台。

" CPU 的 IaaS 是一个通用平台，但 GPU 的 IaaS 不同样，更追求 GPU 算力端到端的性能最优，要给它提供更厚的本领栈，算力才容易透暴露来。"百度王雁鹏对数智前方诠释。

基于百度百舸的本领栈，科罚了龙头企业在算力上的问题。在长安汽车，开头 GPU 抽象垄断率不太高。长安汽车和百度智能云，应用百舸平台，作念好试验任务的编排和休养，GPU 垄断率进步了 40% 以上。

视频大模子创企生数科技称，基于百度百舸踏实的超大算力集群，在 OpenAI 推出 Sora 仅 40 天后，推出了自研视频大模子 Vidu。在试验中，他们应用了百舸平台的算力集群的任务分发、部队休养和试验加快，"镌汰了 Vidu 的研发周期"。

"咱们迭代的速率横蛮常快的，不管是新功能，照旧模子基础才智上。"在 Vidu 上线逾百日之际，生数科技在 11 月 13 日推出 Vidu 1.5 新版块，率先攻克"多主体一致性"纳闷。

由于最早在商场上推出模子，生数科技已在影视、动画、文旅有落地。比如，近期漫威电影《毒液 3》的中国水墨格调 AI 宣传片，即是 Vidu 生成的。

奔向十万卡

国内云计较厂商还在更进一步，但他们的作念法和考量也更感性和实践。

在国外，好意思国商场在经验了一个充分灵验的竞争后，之前很吵杂的大模子公司皆在卖身，本年作念基础大模子的企业已赶快缩小到五家—— OpenAI、Anthropic、Meta、谷歌，以及马斯克旗下的 xAI。

而这些巨头的算力竞争门槛已达到十万卡范围。微软接头到来岁底，向 OpenAI 提供约 30 万个英伟达最新 GB200 图形处理器。但 OpenAI 似乎并不舒坦，也与甲骨文达成了公约，甲骨文正在诡计一个超等数据中心，将达到一千兆瓦电力，蜕变过来即是 50 多万卡英伟达 GPU；

Meta 的小扎也不甘过期，称 Llama 4 模子正在一个 10 万片 H100 GPU 集群上试验；马斯克的 xAI 本年 7 月已建成十万卡集群，并将在畴昔几个月内再加多 10 万卡，其中 5 万卡将是英伟达 H200。

在百度宇宙 2024 大会上，沈抖袒露，百度已科罚了 10 万卡集群两个纳闷。一个是在一云多芯情况下，两种芯片搀杂试验着力折损，限度在 5% 以内，这是业界跨越水平。这一本领是针对芯片供应垂危，以及部分企业对国产算力有强需求而研发。

另一个纳闷是跨地域机房部署，百舸将单一试验任务集群的性能折损限度在 4% 以内，这亦然业界跨越水平。它科罚的是电力问题和机房空间问题。10 万卡集群一天要吃掉 300 万千瓦时电力，至极于北京东城区一天的住户用电量；所需的占地，至极于 14 个尺度足球场。它通过高效拓扑结构、跨地域无拥塞高性能网罗和高效模子并行试验等决策，在横跨几十公里的多机房上杀青。

不外，业界如今有一个疑问，OpenAI 在 2020 年建议的 Scaling Law 是否还缔造？是否有必要追逐十万卡集群？王雁鹏坦言，他们看到Scaling Law 确乎在放缓。这亦然 OpenAI o1 相比火的一个原因，它弃取强化学习（Self-play）形状，首创了模子 scaling 的新维度。

一些国内龙头企业，其果然半年多前已将更多元气心灵转向强化学习。通过算力创造更多数据，由东谈主们给每一步打分、作念数据标注，通过奖励模子去强化它，让模子更智能。

强化学习让模子试验对算力的需求也禁止了不少。但这并不料味着国内就不遑暇食在数千卡到万卡集群。大模子正进入更多产业，王雁鹏预估，来岁算力需求还会以试验为主，算力需求在高速增长，企业对算力在性能和本钱上，也建议进一步的诉求。

"比如大模子创企，他们有很强的融资压力，是以对本钱的诉求相配强。"王雁鹏说。

当下，公有云是企业进行大模子试验的主流容貌。云厂商通常弃取"劳动一个企业，搭建一个集群的容貌"。但这种容貌存在显着瑕疵，即在企业试验任务不处于岑岭期时，集群中的计较资源处于闲置景象，形成资源糟践。而当 10 万卡集群出现后，云厂商就不错依靠这个大型集群，为繁密企业提供劳动，阐明不同企业的需求，动态分派计较资源，不仅提高了资源垄断率，也禁止了企业的本钱。

"当咱们能科罚了十万卡集群本领，比如上述的跨地域 RDMA 本领、多芯混训本领、容错本领，就不错不需要建一个大的单一机房，而是把几个机房和会在一谈，提供一个更好的云平台，也给全球一个更好的本钱。多芯本领亦然同样的逻辑。"他进一步说。

在与国内企业的互迎合营和鞭策下，中国云厂商正在加快平台开导，鞭策大模子本领波涛，在商场的快速演进。

进群、转载或商务合营推敲后台

著述精选开云(中国)Kaiyun·官方网站 - 登录入口

栏目分类