新闻

开云(中国)Kaiyun·官方网站 - 登录入口"一位大型车企东谈主士说-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2024-11-22 05:18    点击次数:167

开云(中国)Kaiyun·官方网站 - 登录入口"一位大型车企东谈主士说-开云(中国)Kaiyun·官方网站 - 登录入口

开云(中国)Kaiyun·官方网站 - 登录入口

中国云厂商在十万卡集群上推崇得更为感性,是什么在鞭策它们伸开本领准备?‍‍‍‍

文|赵艳秋‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍‍

编|牛慧‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在打造十万卡集群上,几家国内头部企业已有动作。

在 11 月 12 日举办的百度宇宙 2024 大会上,百度集团实行副总裁、百度智能云奇迹群总裁沈抖显现,为了相沿大模子进一步的高速发展,百度在打磨十万卡集群才智方面,已在两大问题上获取要道攻击。与此同期,字节和阿里在智算上插足远大,本年以来,华为也颐养厂商在攻克更大范围集群。

是否有必要打造十万卡集群?当年 24 个月,由于大模子超等应用还未出现,中国业界出现了反想——大模子全球性的狂热,究竟是一场新的本领创新,照旧新一轮泡沫?

在此次大会上,百度创始东谈主李彦宏袒露了一个数字,文心大模子日均调用量达到15 亿,而6 个月前是 2 亿。"‘应用来了’,代表了咱们对大模子和生成式 AI 当下的领悟和判断。" 李彦宏称。这个鄙人半年俄顷变得陡峻的弧线,在一定进度上给出了佐证。

这亦然当下中国云厂商开展本领准备的实践考量。由于插足和芯片上的截至,中国云厂商的推崇并不激进。但他们在客户快速增长的需求下,也在分步走向十万卡集群。

01

企业智算投资的怜惜高了

百度越过系统架构师王雁鹏,最近几个月频繁斗争到高校客户,"他们对算力的需求在增多"。

本年诺贝尔物理学奖、化学奖皆颁给了东谈主工智能推敲内行,激勉了等闲关注。"全球最昌盛的是,正本AI for Science要由千般不同的模子去作念,但目下搞卵白质的、搞数学的 ......皆不错‘揉’到大模子的容貌中来,中枢架构致使完全是 transformer。"王雁鹏告诉数智前方。高校的怜惜精深提高了,最近预算变多,皆拿到资金开导智算基础设施。

像上海交通大学,已回荡传统科研形状,期望科学与 AI 更紧密的结合。他们与百度智能云合营建成了我方的 AI for Science 科学数据开源洞开平台,相沿白玉兰科学大模子的试验。依托 AI for Science 平台,上海交大已在 Nature Computational Science 封面,发表了 AI+ 城市的科学后果。在公开招投标平台上,近期更多高校发布智算推敲招标公告。 

车企是当下智算的采购大户。"咱们调研,用户已称心为好用的智驾买单。"一位大型车企东谈主士说。而况,端到端智驾本领,比正本由许多小模子串联起来的智驾"更拟东谈主化",成为行业的主流决策。明确的办法,让车企插足意愿更热烈。该东谈主士判断,畴昔 1~2 年内,车企智算算力会再翻两番操纵。

"在西席行业,最大的守望即是杀青大范围因材施教。"好畴昔集团 CTO 田密说," AI 淳厚让咱们看到了一点朝阳。有了大模子,通盘的 AI 西席科技皆值得重作念一遍。" 大模子不错解题、讲题、白话训练、转变功课,为学生作念个性化学习保举。

"大厂不错从零初始作念,小厂通过 API 调用或微调、RAG 就不错。算作中厂或垂直鸿沟的龙头企业,咱们照旧要基于最优秀的开源模子,作念好后试验。"田密说。昨年,好畴昔推出九章大模子 MathGPT。为此,好畴昔在百度智能云上,自有和租出数千卡,这在西席行业中是最佳最高的。大模子在以千般体式落地,如学习机、App,也通过 API 向社会洞开,手机、平板、PC 和新能源车皆初始了调用。

在餐饮行业,破费者已悄然无息用上了大模子本领。"百胜中国事最早初始使用生成式 AI 的餐饮企业。"百胜中国 CTO 张雷说。它是国内范围最大的餐饮公司。在东谈主们频频使用的 App 小措施、外卖平台各渠谈中,百胜弃取了百度智能云的客悦 AI 智能客服系统,科罚肯德基、必胜客在线点餐中相配千般化的劳动需求,每天已协助处理超 15 万次破费者相通。

张雷称,畴昔将以 AI 原生容貌,在经管、运营、坐褥和交游的各个方面进行本领重构。

从昨岁首始,国度电网基于文心大模子和千帆平台,结合电力行业高质料数据,在共创电力行业大模子基础底座,在休养、开导、营销等六大专科鸿沟探索 AI 原生应用。近期国网就会持重对外发布推敲后果。

"我趋奉,通盘行业皆已被 transformer 给重构了。"好畴昔田密说。越来越多的大中型互联网企业、车企、头部央企等,皆在试验我方的行业或企业大模子。

他们的共同特色是,有无数私域数据和独到业务,有研发力量,但不会从新去试验通用大模子,而是在开源或商用模子上作念深切的后试验,适配各类场景,搭建我方的数据飞轮,并有贸易预期。这些企业的需求,也进一步拉动了智算商场。

  

值得关注的是,在大模子范式下,算力与算法的蹙迫性初始平等了,这让企业的插足占比发生了变化。

"咱们算了一笔账。四五年前初始研发智驾时,要插足至极多的算法和规则开发工程师,东谈主力、数据和算力的插足比是 6:2:2。"一位车企东谈主士说,"但目下端到端智驾研发,需要更大的算力。咱们初步估量,上述比例将变为 2:3:5,50% 致使更高的插足是算力。"

真谛的是,这些龙头企业不管弃取公有云,照旧自建数据中心,皆一辞同轨找到了云厂商。"咱们主动找到了百度智能云。"好畴昔田密说,"你会发现,在 Infra(基础设施)的插足上,只须大厂才能作念得这样详细。"

而 IDC 中国究诘总监刘丽辉先容,到 2026 年,半数以上的企业,皆会与云厂商达成生成式 AI 基础设施、推敲平台器具等方面的合营。

02  

压力给到了云厂商

百度王雁鹏不雅察,在插足奋勇的企业中,行业龙头典型的算力需求在 1000 卡 ~5000 卡范围,而大模子创企的需求则在万卡水平。

这些企业在试验和推理经过中,际遇了千般问题,他们对智算基础设施建议了四个主要的诉求——高速网罗互联、集群踏实性、资源垄断率、大模子试验和推理器具等。而这些需求与 CPU 云期间截然相悖。

比如有东谈主把 GPU 比作赛车,要让赛车性能透露到极致,就要给它设立专科赛谈。在搭建 GPU 集群时,企业条款云厂商提供一个更好的网罗硬件互联架构。 

踏实性是一件要命的事。CPU 的功耗只须两三百瓦,GPU 照旧 1500 瓦了。黄仁勋因此被戏称为"核弹狂魔"。功耗高代表着集成度高,这就容易出故障。"咱们算过,一个千卡集群,按照现存商场价钱,一天的房钱是二三十万元。平台踏实性不好了,咱们的赔本就很大。"一家车企东谈主士说。而视频大模子企业生数科技东谈主士告诉数智前方,他们中枢的诉求是"踏实性"。平台踏实,确保他们在视频生成的中枢本领"高一致性"上杀青攻击。

资源垄断率亦然企业最关注的问题,因为 GPU 太贵了,垄断率操纵着 ROI。

而这些诉求,把压力给到了云厂商。"当年一年多,大模子正在重构 AI 计较形状。"一位云厂商的资深东谈主士说,"我从来莫得看到过任何一个本领波涛,约略像这一轮大模子,从上到下对咱们的本领有如斯大的颠覆。"

此前,基础设施是以 CPU 为中枢的体系。它的中枢点是极致弹性、极致性价比,全球最大的驱能源是提效降本。

 

到了大模子期间,基础设施转向了极致高密、极致互联与极致范围。国外本年已从十万卡向百万卡集群迈进。用不了太永劫期,可能一个数据中心,就会"缩到"一个机柜里或一个节点上。

基础设施从当年的提效降本,回荡成一个全面追求本领创新,来驱动通盘这个词业务大发展的阶段。每一个从业者也皆在野着何如约略去追逐上 scaling law 的发展去奔走。在一次会议中,百度集团副总裁侯震宇先容,最近几年,在百度里面说起最多的是 800G/T 级互联、高密存储、他乡异网异构休养、训推一体 .....

由于当年十多年在合座 AI 上的插足,百度从 2009 岁首始,在中国互联网企业中第一家初始使用 GPU 作念集群加快,2021 年已建成三四千卡单一任务的 GPU 集群,并逐渐形成了有丰富本领栈的百度百舸异构计较平台。

" CPU 的 IaaS 是一个通用平台,但 GPU 的 IaaS 不同样,更追求 GPU 算力端到端的性能最优,要给它提供更厚的本领栈,算力才容易透暴露来。"百度王雁鹏对数智前方诠释。

基于百度百舸的本领栈,科罚了龙头企业在算力上的问题。在长安汽车,开头 GPU 抽象垄断率不太高。长安汽车和百度智能云,应用百舸平台,作念好试验任务的编排和休养,GPU 垄断率进步了 40% 以上。

视频大模子创企生数科技称,基于百度百舸踏实的超大算力集群,在 OpenAI 推出 Sora 仅 40 天后,推出了自研视频大模子 Vidu。在试验中,他们应用了百舸平台的算力集群的任务分发、部队休养和试验加快,"镌汰了 Vidu 的研发周期"。

"咱们迭代的速率横蛮常快的,不管是新功能,照旧模子基础才智上。"在 Vidu 上线逾百日之际,生数科技在 11 月 13 日推出 Vidu 1.5 新版块,率先攻克"多主体一致性"纳闷。

由于最早在商场上推出模子,生数科技已在影视、动画、文旅有落地。比如,近期漫威电影《毒液 3》的中国水墨格调 AI 宣传片,即是 Vidu 生成的。

03

奔向十万卡

国内云计较厂商还在更进一步,但他们的作念法和考量也更感性和实践。

在国外,好意思国商场在经验了一个充分灵验的竞争后,之前很吵杂的大模子公司皆在卖身,本年作念基础大模子的企业已赶快缩小到五家—— OpenAI、Anthropic、Meta、谷歌,以及马斯克旗下的 xAI。

而这些巨头的算力竞争门槛已达到十万卡范围。微软接头到来岁底,向 OpenAI 提供约 30 万个英伟达最新 GB200 图形处理器。但 OpenAI 似乎并不舒坦,也与甲骨文达成了公约,甲骨文正在诡计一个超等数据中心,将达到一千兆瓦电力,蜕变过来即是 50 多万卡英伟达 GPU;

Meta 的小扎也不甘过期,称 Llama 4 模子正在一个 10 万片 H100 GPU 集群上试验;马斯克的 xAI 本年 7 月已建成十万卡集群,并将在畴昔几个月内再加多 10 万卡,其中 5 万卡将是英伟达 H200。

在百度宇宙 2024 大会上,沈抖袒露,百度已科罚了 10 万卡集群两个纳闷。一个是在一云多芯情况下,两种芯片搀杂试验着力折损,限度在 5% 以内,这是业界跨越水平。这一本领是针对芯片供应垂危,以及部分企业对国产算力有强需求而研发。

另一个纳闷是跨地域机房部署,百舸将单一试验任务集群的性能折损限度在 4% 以内,这亦然业界跨越水平。它科罚的是电力问题和机房空间问题。10 万卡集群一天要吃掉 300 万千瓦时电力,至极于北京东城区一天的住户用电量;所需的占地,至极于 14 个尺度足球场。它通过高效拓扑结构、跨地域无拥塞高性能网罗和高效模子并行试验等决策,在横跨几十公里的多机房上杀青。

不外,业界如今有一个疑问,OpenAI 在 2020 年建议的 Scaling Law 是否还缔造?是否有必要追逐十万卡集群?王雁鹏坦言,他们看到Scaling Law 确乎在放缓。这亦然 OpenAI o1 相比火的一个原因,它弃取强化学习(Self-play)形状,首创了模子 scaling 的新维度。

一些国内龙头企业,其果然半年多前已将更多元气心灵转向强化学习。通过算力创造更多数据,由东谈主们给每一步打分、作念数据标注,通过奖励模子去强化它,让模子更智能。

强化学习让模子试验对算力的需求也禁止了不少。但这并不料味着国内就不遑暇食在数千卡到万卡集群。大模子正进入更多产业,王雁鹏预估,来岁算力需求还会以试验为主,算力需求在高速增长,企业对算力在性能和本钱上,也建议进一步的诉求。

"比如大模子创企,他们有很强的融资压力,是以对本钱的诉求相配强。"王雁鹏说。

当下,公有云是企业进行大模子试验的主流容貌。云厂商通常弃取"劳动一个企业,搭建一个集群的容貌"。但这种容貌存在显着瑕疵,即在企业试验任务不处于岑岭期时,集群中的计较资源处于闲置景象,形成资源糟践。而当 10 万卡集群出现后,云厂商就不错依靠这个大型集群,为繁密企业提供劳动,阐明不同企业的需求,动态分派计较资源,不仅提高了资源垄断率,也禁止了企业的本钱。

"当咱们能科罚了十万卡集群本领,比如上述的跨地域 RDMA 本领、多芯混训本领、容错本领,就不错不需要建一个大的单一机房,而是把几个机房和会在一谈,提供一个更好的云平台,也给全球一个更好的本钱。多芯本领亦然同样的逻辑。"他进一步说。

在与国内企业的互迎合营和鞭策下,中国云厂商正在加快平台开导,鞭策大模子本领波涛,在商场的快速演进。

© 本文为数智前方(szqx1991)原创本色

进群、转载或商务合营推敲后台

著述精选开云(中国)Kaiyun·官方网站 - 登录入口