发布日期:2024-08-09 07:48 点击次数:176
新智元报说念
裁剪:桃子 乔杨
【新智元导读】多年来,马斯克一直在公开评论Dojo——这台超算将成为特斯拉东说念主工智能宏愿的基石。他最近表露,跟着特斯拉准备在10月推出Robotaxi,AI团队将「加倍进入」Dojo。
为了训出最强Grok 3,xAI耗时19天,打造了由10万块H100组成的寰宇最大超算集群。
而在检会FSD、擎天柱机器东说念主方面,马斯克相通不吝重金,进入了大批的运筹帷幄资源。
超算Dojo,是特斯拉AI的基石,专为检会FSD神经采集而打造。
就在今天,他在德州超等工场(Cortex)参不雅了特斯拉的超等运筹帷幄机集群。
马斯克称,「这将是一个领有约10万个H100/H200 GPU,并配备大限制存储的系统,用于全自动驾驶(FSD)和Optimus机器东说念主的视频检会」。
不仅如斯,除了英伟达GPU,这个超算集群中还配备了特斯拉HW4、AI5、Dojo系统。
它们将由一个高达500兆瓦的大型系统提供电力和冷却。
2021年特斯拉AI Day上,马斯克首次对外晓喻Dojo。
如今三年以前了,Dojo建得怎样了?
8000块H100等价算力,加倍下注
半个月前,网友称2024年年底,特斯拉领有AI检会算力,等价于9万块H100的性能。
马斯克对此作念了一些补充:
咱们在AI检会系统中不仅使用英伟达的GPU,还使用我方的AI运筹帷幄机——Tesla HW4 AI(改名为AI4),比例简陋为1:2。
这意味着异常于有简陋9万个H100,加上简陋4万个AI4运筹帷幄机。
他还提到,到本年年底,Dojo 1将领有简陋8000个异常于H100算力。这个限制不算宏大,但也不算小。
Dojo D1超算集群
其确切旧年6月,马斯克曾知道Dojo照旧在线并运行了几个月的灵验任务。
这照旧表露着,Dojo照旧进入到一些任务的检会中。
最近,在特斯拉财报会议上,马斯克表露特斯拉准备在10月推出自动驾驶出租车,AI团队将「加倍进入」Dojo。
瞻望Dojo的算运筹帷幄智商,将在2024年10月达到100 exaflops。
假定一个D1芯片不错达成362 teraflops,要达到100 exaflops,特斯拉将需要卓著27.6万个D1芯片,或者卓著32万英伟达A100 GPU。
500亿晶体管,D1已投产
2021年特斯拉AI Day上,D1芯片初度亮相,领有500亿晶体管,唯有巴掌大小。
它具备了遒劲和高效的性能,粗略快速处理各式复杂的任务。
本年5月,D1芯片开动投产,罗致台积电7nm工艺节点。
Autopilot前硬件高档总监Ganesh Venkataramanan曾表露,「D1不错同期进行运筹帷幄和数据传输,罗致定制ISA教导集架构,并针对机器学习责任负载进行了充分优化」。
这是一台纯正的机器学习的芯片。
尽管如斯,D1仍莫得英伟达A100遒劲,后者相通罗致了台积电7nm工艺制造。
D1在645平淡毫米的芯片上遗弃了500亿个晶体管,而A100包含540亿个晶体管,芯片尺寸为826平淡毫米,性能率先于D1。
为了赢得更高的带宽和算力,特斯拉AI团队将25个D1芯片交融到一个tile中,将其动作一个和谐的运筹帷幄机系统运作。
每个tile领有9 petaflops的算力,以及每秒36 TB的带宽,并包含电力源、冷却和数据传输硬件。
咱们不错将单个tile视为,由25台袖珍运筹帷幄机组成的一台自力重生的运筹帷幄机。
通过使用晶圆级互连时刻InFO_SoW(Integrated Fan-Out,System-on-Wafer),在归拢块晶圆上的25块D1芯片不错达成高性能相干,像单个处理器一样责任。
6个这么的tile组成一个机架(rack),两个机架组成一个机柜(cabinet)。
十个机柜组成一个ExaPOD。
在2022年AI Day中,特斯拉表露,Dojo将通过部署多个ExaPOD进行推广。扫数这些加在沿路组成了超等运筹帷幄机。
晶圆级处理器(wafer-scale processor),比如特斯拉的Dojo和Cerebras的晶圆级引擎WSE,比多处理器(multi-processor)的性能效果要高得多。
前者的主要优点包括内核之间的高带宽和低延长通讯、较低的电网阻抗以及更高的动力效果。
现在,唯有特斯拉和Cerebras领有晶圆上系统联想。
有关词,将25个芯片放在沿路对电压挑战和冷却系统亦然不小的挑战。
网友拍到特斯拉在德州建树巨型冷却系统
晶圆级芯片的固有挑战还在于,必须使用片上内存(on-chip memory),这不够纯真,可能无法心仪扫数类型的运用。
Tom's Hardware预测, 下一代使用的时刻可能是CoW_SoW(Chip-on-Wafer),在tile上进行3D堆叠并集成HBM4内存。
此外,个股期权特斯拉还在研发下一代D2芯片,为了破解信息流曲折。
与相干单个芯片不同,D2将扫数这个词Dojo tile放在了单个硅晶圆上。
到2027年,台积电瞻望将提供更复杂的晶圆级系统,运筹帷幄智商瞻望将晋升卓著40倍。
自D1发布以来,特斯拉既莫得公开已订购、预期接管的D1芯片订单情况,也莫得公开Dojo超算的具体部署时辰表。
不外在本年6月份的时候,马斯克曾表露,在改日18个月,一半部署特斯拉AI硬件,一半是英伟达/其他硬件。
其他硬件,也可能是AMD。
为什么需要Dojo
自动驾驶耗算力
在咱们的印象中,特斯拉的主业仅限于出产电动汽车,再附带一些太阳能电板板和储能系统的业务。
但马斯克对特斯拉的欲望远远不啻于此。
大多数自动驾驶系统,比如谷歌母公司Alphabet旗下的Waymo,仍旧依靠传统的感知器动作输入,比如雷达、激光雷达和录像头等。
但特斯拉采取的是「全视觉」旅途,他们仅依靠录像头捕捉视觉数据,辅以高清舆图进行定位,再使用神经采集处理数据以进行自动驾驶的快速有诡计。
直不雅来看,彰着前者是一种更浮浅快捷的旅途,事实也果然如斯。
Waymo照旧达成了L4级自动驾驶的买卖化,即SAE所界说的,在一定要求下下无需东说念主工打扰即可自行驾驶的系统。但特斯拉的FSD(Full Self-Driving)神经采集仍无法脱离东说念主类操作。
Andrej Karpathy曾在特斯拉担任AI厚爱东说念主,他表露,达成FSD基本是在「重新开动构建一种东说念主造动物」。
咱们不错将其邻接为东说念主类视觉皮层和大脑功能的数字复制。FSD不仅需要连气儿采集和处理视觉数据,识别、分类车辆周围的物体,还需要有与东说念主类异常的有诡计速率。
由此可见,马斯克念念要的毫不仅仅能盈利的自动驾驶系统辛劳。他的主义,是打造一种新智能。
但幸运的是,他简直不太需要操心数据不够的问题。现在简陋有180万东说念主为FSD支付了8000好意思元的订阅费(之前可达1.5万好意思元),这意味着特斯拉能采集到数百万英里的驾驶视频用于检会。
而算力方面,Dojo超算等于FSD的检会场。它的汉文名字不错翻译为「说念场」,是对技击训诫空间的致意。
英伟达不外劲
英伟达GPU有多抢手?望望各大科技巨头的CEO有多念念跟老黄套近乎就知说念了。
即便财大气粗如马斯克,也会在7月的财报电话会上承认,我方对特斯拉可能没法用上饱和的英伟达GPU感到「相配担忧」。
「咱们看到的是,对英伟达硬件的需求如斯之高,甚而于频频很难赢得GPU。」
现在,特斯拉似乎依旧使用英伟达的硬件为Dojo提供算力,但马斯克似乎不念念把鸡蛋齐放在一个篮子里。
尤其是琢磨到,英伟达芯片的溢价如斯之高,况兼性能还不可让马斯克透顶舒心。
在硬件与软件协同这方面,特斯拉与苹果的不雅点雷同,即应该达成两者的高度协同,尤其是FSD这种高度有利化的系统,更应该解脱高度模范化的GPU,使用定制硬件。
这个愿景的中枢,是特斯拉独到的D1芯片,于2021年发布,本年5月开动由台积电量产。
此外,特斯拉还在研发下一代D2芯片,但愿将扫数这个词Dojo块放在单个硅片上,处分信息流瓶颈。
在第二季度财报中,马斯克指出,他看到了「通过Dojo与英伟达竞争的另一条道路」。
Dojo能收效吗
即便自信如马斯克,在谈到Dojo时,也会支简陋吾地表露,特斯拉可能不会收效。
从永恒来看,开拓我方的超算硬件不错为AI部门开拓新的买卖形式。
马斯克曾表露,Dojo的第一个版块将为特斯拉的视觉数据标注和检会量身定制,这对FSD和检会特斯拉的东说念主形机器东说念主Optimus来说相配灵验。
而改日版块将更妥当通用的AI检会,但这不可幸免地要踏入英伟达的护城河——软件。
简直扫数的AI软件齐是为了与英伟达GPU合营使用,使用Dojo就意味着要重写扫数这个词AI生态系统,包括CUDA和PyTorch。
这意味着,Dojo简直唯有一条前途——出租算力,建立雷同于AWS和Azure一样的云运筹帷幄平台。
摩根士丹利在旧年9月的敷陈中预测,Dojo不错通过robotaxi和软件功绩等神色开释新的收入开首,为特斯拉的市值增多5000亿好意思元。
简言之,从现在马斯克对硬件的严慎配比来看,Dojo并非「作死马医」而更像是一种双重保障。但一朝收效,也不错开释巨大红利。