英伟达Orin会不会被禁止,Thor很可能被禁止

  • 2023/10/25

“履霜,坚冰至;履霜坚冰,阴始凝也”。驯致其道,至坚冰也。最初A100和H100被禁,有了A800和H800,然后A800和H800也被禁止了,再之后消费级的RTX4090也被禁止了。虽然RTX8090显卡仍可以销售,但RTX4090的芯片被禁止了,换句话说以后RTX4090只有进口的了,几年前如果有人说RTX4090芯片会被禁止,肯定会被嗤之以鼻,不可能,但现在确实发生了。

北京时间2023年10月17日晚间,美国政府公布了《临时最终规则》,对于高性能计算芯片对华出口限制规则进行了升级,该规则将于11月17日生效。10月18日,英伟达NVIDIA)依照上市公司规则提交了“8-K文件”,对于与其相关的限制政策及影响进行了说明。

美国商务部工业与安全局(BIS)最新公布的《临时最终规则》修订了ECCN 3A090和4A090,并对向中国和国家组D1、D4、D4和D5(包括但不限于沙特阿拉伯、阿拉伯联合酋长国和越南,但不包括以色列)的出口,规定了额外的许可证要求。原始文件有295页,相信大部分人都没仔细看一遍。

根据修订后的ECCN 3A090、4A090新规,对高性能计算芯片做了限制:

增加了“性能密度阈值”的判定,与之相关的是改用“总体处理性能”(TPP,Total ProcessingPerformance)以代替此前传统的算力单位TOPS。在现有新规下,算力大于一定阈值,或算力与性能密度同时分别达到某一阈值,都将触发出口管制。

“总处理性能”TPP的计算方式为2דMacTOPS”ד操作的位长度”,“性能密度”为“总处理性能”除以“适用的芯片单元(die)面积”。对于美国现有规定而言,“适用的芯片单元面积”以平方毫米为单位。其中,die(晶片)指的是包含一个或多个集成电路(IC)的单块半导体材料。它是在制造过程中从更大的晶圆中切割出来的单个片段。然后通常会将这个晶片封装到芯片载体中。

如果相关芯片设计及销售不用于数据中心,其限制阈值是“总体处理性能”大于等于4800,或总处理性能大于等于1600且“性能密度”达到5.92;如果相关芯片用于数据中心,其“总体处理性能”介于2400至4800之间,且“性能密度”介于1.6至5.92之间,或“总体处理性能”高于1600,且“性能密度”介于3.2至5.92之间,均会触发出口管制。

这里的性能密度PD(Performance Density)指的是TPP指标除以芯片面积(单位:mm²),这里所指的芯片面积包括逻辑运算芯片所占的所有面积,也包括使用非平面晶体管架构工艺节点制造的逻辑芯片

美国还表示,将制定一份新的“灰名单”,要求某些不太先进芯片的制造商在向中国、伊朗或其他受到美国武器禁运的国家(D:5国家组)出售芯片时通知政府。

INTRODUCING ORIN

图片来源:英伟达

而Orin最高是275TOPS@INT8,即2*275*8=4400,Orin有多个版本,国内版本一般Orin是254TOPS。

图片来源:英伟达

这是国内最常见的,型号可能是Orin T239,其TPP为2*254*8=4064。最关键的就是Orin的die size了,英伟达未公开过,但英伟达公布过Orin的制造工艺和晶体管数量,从中可以大致推算出其die size。此外,https://twitter.com/SkyJuice60/status/1539489608047955969里说Orin的die size是445平方毫米,4064/445=9.13,显然高于5.92了。不过BIS文件里写明是原始计算模式,像英伟达Orin的GPU,其原始计算模式是FP32,算力仅为5.2TOPS,INT8模式下才167TOPS。所以TPP应该是2*87*8+2*5.2*32=1724.8,那么密度为1724.8/445=3.36,似乎是过关了。不过Orin的die size到底是多大?

Orin采用三星的8纳米LPP工艺,三星在2018年的VLSI大会上对8纳米LPP工艺做了说明,https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/,为了降低成本,三星的8纳米LPP没有采用EUV光刻机

图片来源:三星

三星没有明确指出8纳米LPP的晶体管密度是多少,不过给出了UHD的密度是61.18百万晶体管/平方毫米,文章里有一句话“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是说8纳米LPP就是UHD,Orin是170亿晶体管,如果密度是65.18百万晶体管/平方毫米,那么其die size就是17000/65.18=260.8平方毫米,1724.8/260.8=6.61,显然超过了5.92的上限。不过这个密度只是理论值,实际会有打折,大致会有10-20%的折扣,如果是10%的折扣那么性能密度值就是5.95。

英伟达下一代车载SoC即Thor肯定满足第一项。

Thor最大算力是2000TOPS@INT8,即2*2000*8=16000,远超TPP规定的4800的阈值。但Thor的细节还不为人知,应该接近英伟达的H100,应该还是近似Orin的配置,一半算力由CUDA核提供,一半由TENSOR提供,无论如何也会超过4000,更何况其是台积电5nm或4nm工艺,晶体管密度至少是1.24亿个/平方毫米,肯定会超过5.92上限。

高通的SA8650据说是100TOPS@INT8算力,TPP就是1600,且SA8650是台积电4nm工艺,4LPE晶体管密度是1.36亿个/平方毫米,远超三星的8纳米。肯定会超过5.92上限,不过这很好解决,将AI频率略微降低一点就可以低于1600。

短期内,Orin应该没有问题,或者处在灰色地带;Thor也可以更改设计,降低算力或采用比较落后的制造工艺,后者可能导致成本大涨,甚至无法实现,单一芯片光刻面积一般无法超过880平方毫米。

如果Thor被禁止,如何取得1000TOPS以上算力,很多人会提起多个Orin级联。

不过没那么简单,4个Orin级联就是4倍算力,实际远远做不到。

图片来源:英伟达

这是英伟达的DGX-H100拓扑,连接了8张H100卡。

要想8张H100就算力翻倍,需要复杂的网络拓扑,包括英伟达的独门武器NVLink,还需要PCIe交换机。NVLink是显卡之间点对点连接,连接CPU还需要PCIe交换机。

PCIe与NVLINK的对比

来源:公开资料整理

PCIe与NVLINK实际两者是一样的技术,NVLINK的物理层与PCIe一致,但NVLINK无需考虑各个厂家之间的互联互通,所以不断增加lane数量。所以x18的NVLink 3.0,数据速率25 Gbit/s,双工50Gbit/s,总带宽就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是单通道两对差分线,一对发送一对接收。PCIe 5.0信号速率32GT/s,128/130b,x16单向带宽就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理论上,对于实现全双工的PCIe设备,可以提供126GB/s的双向带宽。单单从信号线路数量来说,x16的PCIe和x2的NVLink是相同的,都是32对差分线。x2的NVLink 3.0双向带宽是100 GB/s,比PCIe 5.0 x16的126 GB/s要低。NVLink牺牲了功耗换来了高带宽。

除非Orin能用上NVLink,否则做不到4个级联就增加4倍算力。不过,Orin自然是不支持NVLink,只能退而求其次用PCIe,Orin有4代PCIe接口,16 lane,也就是最高32GB/s带宽,和NVLink高达900GB/s的带宽比差距巨大。然而,即使是PCIe交换机也有一个麻烦,那就是PCIe交换机价格很高,64lane的PCIe交换机大约350美元。这样4个Orin通过PCIe级联,大概能有2-2.5倍的算力。当然也可以用便宜的以太网交换机,不过带宽通常只有1.25GB/s,用这样的以太网交换机连接4个Orin,实际效果估计算力增加很少,因为AI计算极度消耗带宽。

要解决问题,还是得靠自己,不能把命运放在别人手中。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

人工客服
(售后/吐槽/合作/交友)
  • 器件型号:MVF61NN151CMK50
    • 数量 1
    • 建议厂商 NXP Semiconductors
    • 器件描述 RISC MICROCONTROLLER
    • 参考价格 $28.07
    • 风险等级
    • ECAD模型
    • 数据手册
    • 查看更多信息
  • 器件型号:STM32F429IGT6
    • 数量 1
    • 建议厂商 STMicroelectronics
    • 器件描述 High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT
    • 参考价格 $14.94
    • 风险等级
    • ECAD模型

      ECAD模型

      下载ECAD模型
    • 数据手册
    • 查看更多信息
  • 器件型号:AT89C51ED2-RDTUM
    • 数量 1
    • 建议厂商 Microchip Technology Inc
    • 器件描述 IC MCU 8BIT 64KB FLASH 64VQFP
    • 参考价格 $18.07
    • 风险等级
    • ECAD模型

      ECAD模型

      下载ECAD模型
    • 数据手册
    • 查看更多信息

相关资讯

  1. 1.
  2. 2.
  3. 3.
  4. 4.
  5. 5.
  6. 6.
  7. 7.
  8. 8.
  9. 9.
  10. 10.
  11. 11.
  12. 12.
  13. 13.
  14. 14.
  15. 15.
  16. 16.
  17. 17.
  18. 18.
  19. 19.
  20. 20.
查看全部20条内容