Windows10系统之家 - 安全纯净无插件系统之家win10专业版下载安装

收藏本站

Windows10系统下载

Windows10系统下载

全自动无人值守

全新的视觉体验

大小:3.98 GB 版本:32位 大小:4.98 GB 版本:64位
您当前的位置:Windows10系统之家 > win10资讯 > NV发世界最强AI加速芯片,而国内只能买简配版!

NV发世界最强AI加速芯片,而国内只能买简配版!

时间:2023-12-07 15:25:49 来源:Windows10之家 作者:admin

 近期,美国商务部大幅收紧了对中国的芯片出口管制。这不仅导致NVIDIA H100等AI加速芯片被列入管制清单,无法直接出口至中国,而且旗舰级游戏卡RTX 4090也被限制。当然NVIDIA最新发布世界最强AI加速芯片H200也是不可能买到国内了。

NVIDIA拿出世界第一GPU,运算推理速度翻倍

 

 在2023年全球超算大会上,英伟达推出了全新的GPU H200。作为前代H100的升级款,H200在大模型推理表现上更出色。以700亿参数的LLama2大模型为例,H200的推理速度几乎比前代H100快了一倍,而且能耗还降低了一半。

 这种出色的成绩归功于H200的硬件升级。主要提升包括将上一代H100的显存容量从80GB提升至141GB,带宽从3.35TB/s增加到了4.8TB/s。

 

 “整合更快、更广泛的HBM内存有助于对运算要求较高的任务提升效能,包括生成式AI模型和高效能运算应用,同时优化GPU使用率和效率”NVIDIA高效能运算产品副总裁Ian Buck表示。

 

 因此,英伟达第一时间与SK海力士进行了合作,让H200第一时间用上了HBM3e现存。SK海力士官宣称,HBM3e单颗带宽可以达到1.15TB/s,相当于在一秒钟内传输了230部FHD高清电影(每部容量5G)。

 与技术升级相比,H200和H100都基于英伟达Hopper架构打造,这使得两款芯片可以互相兼容。那些已经使用H100的企业不需要进行调整,可以直接更换。

 

 然而,尽管乍一看好像是王炸,但实际上H200可能只是H100的一个中期改款。因为我们发现,H100和H200在峰值算力方面实际上是相同的。真正提升的参数只有显存和带宽。

 

 在此之前,人们常用来评判AI芯片性能的重要参数是训练能力。然而,H200相较H100的提升并不明显。根据英伟达给出的数据,在GPT-3 175B大模型的训练中,H200只比H100强了10%。

 

 这种操作很可能是有意为之。之前各个大厂忙着打造自家的大模型,对GPU最大的需求无疑是训练能力。因此,当时大家的需求是提升训练能力。如今,随着AI大语言模型不断落地应用,训练模型在厂商眼中可能已经不再重要,大家反而全去卷推理速度。因此,这次H200很可能是故意忽略“算力”升级,转而专注于推理方面的发力。

 

 根据瑞杰金融集团的估计,H100芯片的售价在2万5千至4万美元之间,那么加量后的H200只会更高。如今像亚马逊、谷歌、微软和甲骨文等大厂的云部门已经付完钱排着队等待明年H200的交货。所以明年H200的销量根本不用愁。更夸张的是,英伟达方面还说了,推出H200不会影响H100的扩产计划。也就是说明年英伟达仍然打算销售2百万颗H100芯片,这也间接说明了AI芯片是多么不愁卖。

 

性能暴降,英伟达在国内只能买简配版AI芯片

 

 尽管在海外市场上,NVIDIA高性能显卡销售火爆,但因美国最近加强的芯片管制措施,限制了高端芯片或含有这些芯片的设备出口到中国,NVIDIA在中国市场的销售前景变得非常严峻。

 

 这主要是受到了美国商务部于2022年10月发布的出口管制清单的影响。清单规定,需获得美国政府许可才能出口性能达到特定门槛的AI芯片到中国。这直接影响到了NVIDIA的部分高端制图芯片,包括GeForce RTX 4090和RTX 4080游戏显卡。使得中国普通消费者也无法使用NVIDIA最新一代的旗舰级显卡。同时,采用这些芯片的高端游戏笔记本和工作站也无法正常出口至中国。这对NVIDIA来说无疑是巨大的销售损失。

 

 于是,NVIDIA针对中国开发三款芯片,包括HGX H20、L20 PCle和L2 PCle,主要由H100改良而来,并已向合作伙伴提供芯片样品,11月16日开始接受订单,正好是美国最新AI芯片管制实施的时间,12月首批出货。

 值得注意的是,这三款中国特供版显卡芯片将焦点从GPU之间的互连互通转移到运算能力,不仅影响数据中心GPU,还会影响RTX 4090等显卡。

 

 HGX H20和L20系列现已正式向中国客户推出,与前代产品相比,计算能力有所降低。H20 GPU拥有96GB HBM3内存,内存带宽为4.0TB/s,居然比H100带宽更高。

 

 基于AD102GPU的L20GPU配备了48GB GDDR6显存。这些解决方案有意限制计算能力,以确保GPU的性能不超过4800TOPS。

 

国产GPU加速自主研发,打造信息技术自主可控体系

 

 近日,龙芯中科合肥通用GPU芯片总部基地正式启用,这标志着国产GPU芯片研发进入新的阶段。作为我国自主可控通用计算芯片的重要组成部分,国产GPU将助力构建自主可控的信息技术体系。

 

 龙芯中科表示,经过20多年发展,已基本完成对X86和ARM架构的“赶考”,建立起与国际主流芯片并驾齐驱的软硬件基础能力。在此基础上,GPU作为龙芯生态建设的重要一环,已经取得重大突破。

 首款自研GPU LG100已在龙芯服务器CPU中实现商用,第二代LG200也在加速开发中。未来,龙芯GPU将涵盖图形、科学计算和AI运算等功能,并兼容主流图形和计算接口,为用户提供通用计算解决方案。

 

 相比国外GPU厂商,龙芯GPU更侧重与自主CPU形成系统优化和协同创新。这有助于构建自主可控、安全可靠的IT基础设施,降低关键信息系统对外方芯片的依赖。

 

 在新一轮科技竞争与合作的大背景下,国产GPU的崛起将对我国芯片产业形成有力补充,推动形成安全自控的技术生态体系。这是实现技术自立自强的重要一步。