英伟达不怕

文章正文
发布时间:2024-09-12 12:56

在黄仁勋沉溺于展示 RTX 技术给游戏画面带来的惊艳改变之前,他首先隆重介绍了舞台侧面的技术演示团队,「这是我的技术团(tech band),我们就像支乐队(band),全球巡回(演出)。」

11 月 21 日苏州金鸡湖会议中心,会场还没开门就排起了密密麻麻的长队。开场前,屏幕上硕大的 logo 照亮了整齐坐好的前排观众,他们头顶绿光,兴奋难耐,宛如邪教现场。演讲开始,观众席一阵狂热的欢呼与亢奋,自比乐队的「教主」黄仁勋受到了摇滚明星般的礼遇。

「知道什么是程序员的天堂吗?」我的同事感叹道。比起技术大会,GTC 更像是一次粉丝的狂欢节,黄仁勋就是那个舞台上风光无二的乐队主唱。


「世界上最棒的工作」

「乐队」带来的第一场表演,是一款有着英伟达最新推出的「光线追踪」技术加持的中国风游戏「逆水寒」,这是中国第一款 RTX 游戏。

黄仁勋演示了一段游戏画面,雨后江南小镇的集市上,石板路上残余的水渍倒映着街边小摊撑起的灯笼,光滑程度不均的剑客铠甲和一瞬间掠过的刺客匕首都反射着实时变化的光线……黄仁勋突然叫停:「看一下关掉 RTX 会怎样。」

游戏世界在一瞬间失去了光彩,路面、刀身和铠甲反射的光线失去了原本的灵动,全场哗然,黄仁勋藏不住骄傲,「再打开!」

「关掉,打开,再关掉,再打开,」伴随着观众极其配合的惊叹声,舞台上的黄仁勋玩嗨了,「我可以这么玩一天,太有趣了。」

「我们拥有世界上最棒的工作。」演示结束,黄仁勋意犹未尽。

光线追踪是英伟达今年夏天刚刚发布的技术,它可以模拟光线的物理行为,取代传统渲染技术使用的粗糙近似值,实现实时模拟光线在场景周围真实反射、照亮物体、改变色调,并最终进入用户眼睛的过程。

图像技术背后是英伟达同时发布的第八代 GPU 架构 Turing(图灵)。它包含三款处理器,基本的可编程着色器、负责光线追踪的 RT Core 以及一款名为 Tensor Core 的 AI 处理器。凭借超过 100 TFLOPS 的处理速度,Turing 可以对深度学习模型进行处理,进而生成特效,增强图像的质量,或者制作 AI 角色动画等等。

黄仁勋还展示了抗锯齿技术 DLSS(深度学习超级采样)加持的 RTX 20 系列 GPU 在性能上实现的突破。Turing DLSS 由两个模型组成,其中一个模型经训练后可以根据原始图像生成超高画质的图像,另一个则主要针对分辨率优化训练,如此一来,图灵架构的 Tensor Core 就可以同时实现高画质和高帧率的效果。现场黄仁勋表示,支持 DLSS 的 Turing 架构的 RTX20 系列 GPU 可以实现 1.8 倍的性能提升,带来的结果是,499 美元的 RTX 2070 运行速度甚至超过了 699 美元 Pascal 架构的 GTX 1080 Ti。


The more you buy, the more you save

和往届的 GTC 稍有不同的是,图形处理只是开场的热身,英伟达把更多的时间留给了加速计算。

挑起话题的还是摩尔定律的失效。CPU 的增长速度逐渐放缓,越来越难以满足当下计算科学的需求,为此,十年前英伟达提出了「加速计算」的概念,时至今日加速计算依然保持着较高的迭代速度。

英伟达对软件堆栈、芯片架构、系统软件、算法、应用程序进行了重新设计,通过自下而上的全堆栈解决方案突破 GPU 的算力瓶颈。「这就是为什么,英伟达是一家软件和算法的公司。」为了应对如今 AI 研究、训练对算力的旺盛需求,英伟达针对 HPC(高性能计算机)和超大规模数据中心这两种计算形式,推出了自己的应对方案。

HGX-2 GPU 是英伟达专为 AI 深度学习、机器学习和高性能计算打造的加速服务器平台,它在单节点中能够提供 2000 万亿次的计算性能,对比仅仅使用 CPU 的服务器,HGX-2 运行机器学习时的工作负载提高了 550 倍。黄仁勋从舞台侧面掏出这款巨大的 GPU 母版,「这是我臂力的极限了,」他单手托举着 HGX-2 说道,「这台电脑将取代 400 个服务器。」现场掌声和尖叫声哗然而起。

「不是很便宜的。」黄仁勋突然打趣地用中文说道,他说数据科学家是现在薪水最高的工程师,「他们的工作是最有价值的,这就是他们的工具,这会增加他们的生产力。」台下的观众纷纷表示认同。

目前,已有多家中国科技公司开始采用这款 GPU 加速平台,英伟达在现场发布了百度、腾讯、浪潮、联想、华为和曙光等大公司与英伟达就 HGX-2 服务器达成合作的关系,其中,百度和腾讯将使用 HGX-2 为内部应用和云计算服务的客户提供 AI 计算服务。

超大规模数据中心方面,黄仁勋展示了英伟达的 Tesla T4 云 GPU,不同于体积大到难以单手托起的 HGX-2,T4 的体积很小,「只有糖果盒那么大」,功耗更是比一块 CPU 还要小。「但是它的性能,跟一个做深度学习的 CPU 相比,它的性能是其 300 倍。」欢呼一片。

通过 Kubernetes 容器系统和服务器系统对 GPU 进行运算和整体使用率的优化,用户可以在诸多 GPU 上同时运行任何一个算法模型,从而最大化数据中心的使用率。

现场,黄仁勋手上的 T4 芯片在 30 天前才刚刚开始量产,现在已有浪潮、华为、联想、曙光、浪潮和新华三等中国服务器公司采用了这款产品,是英伟达史上普及最快的 GPU。

摩尔定律的消亡之外,人工智能的兴起是英伟达捕捉到的另一重要趋势,其背后最为流行的机器学习和深度学习,自然也会受到研究计算科学的英伟达的关注。

一周前,英伟达发布了一个 GPU 加速的开源平台 RAPIDS,专为大规模的数据分析和机器学习设计,数据科学家们可以在 GPU 上运行数据科学管线,从而大幅度地蒜段数据集处理时间。

在中国,三家 AI 医疗公司最先开始了对 RAPIDS 平台的使用。平安集团旗下的平安科技在使用 RAPIDS 之后,在研究欺诈检测和预测人群疾病等业务上,执行速度加快了 80 倍,数据加载和训练时间从几天缩短到几个小时。国内最大的基因公司华大基因的 AI 团队在英伟达 DGX-1 AI 超算上运行 RAPIDS 平台,分析速度提高了 17 倍,将多肽的分析范围扩大至几百万种。垂直做数字化健康业务的创业公司碳云智能在腾讯云的服务器上部署了 RAPIDS,将其对微生物组的数据分析速度加快了 6 倍。

算力对 AI 研究的改变是立竿见影的,「前后对比一下,买得越多,省的钱就越多。」(The more you buy, the more you save)英伟达头号销售黄仁勋说道。


「自动化这个世界」

演讲的第三部分,是英伟达近两年才刚刚开始布局的「自主机器」领域。

针对自动驾驶、机器人等 AI 落地应用,英伟达在 2017 年推出了一款 AI 芯片 Xavier,目前这款芯片已经进入量产阶段。

为了这款芯片的多个应用领域,英伟达相应地开发了多款加速堆栈。用于智能成像仪的 Clara,视频流分析应用程序的 Metropolis,机器人技术的 Isaac 以及自动驾驶汽车的 DRIVE。

其中 Isaac 平台在国内与京东、美团和菜鸟达成了合作,开发「最后一公里」的配送机器人、无人机等等。

自动驾驶技术领域,英伟达的「全软件堆栈」的自动驾驶系统 Drive OS 为客户提供从芯片到软件的端到端的解决方案。但英伟达也意识到,凭借自己的能力并不能完全解决自动驾驶的难题,「造车」领域有着非常多的困难,因此它选择向客户提供一个三层的开放平台,底层是硬件体系,第二层是基于 CUDA 架构的软件体系,最后一层是整体的自动驾驶系统,用户可以自己进行选择和取舍。

在国内,英伟达与卡车制造商达成了合作,智加科技和满帮集团都使用了英伟达的自动驾驶计算系统。自动驾驶初创公司 AutoX 也与英伟达达成了合作,推进其 L4 级别配送技术的研究。

新造车方面,国内小鹏汽车、奇点汽车和 SF Motors 都与英伟达达成了无人驾驶技术的合作,开始使用英伟达 DRIVE AGX 自动驾驶平台推进自动驾驶技术的落地。


暂时的「矿难」,永恒的计算

在苏州 GTC 开幕的几天前,英伟达刚刚遭遇了一次股价的腰斩。

近来加密货币的热度渐低,受到挖矿热潮照顾许多的英伟达「矿机」销量受到打击,甚至出现了严重的库存危机,加上近来刚刚发的 RTX20 系列显卡被曝存在设计问题,英伟达的股价在季度财报发出之后经历了连续暴跌。

在 GTC 现场,记者向英伟达的高管团队抛出了股价暴跌的问题,负责市场运营的全球执行副总裁 Jay Puri 笑着说,「看来你们都注意到我们的股票跌了」。在座的高管团队相视淡然一笑。

Puri 表示,「加密货币」业务确实对英伟达造成了超出预期的负面影响,但如 CEO 黄仁勋在演讲中提到的,加密货币对英伟达而言是与游戏完全不同的业务,英伟达会更加专注于游戏玩家用户群,进而减少加密货币对公司总体业绩的影响。

可以看到,虽然「矿机」显卡的销量仍然是对公司收入影响最大的一个变量,但英伟达早已看向更远的地方。在苏州 GTC 的现场,英伟达和黄仁勋的重点都在计算和 AI 领域。「股价并不是英伟达奋斗的目标,我们认为不断推动整个计算的发展是非常重要的,我们持续服务于游戏、高性能计算、人工智能、自动驾驶、智能机器人等创新,我们相信这些工作做好了,股价也不是问题。」

「未来 1-2 个季度,相信你们会看到一个形势走好的情况。」Puri 补充说道。