·英伟达GH200 Grace Hopper超级芯片首次亮相影响力最广的国际AI性能基准评测——MLPerf行业基准测试。在此次测试中, GH200每芯片性能优势比H100 GPU高出17%。
·为提高大型语言模型(LLM)的推理性能,英伟达推出一款能够优化推理的生成式AI软件——TensorRT-LLM,其能够在不增加成本的情况下将现有H100 GPU的推理性能提升两倍以上。
当地时间9月11日,推出不到两个月的英伟达GH200 Grace Hopper超级芯片首次亮相MLPerf行业基准测试。在此次测试中,具有更高的内存带宽和更大的内存容量的GH200与H100 GPU相比,性能高出17%。
在新闻发布会上,英伟达人工智能总监戴夫·萨尔瓦托(Dave Salvator)表示:“Grace Hopper表现出色,首次提交的性能比H100 GPU性能高出多达17%,而我们的H100 GPU产品已经在所有的领域取得了领头羊。”
MLPerf是影响力广泛的国际AI性能基准评测,其推理性能评测涵盖使用广泛的六大AI场景,比如计算机视觉、自然语言处理、推荐系统、语音识别等,每个场景采用最主流的AI模型作为测试任务,每一任务又分为数据中心和边缘两类场景。其由MLCommons(由来自学术界、研究实验室和行业的人工智能领导者组成的联盟)开发,旨在对硬件、软件和服务的训练和推理性能“构建公平和有用的基准测试”。
此次MLPerf Inference v3.1基准测试是继4月发布3.0版本之后的又一次更新,有必要注意一下的是,这次更新包含了两个第一次:引入基于60亿参数大语言模型GPT-J的推理基准测试(AI模型的大小通常根据它有多少参数来衡量)和改进的推荐模型。
GPT-J是来自EleutherAI的OpenAI GPT-3的开源替代品,现已在MLPerf套件中用作衡量推理性能的基准。与一些更先进的人工智能模型(如1750亿参数的GPT-3)相比,60亿参数的GPT-J属于相当轻量的模型,但它很适合推理基准的角色。该模型总结了文本块,并可在延迟敏感的在线模式和吞吐量密集型的离线 Grace Hopper超级芯片在GPT-J工作负载方面取得了优异的成绩,在离线与服务器场景中的每加速器性能都达到了顶配水平。据英伟达介绍,GH200 Grace Hopper超级芯片是专为计算和内存密集型工作负载而设计,它在最苛刻的前沿工作负载上提供了更高的性能,如基于Transformer的大型语言模型(具有数千亿或数万亿参数)、具有数万亿字节嵌入表的推荐系统和矢量数据库。
GH200 Grace Hopper 超级芯片的逻辑概述。来源:英伟达
GH200超级芯片最新版由英伟达CEO黄仁勋在8月的世界顶级计算机图形学会议SIGGRAPH上公布。之所以称其为超级芯片,因为它在同一块板上将英伟达Grace中央处理单元(CPU)和Hopper图形处理单元(GPU)连接在一起。借助新型双GH200服务器中的NVLink,系统中的CPU和GPU将通过完全一致的内存互连进行连接。这种组合提供了更大内存、更快带宽,能够在CPU和GPU之间自动切换计算所需要的资源,实现性能最优化。
萨尔瓦托说:“如果GPU非常忙碌,而CPU相对空闲,我们大家可以将功率预算转移到GPU上,以允许它提供额外的性能。通过拥有这个功率余地,我们大家可以在整个工作负载中保持更好的频率驻留,从而提供更多的性能。”
TensorRT-LLM能够在不增加成本的情况下将现有H100 GPU的推理性能提升两倍以上。来源:英伟达
此外,为提高大型语言模型(LLM)的推理性能,英伟达推出一款能够优化推理的生成式AI软件——TensorRT-LLM,其能够在不增加成本的情况下将现有H100 GPU的推理性能提升两倍以上。重要的是,该软件能轻松实现这种性能改进,而不需要重新训练模型。
英伟达称,由于时间原因,TensorRT-LLM没有参加8月的MLPerf提交。据英伟达的内部测试,在运行60亿参数GPT-J模型时,相较于没用TensorRT-LLM的上一代GPU,在H100 GPU上使用TensorRT-LLM可以在一定程度上完成8倍的性能提升。
欧预赛:意大利5-2北马其顿,基耶萨双响+若鸟失点,末轮打平出线!莱万生死战直接摆烂:0射正,0过人,提前无缘欧洲杯
欧洲央行行长呼吁扩大欧盟证券监督管理的机构权力,提议构建“欧洲证券交易委员会”
联想发布ThinkVision 27 3D显示器:4K分辨率 2D/3D可切换
AMD R9 8940HS 移动处理器曝光:R9 7940HS 马甲型号
女生内急进了“教师厕所”,老师却问“你配吗”,这线岁妈妈提前退休考研,成女儿学姐
50位传奇科学家的人生故事,50个孩子就能做的同款实验,从科学桥梁书开始,激发学习的热情!