英特尔Habana Gaudi2加速器为大型语言模型提供英伟达替代方案
据该公司发布的新闻稿称,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 3.0 基准测试中展示了令人印象深刻的结果。该基准由 MLCommons 发布,是广泛认可的人工智能性能行业标准。
结果挑战了业界盛行的说法,即生成式 AI 和大型语言模型 (LLM) 只能在 NVIDIA GPU 上运行。英特尔的人工智能解决方案组合为寻求摆脱限制效率和可扩展性的封闭生态系统的客户提供了有竞争力的替代方案。
什么是 MLPerf?
MLPerf Training 3.0基准套件测量不同系统训练模型以满足指定质量指标的速度。这些基准涵盖视觉、语言和商业等各个领域,并使用不同的数据集和质量目标。
在视觉领域,基准测试包括使用 ImageNet 数据集进行图像分类,质量目标为 75.90% 的分类准确率。该任务的参考模型是ResNet-50 v1.5。其他视觉基准包括使用 KiTS19 医学数据集的图像分割以及使用 Open Images 和 COCO 数据集的对象检测。
对于语言任务,基准测试包括使用 LibriSpeech 数据集进行语音识别,质量目标为 0.058 字错误率。该任务的参考模型是 RNN-T。其他语言基准包括使用维基百科 2020/01/01 数据集的自然语言处理 (NLP) 和使用 C4 数据集的大语言模型 (LLM) 训练。
在商业领域,基准测试是使用 Criteo 4TB 多热数据集的推荐任务,质量目标为 0.8032 AUC。此任务的参考模型是 DLRM-dcnv2。
测量指标
基准套件测量在特定数据集上训练模型以达到指定质量目标的时间。由于机器学习训练时间固有的可变性,最终结果是通过多次运行基准测试、丢弃最高和最低结果,然后对剩余结果取平均值来获得的。尽管如此,结果仍然存在一些差异,成像基准测试结果有大约 +/- 2.5% 的差异,其他基准测试有大约 +/- 5% 的差异。
基准部门
MLPerf 通过允许参与者重新实现参考实现来鼓励软件和硬件创新。MLPerf 中有两个部分:封闭部分和开放部分。封闭划分旨在直接比较硬件平台或软件框架,并需要使用与参考实现相同的模型和优化器。另一方面,开放部门鼓励开发更快的模型和优化器,并允许任何机器学习方法实现目标质量。
系统可用性
MLPerf 根据系统可用性对基准测试结果进行分类。分类为“可用”的系统仅包含可在云中购买或租用的组件。“预览”系统预计将在下一轮提交中提供。最后,分类为“研究、开发或内部 (RDI)”的系统包含实验性、开发中或供内部使用的硬件或软件。