| CSDN(ID:CSDNnews)
以大模型、生成式 AI 为代表的人工智能已经进入爆发式发展阶段,正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到 AI 相关技术与应用研发中,希望能够在这个领域取得突破。各大科技公司也在不断加大在 AI 大模型领域的投入,希望能够在此领域中占据一席之地。
这就回到了绕不开的“算力”话题。面对 GPU“缺卡”的局面,国产大模型玩家们如何破局?一切还要回归到用户真正的需求:
在 6 月 28 日举办的国内 AI 技术开发顶级盛会 WAVE SUMMIT 2024 上,百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新 AI 技术与产品方案为例,展示了大模型时代,AI 算力成本高昂,以稳定性和成熟度更高的 CPU,满足多终端 AI 应用对算力严苛需求的最新实践。
七年合作渊源
共同挖掘 CPU 的 AI 算力潜能
作为 WAVE SUMMIT 战略合作伙伴的英特尔,旗下的 OpenVINO™工具套件与百度飞桨 PaddlePaddle 深度学习框架已有七年的合作渊源。现在,英特尔正在和百度一起,充分挖掘 CPU 计算资源的潜能,以 CPU 去满足模型在多终端的推理加速。
作为国内首个一站式的大模型开发和推理应用平台,百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的 LLM 支持,能够帮助用户构建各种智能应用。自去年 3 月发布以来,千帆大模型平台已有超 12 万客户使用,累计调优模型 2 万个,孵化应用 4.2 万个。这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。
百度智能云为代表的云平台中本身就部署着大量基于 CPU 的云服务器,释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。
为了提升基于 CPU 的 LLM 推理性能,百度智能云利用英特尔®至强®可扩展处理器搭载的英特尔® AMX(高级矩阵扩展)等高级硬件能力,助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。
百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择
以 Llama-2-7B 模型为例,相比在第三代至强®可扩展处理器的输出 Token 吞吐,第四代和第五代至强®分别完成了相对前代 60%和 45%的接力提升。在低延迟的场景,同等并发下,第四代和第五代至强®可扩展处理器的首 Token 时延对比前代,也分别都达到 50% 左右的下降。
Llama-2-7B 模型输出Token 吞吐逐代提升
Llama-2-7B模型首Token时延逐步优化降低
加速多端、多领域 AI 落地
英特尔的核心技术有哪些?
xFT、AMX,让千帆大模型平台用 CPU 实现 AI 推理
AI 技术和应用爆发,背后需要巨量的算力资源支撑。以大语言模型 LLM 为例,LLM 推理过程中涉及大量的、多维度的矩阵乘法计算,在不同参数量级模型、不同并发、不同数据分布等场景下,模型推理的性能瓶颈可能在于计算或者带宽,为了保证模型生成的吞吐和时延,对硬件平台的算力和访存带宽都会提出较高的要求。
新一代英特尔®至强®可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。它还可支持 HBM(High Bandwidth Memory)内存,和 DDR5 相比,具有更多的访存通道和更长的读取位宽,理论带宽可达 DDR5 的 4 倍。
在算力方面,第四代和第五代至强®可扩展处理器中还内置了英特尔® AMX 加速器,可优化深度学习训练和推理工作负载。与内置英特尔® AVX-512_VNNI 的第三代至强®相比,第四代至强®将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次,是 AVX512_VNNI 同样数据类型的 8 倍。
除此之外,会上英特尔展示的技术中,最亮眼的当属 xFT (xFasterTransformer)了。
xFT 基于英特尔® AMX 等加速指令深度优化,专为大语言模型在至强® CPU 平台推理部署设计,支持多种低精度数据类型,提供灵活 API 接口,非常方便开发者使用集成。
百度智能云千帆大模型平台已经采⽤基于 AMX 加速器和 HBM 硬件特性极致优化的 xFT 作为后端推理引擎,用户在千帆大模型平台上可以选择使用 CPU 作为计算资源,并进一步为基于 CPU 的 LLM 应用实现推理加速。方案针对超长上下文和长输出进行了优化,已经支持 Llama-2-7B/13B,ChatGLM2-6B 等主流模型部署在线服务。
千帆大模型平台可选择 CPU 计算资源进行推理服务
OpenVINO™推出 LLM 大模型专属 API,加速本地 AI 推理
另外,已经与百度飞桨实现深度集成的英特尔 AI 开发工具套件 OpenVINO™,也在最新发布的 24.2 版本中,引入了特定于 LLM 的 API,用户可以加载模型,向其传递上下文,并通过几行代码返回响应。具体来说,更简易的更新 API 隐藏了内部生成循环的复杂性,并显著减少了需要在应用程序中编写的代码量。
在内部设计中,英特尔充分调动了不同硬件的不同特性,同时使用 GPU 和 CPU 的配合来为 LLM 进行推理加速。同时,OpenVINO™的引入可在训练时充分考虑到推理,进一步提升性能,同时保持问答和翻译的准确性。
行业落地实践:
AMX 加速医疗科研等专业领域 AI 应用
会上,英特尔还分享了 AI 技术在生物医药、医疗等专业领域,如大分子计算、生物影像、单细胞组学分析、医疗大模型等等 AI 场景的实践经验。
以医疗大模型的行业应用为例,领先的医疗人工智能解决方案提供商惠每科技,就基于其临床决策支持系统(Clinical Decision Support System,CDSS) 3.0,为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。
在核心算力选择上,惠每科技选中了英特尔®至强® CPU Max 系列处理器,在硬件基座之外,英特尔还借助 IPEX-LLM 大模型库实现推理加速的低精度量化方案,以及基于 OpenVINO™ 工具套件开展的非量化优化方案,双管齐下,能让医疗大模型在至强®平台上的推理效率得到显著提升。
非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销,提供三个方面的优化,包括:利用零拷贝 (Zero-Copy) 视图来传递预分配的 KV 所需的内存副本空间,使用 OpenVINO™ opset来重构 LLM 的模型架构,以及引入 OpenVINO™ 工具套件在HuggingFace上的 Optimum 接口。
优化后,大模型方案能在英特尔®架构 CPU 平台上获得巨大性能提升,并获得与 GPU 平台相近的性能表现。例如方案在 2K 输入时,经非量化方案优化后,首词延时下降至 2.1 秒,优化幅度达 1.92 倍。平均延时下降至 47.96 毫秒每 Token,优化幅度达 3.81 倍。
英特尔非量化方案优化首词延时与平均延时性能均实现提升
结语
AI 正在加速赋能千行百业,重塑人们的生产和生活方式。如何高效地部署 AI 技术与应用的同时,获得更优性价比,是行业开发者目前重点关注的话题。
成熟、稳定,对于开发者也更加熟悉的 CPU 结合当下 AI 场景的真实需求,对软硬件协同调优,为 AI 时代算力话题提供了新的设计思路和丰富的实践案例。