科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

揭秘NVIDIA大模型推理框架:TensorRT-LLM

揭秘NVIDIA大模型推理框架:TensorRT-LLM
2024-11-04 09:06:06 来源:今日热点网

TensorRT-LLM 是 NVIDIA 用于做 LLM 的可扩展推理方案。该方案是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,然后利用 NCCL 完成设备之间的通讯。考虑到技术的发展和需求的差异,开发者还可以定制算子来满足定制需求,比如基于 cutlass 开发定制 GEMM。TensorRT-LLM 是一款致力于提供高性能并不断完善其实用性的 NVIDIA 官方推理方案。

TensorRT-LLM 已经在 GitHub 上开源,主要分为两个分支,即 Release branch 和 Dev branch。其中 Release branch 每个月更新一次,而在 Dev branch 中则会较为频繁地更新来自官方或社区中的功能,方便开发者体验、评估最新功能。

重要特性:

•丰富的模型支持

•FMHA(fused multi-head attention)kernel 的实现

•量化技术,以更低精度的方式实现推理加速

• In-flight batching

使用流程:

首先需要获得一个预训练好的模型,然后利用 TensorRT-LLM 提供的 API 对模型计算图进行改写和重建,接着用 TensorRT 进行编译优化,然后保存为序列化的 engine 进行推理部署。

以 Llama 为例首先安装 TensorRT-LLM,然后下载预训练模型,接着利用 TensorRT-LLM 对模型进行编译,最后进行推理。

对于模型推理的调试,TensorRT-LLM 的调试方式与 TensorRT 一致。由于深度学习编译器,即 TensorRT,提供的优化之一是 layer 融合。因此,如果要输出某层的结果,就需要将对应层标记为输出层,以防止被编译器优化掉,然后与 baseline 进行对比分析。同时,每标记一个新的输出层,都要重新编译 TensorRT 的 engine。

对于自定义的层,TensorRT-LLM 提供了许多 Pytorch-like 算子帮助用户实现功能而不必自己编写 kernel。如样例所示,利用 TensorRT-LLM 提供的 API 实现了 rms norm 的逻辑,TensorRT 会自动生成 GPU 上对应的执行代码。

如果用户有更高的性能需求或者 TensorRT-LLM 并未提供实现相应功能的 building blocks,此时需要用户自定义 kernel,并封装为 plugin 供 TensorRT-LLM 使用。示例代码是将 SmoothQuant 定制 GEMM 实现并封装成 plugin 后,供 TensorRT-LLM 调用的示例代码。

未来展望:

NVIDIA 将会持续致力于提升 TensorRT-LLM 的性能。同时通过开源,收集反馈和意见,提高它的易用性。另外,围绕易用性,会开发、开源更多应用工具,如 Model zone 或者量化工具等,完善与主流框架的兼容性,提供从训练到推理和部署端到端的解决方案。


关键词:

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com
关键词:

老村落的新惊喜:一台洗碗机引发的时空对话

2024-10-25 16:50:06老村落的新惊喜:一台洗碗机引发的时空对话

知道创宇入选JXCERT网络安全应急技术支撑单位

2024-10-23 14:43:58知道创宇入选JXCERT网络安全应急技术支撑单位

《全球数字契约》开启全球多边数字治理新篇章

2024-10-22 18:28:59《全球数字契约》开启全球多边数字治理新篇章

“民营企业进边疆”在和田:安徽省工商联调研“玉出东山”

2024-10-18 19:08:51“民营企业进边疆”在和田:安徽省工商联调研“玉出东山”

统一出席2024世界农业科技创新大会 分享做客户和地球都爱的产品!

2024-10-15 17:14:23统一出席2024世界农业科技创新大会 分享做客户和地球都爱的产品!

知道创宇蝉联“2024北京民营企业科技创新百强”

2024-10-11 09:23:21知道创宇蝉联“2024北京民营企业科技创新百强”

相关新闻

最新资讯