科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

Yandex研发人员开发压缩大型语言模型新方法,可将AI部署成本降低多达 8 倍

Yandex研发人员开发压缩大型语言模型新方法,可将AI部署成本降低多达 8 倍
2024-08-02 12:53:09 来源:中华网

Yandex研发团队与来自IST Austria、NeuralMagic和KAUST的研究人员合作,开发了两种针对大型语言模型的创新压缩方法:语言模型的加性量化 (AQLM) 和 PV-Tuning。这两种方法结合使用时,可将模型大小减少多达8倍,同时保持95%的响应质量。这些方法旨在优化资源,并提高运行大型语言模型的效率。详细介绍此方法的研究文章已在近期在奥地利维也纳举行的国际机器学习大会 (ICML) 上发表。

AQLM 和 PV 的主要特点

在消费类硬件上部署大型语言模型是具有挑战性的,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但往往会影响模型性能。

AQLM利用传统上用于信息检索的加性量化来进行大型语言模型的压缩,可将每个模型参数的比特数减少到2-3比特,该方法可在极端压缩的情况下保持甚至提高模型的准确性,从而使得在家用电脑等日常设备上部署大型语言模型成为可能。这也显着减少了内存消耗。AQLM的关键创新包括权重矩阵的学习加性量化,以适应输入的可变性,以及对跨层块的码本参数进行联合优化。这种双重策略使 AQLM 能够超越其他压缩技术,在该领域树立了新的基准。

PV- Tuning是一个与表示无关的框架,它概括并改进了现有的微调策略,可解决模型压缩过程中可能出现的错误。PV-Tuning在有限情况下提供收敛保证,并且在 Llama 和 Mistral 等高性能模型上用于1-2 位矢量量化时,其性能已被证明优于以前的方法。通过利用 PV-Tuning,研究人员首次实现了 Llama 2 模型每个参数 2 比特的帕累托最优量化。

当AQLM 和 PV-Tuning 结合使用时,可获得最佳结果——即使在有限的计算资源下,也能提供高质量响应的紧凑模型。

方法评估与认可

研发团队使用LLama 2、Llama 3、Mistral 等流行的开源模型,对这些方法的有效性进行了严格评估。研究人员通过对这些大型语言模型进行压缩,并根据英语基准(WikiText2 和 C4)评估答案质量,在模型压缩 8 的情况下,仍获得了令人印象深刻的95% 的答案质量

图片1.png

* 测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上图的数字显示了两种方法的综合结果,模型平均压缩了 8 倍。

AQLM的实用性还通过其在 GPU 和 CPU 架构上的实现得到了证明,使其适用于实际应用。比较分析表明,AQLM可以在不影响模型性能的情况下实现极限压缩,这一点可以从其在零样本任务中的模型复杂度和准确性等指标上取得的优异结果得到证实。

谁可以从 AQLM 和 PV-Tuning中受益

新方法为参与开发和部署专有语言模型和开源大语言模型的公司节省了大量资源。例如,具有 130亿参数的 Llama 2 模型在压缩后,现在只需1个 GPU(原先需要4个)就可以运行,硬件成本降低高达8倍。这意味着初创公司、个人研究人员和大语言模型爱好者可以在他们日常使用的计算机上运行 LLama 等高级大语言模型。

探索新的大语言模型应用

AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,从而为智能手机、智能音箱等提供了新的使用场景。通过集成先进的大语言模型,用户可以使用文本和图像生成、语音辅助、个性化推荐,甚至实时语言翻译,而无需激活互联网连接。

此外,因为所需的计算更少,使用这些方法压缩的模型运行速度可提高多达4倍

实施与访问

全球的开发人员和研究人员已可以使用 AQLM 和 PV-Tuning,这两种大型语言模型压缩方法都可在GitHub上获取。作者提供的演示材料为各种应用提供了有效的压缩大语言模型指导。此外,开发者还可以下载已经使用这些方法压缩过的流行开源模型。

国际机器学习大会亮点

Yandex Research 发表的一篇关于 AQLM 压缩方法的科学文章已在全球久负盛名的机器学习会议之一国际机器学习大会(ICML)上发表。该文章由Yandex 研发团队与 IST Austria的研究人员和人工智能初创公司Neural Magic的专家共同撰写,标志着大语言模型压缩技术的重大进步。

 

关键词:

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com
关键词:

点赞中国移动!央企考核双料冠军,持续领跑

2024-07-25 14:26:15点赞中国移动!央企考核双料冠军,持续领跑

向凌云:全国科学技术领域精神文明建设先进个人

2024-07-24 16:38:11向凌云:全国科学技术领域精神文明建设先进个人

向凌云获奖论文:人工智能技术在新兴产业金融监管体系中的创新应用

2024-07-10 17:38:50向凌云获奖论文:人工智能技术在新兴产业金融监管体系中的创新应用

新产品、新技术、新生意!中力629引领新未来!

2024-07-03 17:16:26新产品、新技术、新生意!中力629引领新未来!

天丝集团红牛2024夏季点赞活动圆满收官!用点赞传递向前的能量

2024-06-27 17:52:48天丝集团红牛2024夏季点赞活动圆满收官!用点赞传递向前的能量

对话天虹数科首席人才官|数字化转型背后的人才策略

2024-06-27 17:18:53对话天虹数科首席人才官|数字化转型背后的人才策略

相关新闻

最新资讯