谷歌DeepMind团队近日推出了一项名为“可微缓存增强”(Differentiable Cache Augmentation)的新技术,旨在提升大语言模型(LLMs)的推理性能。该方法通过引入一个经过训练的协处理器,增强模型的键值(kv)缓存,从而在不显著增加计算负担的情况下,显著提升模型的推理能力。
在语言处理、数学和推理领域,大型语言模型是解决复杂问题的重要工具。然而,随着模型复杂度的增加,如何在固定计算预算内保持高性能成为一大挑战。传统的优化方法往往需要在任务处理期间生成中间步骤,这会导致延迟增加和计算效率下降,限制了模型处理复杂推理任务的能力。
“可微缓存增强”技术通过三个步骤实现性能提升:首先,冻结的LLM从输入序列生成kv缓存;其次,协处理器使用可训练的软令牌处理kv缓存,生成潜在嵌入;最后,增强的kv缓存反馈到LLM,生成更丰富的输出。在Gemma-2 2B模型上的测试结果显示,该方法在多个基准测试中取得了显著成果,例如在GSM8K数据集上,准确率提高了10.05%;在MMLU上,性能提升了4.70%。
谷歌DeepMind的这项研究为大语言模型的性能优化提供了新的思路,通过引入外部协处理器增强kv缓存,研究人员在保持计算效率的同时显著提高了模型性能,为LLMs处理更复杂的任务铺平了道路。