IBM研究院宣布在AI推理方面取得重大突破,结合投机解码和分页注意机制,提升了大型语言模型(LLM)的成本性能。据IBM研究院称,这一发展有望使客户服务聊天机器人更加高效和经济。
近年来,LLM提高了聊天机器人理解客户查询并提供准确响应的能力。然而,这些模型的高成本和慢速响应阻碍了更广泛的AI应用。而投机解码作为一种优化技术,通过更快地生成令牌,能够将延迟减少两到三倍,从而改善客户体验。
尽管投机解码具有优势,但减少延迟通常会带来一个折衷:即通过率降低,或者说同时使用模型的用户数量减少,从而增加运营成本。IBM研究院通过将其开源的Granite 20B代码模型的延迟缩减一半,同时将处理能力提高四倍,解决了这一挑战。
投机解码:提高令牌生成效率
LLM使用的变换器架构在生成文本时效率不高。通常,需要进行一次前向传递来处理每个先前生成的令牌,然后再生成新的令牌。投机解码修改了这一过程以同时评估多个潜在的令牌。如果这些令牌得到验证,一次前向传递可以生成多个令牌,从而提高推理速度。
这一技术可以由一个较小、更高效的模型或主模型的一部分来执行。通过并行处理令牌,投机解码最大化了每个GPU的效率,潜在地将推理速度提高两到三倍。DeepMind和Google研究人员初次引入投机解码时使用了草稿模型,而较新的方法,如Medusa推理器,消除了对辅助模型的需求。
IBM研究人员通过在未来令牌相互之间进行条件设置,而不是在模型的下一个预测令牌上建立条件,改进了Medusa推理器。这一方法结合使用小批量和大批量文本的高效微调方法,使推理器的响应与LLM更为一致,大大提高了推理速度。
分页注意机制:优化内存使用
通常,降低LLM延迟会因增加GPU内存压力而牺牲通过率。动态批处理可以缓解这一点,但当投机解码也在争夺内存时则无济于事。IBM研究人员通过应用分页注意机制解决了这一问题,该优化技术受操作系统虚拟内存和分页概念的启发。
传统的注意算法将键值(KV)序列存储在连续的内存中,导致碎片化。而分页注意则将这些序列划分为较小的块,或者说页,根据需要访问。这种方法最大限度地减少了冗余计算,允许推理器在不重复整个KV缓存的情况下为每个预测词生成多个候选者,从而释放内存。
未来影响
IBM已将投机解码和分页注意机制集成到其Granite 20B代码模型中。IBM推理器已在Hugging Face开源,使其他开发人员能够为其LLM适应这些技术。IBM计划在其watsonx平台上的所有模型中实施这些优化技术,以增强企业AI应用。
Image source: Shutterstock