提升LLM性能:NVIDIA RTX系统上的llama.cpp

realtime news  Oct 02, 2024 21:18  UTC 13:18

1 Min Read

根据NVIDIA技术博客,NVIDIA RTX AI for Windows PCs平台为应用开发者提供了由数千个开源模型组成的强大生态系统。其中,llama.cpp作为一款流行工具,已获得超过65K的GitHub星标。该框架于2023年发布,轻量高效,支持在各种硬件平台(包括RTX PCs)上进行大型语言模型(LLM)的推理。

llama.cpp概述

LLM在解锁新用例方面展示了潜力,但其巨大的内存和计算需求给开发者带来了挑战。llama.cpp通过提供一系列功能来优化模型性能,确保在不同硬件上的高效部署,从而解决了这些问题。它使用ggml张量库进行机器学习,实现跨平台使用且无需外部依赖。模型数据以名为GGUF的自定义文件格式部署,该格式由llama.cpp贡献者设计。

开发者可以从数千个预先打包的模型中进行选择,这些模型涵盖了各种高质量量化版本。一个不断增长的开源社区正在积极为llama.cpp和ggml项目的发展做出贡献。

NVIDIA RTX上的加速性能

NVIDIA不断提升llama.cpp在RTX GPU上的性能。主要贡献包括吞吐量性能的改进。例如,内部测量显示,使用Llama 3 8B模型时,NVIDIA RTX 4090 GPU在输入序列长度为100个tokens以及输出序列长度为100个tokens的情况下能够达到每秒约150个tokens的速度。

要构建针对NVIDIA GPU进行CUDA后端优化的llama.cpp库,开发者可以参考GitHub上的llama.cpp文档

开发者生态系统

许多开发者框架和抽象层构建在llama.cpp之上,加速了应用开发。像Ollama、Homebrew和LMStudio这样的工具扩展了llama.cpp的功能,提供了配置管理、模型权重打包、抽象的用户界面以及本地运行的LLM API端点等功能。

此外,使用llama.cpp在RTX系统上的开发者还能利用大量预优化的模型。值得注意的模型包括在Hugging Face上的最新GGUF量化版本的Llama 3.2。llama.cpp还集成在NVIDIA RTX AI Toolkit中,作为推理部署机制之一。

利用llama.cpp的应用

超过50个工具和应用正在通过llama.cpp进行加速,包括:

  • Backyard.ai:使用户能够在私密环境中与AI角色互动,利用llama.cpp在RTX系统上加速LLM模型。
  • Brave:将AI助手Leo集成到Brave浏览器中。Leo使用Ollama,它利用llama.cpp与用户设备上的本地LLM交互。
  • Opera:集成本地AI模型以增强Opera One浏览体验,使用Ollama和llama.cpp在RTX系统上进行本地推理。
  • Sourcegraph:AI编程助手Cody使用最新的LLM,并支持本机模型,利用Ollama和llama.cpp在RTX GPU上进行本地推理。

入门指南

开发者可以使用llama.cpp在RTX AI PCs上加速AI工作负载。C++实现的LLM推理提供了一个轻量级的安装包。要开始使用,请参考llama.cpp on RTX AI Toolkit。NVIDIA致力于在RTX AI平台上贡献和加速开源软件。



Read More