提升LLM性能：NVIDIA RTX系统上的llama.cpp

realtime news Oct 02, 2024 21:18 UTC 13:18

1 Min Read

根据NVIDIA技术博客，NVIDIA RTX AI for Windows PCs平台为应用开发者提供了由数千个开源模型组成的强大生态系统。其中，llama.cpp作为一款流行工具，已获得超过65K的GitHub星标。该框架于2023年发布，轻量高效，支持在各种硬件平台（包括RTX PCs）上进行大型语言模型（LLM）的推理。

llama.cpp概述

LLM在解锁新用例方面展示了潜力，但其巨大的内存和计算需求给开发者带来了挑战。llama.cpp通过提供一系列功能来优化模型性能，确保在不同硬件上的高效部署，从而解决了这些问题。它使用ggml张量库进行机器学习，实现跨平台使用且无需外部依赖。模型数据以名为GGUF的自定义文件格式部署，该格式由llama.cpp贡献者设计。

开发者可以从数千个预先打包的模型中进行选择，这些模型涵盖了各种高质量量化版本。一个不断增长的开源社区正在积极为llama.cpp和ggml项目的发展做出贡献。

NVIDIA RTX上的加速性能

NVIDIA不断提升llama.cpp在RTX GPU上的性能。主要贡献包括吞吐量性能的改进。例如，内部测量显示，使用Llama 3 8B模型时，NVIDIA RTX 4090 GPU在输入序列长度为100个tokens以及输出序列长度为100个tokens的情况下能够达到每秒约150个tokens的速度。

要构建针对NVIDIA GPU进行CUDA后端优化的llama.cpp库，开发者可以参考GitHub上的llama.cpp文档。

开发者生态系统

许多开发者框架和抽象层构建在llama.cpp之上，加速了应用开发。像Ollama、Homebrew和LMStudio这样的工具扩展了llama.cpp的功能，提供了配置管理、模型权重打包、抽象的用户界面以及本地运行的LLM API端点等功能。

此外，使用llama.cpp在RTX系统上的开发者还能利用大量预优化的模型。值得注意的模型包括在Hugging Face上的最新GGUF量化版本的Llama 3.2。llama.cpp还集成在NVIDIA RTX AI Toolkit中，作为推理部署机制之一。

利用llama.cpp的应用

超过50个工具和应用正在通过llama.cpp进行加速，包括：

Backyard.ai：使用户能够在私密环境中与AI角色互动，利用llama.cpp在RTX系统上加速LLM模型。
Brave：将AI助手Leo集成到Brave浏览器中。Leo使用Ollama，它利用llama.cpp与用户设备上的本地LLM交互。
Opera：集成本地AI模型以增强Opera One浏览体验，使用Ollama和llama.cpp在RTX系统上进行本地推理。
Sourcegraph：AI编程助手Cody使用最新的LLM，并支持本机模型，利用Ollama和llama.cpp在RTX GPU上进行本地推理。

入门指南

开发者可以使用llama.cpp在RTX AI PCs上加速AI工作负载。C++实现的LLM推理提供了一个轻量级的安装包。要开始使用，请参考llama.cpp on RTX AI Toolkit。NVIDIA致力于在RTX AI平台上贡献和加速开源软件。

News ▸

提升LLM性能：NVIDIA RTX系统上的llama.cpp

llama.cpp概述

NVIDIA RTX上的加速性能

开发者生态系统

利用llama.cpp的应用

入门指南

Read More

Boosting LLM Performance: llama.cpp on NVIDIA RTX Systems

BitMEX Launches EIGENUSDT Perpetual Swap with Up to 50x Leverage

Marathon Digital Holdings (MARA) Reports Increase in Bitcoin Production and Hash Rate for September 2024

Binance Futures Introduces DIAUSDT Perpetual Contract with 75x Leverage

Binance to Support Upcoming Cosmos (ATOM) Network Upgrade