用 llama.cpp 构建高性能本地 AI 应用：从环境搭建到多工具智能体开发全流程实战

技术文档

llama.cpp 是最早期且高性能的框架之一，为众多流行的本地 AI 工具（如 Ollama、本地聊天机器人及其他设备端大语言模型解决方案）提供了核心支持。通过直接使用 llama.cpp，你可以最大程度减少系统开销，获得精细化的控制权，并针对你的特定硬件优化性能，从而让本地 AI 智能体和应用运行得更快、更灵活。

在本教程中，我将带你一步步使用 llama.cpp——一个强大的 C/C++ 库，高效运行大语言模型（LLM）——来构建 AI 应用。我们将涵盖以下内容：如何搭建 llama.cpp 服务器、与 Langchain 集成，以及构建能够调用 Web 检索和 Python REPL 等工具的 ReAct 智能体。

一、搭建 llama.cpp 服务端

本节内容包括安装 llama.cpp 及其依赖、配置 CUDA 支持、编译必要的二进制文件以及运行服务端。

注意：本例中使用 NVIDIA RTX 4090 显卡、Linux 操作系统，且已预装 CUDA 工具包。如果你没有类似的本地硬件，可以选择在 Vast.ai 等平台按需租用 GPU 实例，价格更为实惠。

1. 系统环境准备

更新系统软件包索引，安装构建必备工具（如 build-essential、cmake、curl、git），pciutils 用于查看硬件信息，libcurl4-openssl-dev 用于 llama.cpp 从 Hugging Face 下载模型。

apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git -y

2. 克隆官方仓库并配置构建参数

# 克隆 llama.cpp 仓库git clone https://github.com/ggml-org/llama.cpp# 配置构建（启用 CUDA 支持）cmake llama.cpp -B llama.cpp/build \\ -DBUILD_SHARED_LIBS=OFF \\ -DGGML_CUDA=ON \\ -DLLAMA_CURL=ON

3. 编译所有二进制文件并整理目录

# 编译包括服务端在内的所有必要二进制文件cmake --build llama.cpp/build --config Release -j --clean-first# 将所有编译好的可执行文件拷贝至主目录cp llama.cpp/build/bin/* llama.cpp/

4. 启动 llama.cpp 服务端

以 unsloth/gemma-3-4b-it-GGUF 模型为例：

./llama.cpp/llama-server \\ -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL \\ --host 0.0.0.0 \\ --port 8000 \\ --n-gpu-layers 999 \\ --ctx-size 8192 \\ --threads $(nproc) \\ --temp 0.6 \\ --cache-type-k q4_0 \\ --jinja

5. 服务可用性测试

通过 curl 发送 POST 请求，查看服务是否正常响应：

curl -X POST http://localhost:8000/v1/chat/completions \\ -H \"Content-Type: application/json\" \\ -d \'{ \"messages\": [ {\"role\": \"user\", \"content\": \"Hello! How are you today?\"} ], \"max_tokens\": 150, \"temperature\": 0.7 }\'

示例输出：

{\"choices\":[{\"finish_reason\":\"length\",\"index\":0,\"message\":{\"role\":\"assistant\",\"content\":\"...（此处省略，见原文）\"}}], ...}

二、用 Langgraph 和 llama.cpp 构建多工具 AI 智能体

现在，让我们结合 Langgraph 与 Langchain，通过 llama.cpp 搭建一个具备多工具能力的智能体。

1. 配置 Tavily API 及环境变量

Langchain 通过模拟 OpenAI API 与本地 llama.cpp 服务器通信。只需将 OPENAI_API_KEY 设为 local 或任意非空字符串，并指定本地 base_url。

export TAVILY_API_KEY=\"your_api_key_here\"export OPENAI_API_KEY=local

2. 安装必要的 Python 库

%%capture!pip install -U \\ langgraph tavily-python langchain langchain-community langchain-experimental langchain-openai

3. 配置 Langchain 的 ChatOpenAI 对接本地服务

from langchain_openai import ChatOpenAIllm = ChatOpenAI( model=\"unsloth/gemma-3-4b-it-GGUF:Q4_K_XL\", temperature=0.6, base_url=\"http://localhost:8000/v1\", )

4. 配置智能体可用工具

TavilySearchResults：用于 Web 检索
PythonREPLTool：内置 Python 代码解释执行

from langchain_community.tools import TavilySearchResultsfrom langchain_experimental.tools.python.tool import PythonREPLToolsearch_tool = TavilySearchResults(max_results=5, include_answer=True)code_tool = PythonREPLTool()tools = [search_tool, code_tool]

5. 创建具 ReAct 能力的智能体

from langgraph.prebuilt import create_react_agentagent = create_react_agent( model=llm, tools=tools,)

三、智能体测试与工具调用展示

我们将测试智能体，并显示其调用的工具。

辅助函数：提取历史会话中被调用的工具名

def extract_tool_names(conversation: dict) -> list[str]: tool_names = set() for msg in conversation.get(\'messages\', []): calls = [] if hasattr(msg, \'tool_calls\'): calls = msg.tool_calls or [] elif isinstance(msg, dict): calls = msg.get(\'tool_calls\') or [] if not calls and isinstance(msg.get(\'additional_kwargs\'), dict): calls = msg[\'additional_kwargs\'].get(\'tool_calls\', []) else: ak = getattr(msg, \'additional_kwargs\', None) if isinstance(ak, dict): calls = ak.get(\'tool_calls\', []) for call in calls: if isinstance(call, dict): if \'name\' in call:  tool_names.add(call[\'name\']) elif \'function\' in call and isinstance(call[\'function\'], dict):  fn = call[\'function\']  if \'name\' in fn: tool_names.add(fn[\'name\']) return sorted(tool_names)

智能体问答封装函数

def run_agent(question: str): result = agent.invoke({\"messages\": [{\"role\": \"user\", \"content\": question}]}) raw_answer = result[\"messages\"][-1].content tools_used = extract_tool_names(result) return tools_used, raw_answer

测试 1：获取最新新闻

tools, answer = run_agent(\"What are the top 5 breaking news stories?\")print(\"Tools used ➡️\", tools)print(answer)

输出示例：

Tools used ➡️ [\'tavily_search_results_json\']
Here are the top 5 breaking news stories based on the provided sources:

Gaza Humanitarian Crisis: ...
Russian Drone Attacks on Kharkiv: ...
Wagner Group Departure from Mali: ...
Trump-Musk Feud: ...
Education Department Staffing Cuts: ...

测试 2：让智能体编写并执行斐波那契数列代码

tools, answer = run_agent( \"Write a code for the Fibonacci series and execute it using Python REPL.\")print(\"Tools used ➡️\", tools)print(answer)

输出示例：

Tools used ➡️ [\'Python_REPL\']
The Fibonacci series up to 10 terms is [0, 1, 1, 2, 3, 5, 8, 13, 21, 34].

四、总结与建议

在本教程中，我们使用了较小的量化 LLM，它在工具选择和准确性上偶有不足。如果你希望构建生产级的 AI 智能体，强烈建议在 llama.cpp 上运行最新版、全尺寸的大模型。更大、更先进的模型通常能提供更高质量、更可靠的输出。

需要特别指出的是，llama.cpp 的部署和优化过程相对 Ollama 等易用工具更具挑战性。但只要你愿意投入时间进行调试和针对硬件优化，所获得的性能提升与灵活性绝对物超所值。

llama.cpp 最大的优点之一就是高效：即使没有高端硬件，它也能在普通 CPU 或笔记本电脑上流畅运行，让本地 AI 普及到几乎所有人手中。如果未来需要更强算力，也可随时租用云端 GPU 实例，轻松扩展。

游戏攻略网

用 llama.cpp 构建高性能本地 AI 应用：从环境搭建到多工具智能体开发全流程实战

1. 系统环境准备

2. 克隆官方仓库并配置构建参数

3. 编译所有二进制文件并整理目录

4. 启动 llama.cpp 服务端

5. 服务可用性测试

1. 配置 Tavily API 及环境变量

2. 安装必要的 Python 库

3. 配置 Langchain 的 ChatOpenAI 对接本地服务

4. 配置智能体可用工具

5. 创建具 ReAct 能力的智能体

辅助函数：提取历史会话中被调用的工具名

智能体问答封装函数

测试 1：获取最新新闻

测试 2：让智能体编写并执行斐波那契数列代码

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

用 llama.cpp 构建高性能本地 AI 应用：从环境搭建到多工具智能体开发全流程实战

1. 系统环境准备

2. 克隆官方仓库并配置构建参数

3. 编译所有二进制文件并整理目录

4. 启动 llama.cpp 服务端

5. 服务可用性测试

1. 配置 Tavily API 及环境变量

2. 安装必要的 Python 库

3. 配置 Langchain 的 ChatOpenAI 对接本地服务

4. 配置智能体可用工具

5. 创建具 ReAct 能力的智能体

辅助函数：提取历史会话中被调用的工具名

智能体问答封装函数

测试 1：获取最新新闻

测试 2：让智能体编写并执行斐波那契数列代码

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签