Ollama
本指南讲解如何在 NVIDIA Jetson Orin 设备上安装、更新、配置和卸载 Ollama。Ollama 支持在本地运行大语言模型(LLMs)推理,具备 CUDA 加速能力,并针对 Jetson 硬件进行了优化。
1. 概览
- 快速的本地推理
- CUDA 加速支持
- 模型版本管理
- 简洁的命令行工具与可选 WebUI
本文件涵盖:
- 使用脚本或 Docker 安装
- 模型运行
- 版本更新
- 可选的远程访问配置
- 完整卸载方法
2. 系统要求
硬件要求
组件 | 最低要求 |
---|---|
设备 | Jetson Orin Nano / NX / AGX |
内存 | 运行小/中型模型需 ≥ 8GB |
存储 | 模型与缓存存储需 ≥ 10GB |
软件要求
- Ubuntu 20.04 或 22.04(基于 JetPack)
- JetPack 5.1.1+(预装 CUDA、cuDNN、TensorRT)
- Python 3.8+(可选)
- Docker(可选,用于容器化模式)
3. 安装 Ollama
方法 A:脚本安装(推荐)
运行官方安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
- 会安装 CLI 二进制文件及后台服务
- 在 Jetson 上默认启用 CUDA 支持
方法 B:基于 Docker 的安装(可选)
sudo docker run --runtime nvidia --rm --network=host \
-v ~/ollama:/ollama \
-e OLLAMA_MODELS=/ollama \
dustynv/ollama:r36.4.0
🧩 由 Jetson 社区维护者(dustynv)发布,专为 JetPack 环境优化
4. 基本用法
常用命令
ollama serve # 启动 Ollama 后台服务
ollama run # 运行模型
ollama pull # 从仓库拉取模型
ollama list # 列出已安装模型
ollama show # 显示模型信息
ollama rm # 删除模型
ollama help # 查看命令帮助
检查版本
ollama -v
# 示例:ollama version 0.5.7
启动服务(若未自动启动)
ollama serve &
5. 可选:启用远程访问
若需允许外部设备访问 Ollama 服务:
-
编辑 systemd 服务文件:
sudo nano /etc/systemd/system/ollama.service
-
在
[Service]
段添加以下内容:Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*" -
重新加载并重启服务:
sudo systemctl daemon-reload
sudo systemctl restart ollama
6. 运行模型
使用 ollama run
命令启动模型推理:
ollama run deepseek-r1:7b
- 更多模型可访问:https://ollama.com/search
- 首次运行会下载模型,后续运行使用本地缓存
7. 更新 Ollama
更新到最新版:
curl -fsSL https://ollama.com/install.sh | sh
可选:安装指定版本
通过指定版本号安装:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.1.32 sh
8. 卸载 Ollama
移除服务
sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
删除执行文件
sudo rm $(which ollama)
(Ollama 通常安装在 /usr/local/bin
、/usr/bin
或 /bin
)