* Ollama:一键在本地部署大模型
短期实验、快速验证首选云服务器;对数据敏感且用量大的场景,本地部署更划算。
一、大模型部署到底怎么选?
大模型的部署无非两种:自己部署(私有化)和他人部署(使用平台 API)。两者各有利弊,适合不同阶段的项目。
1.1 自己部署
自己掌握硬件和模型,又分为 云端服务器部署 和 本地机器部署。
| 方式 | 优势 | 劣势 |
|---|---|---|
| 云服务器部署(如阿里云 ECS) | 前期成本低,按量付费;维护简单 | 数据经过第三方,安全性弱;长期使用总费用高 |
| 本地机器部署(公司机房或个人电脑) | 数据绝对安全;一次性投入,长期成本低 | 初期硬件投入大;所有维护自己扛 |
💡 简单总结:短期实验、快速验证首选云服务器;对数据敏感且用量大的场景,本地部署更划算。
1.2 他人部署(平台 API)
“他人”指的是已经帮我们部署好大模型的云平台,如 阿里云百炼、百度智能云、硅基流动、火山引擎 等。我们直接调用 API,按量付费。
-
优点:零部署门槛,开箱即用。
-
缺点:数据外传,安全风险较高;长期调用成本可能超过自建。
理解了这些,你就能根据业务阶段和预算做出合理选择。接下来我们上手实践两种最典型的方案。
二、Ollama:一键在本地部署大模型
本地部署最怕环境配置地狱:装 Python、配 CUDA、拉模型、写启动脚本……
幸运的是,Ollama 把这些繁琐步骤打包成了一行命令。
Ollama的官网是: https://ollama.com/
2.1 安装 Ollama
访问https://ollama.com/download/windows,点击 Download 选择对应操作系统下载安装包。

傻瓜式安装好:

2.2 验证是否安装成功
验证一:安装完成后会自动配置环境变量,打开终端输入 ollama --version 查看版本信息
ollama --version

验证二:当任务栏有如下图标时,证明ollama正常安装成功,并正在运行

2.3 部署大模型
官网地址:https://ollama.com/

Ollama 官网的 Models 页面列出了几乎所有主流开源模型。这里我们选择对硬件要求友好的 qwen3.5:0.8b。
2.3.1在官网找到 qwen3.5

2.3.2点击进入详情页

2.3.3下滑找到Models

这里提供了不同参数规模的qwen3.5模型,由于参数规模越大,对电脑的配置要求越高,这里我们部署最小参数规模的大模型qwen3.5:0.8b来部署。
点击模型的名称,来到该模型的详情页面,复制运行命令:

2.3.4下载模型
打开命令行提示符窗口,执行这个命令,命令执行的过程中,会自动下载qwen3.5:0.8b这个模型到电脑本地,并自动的运行起来,命令行提示符窗口如果自动进入到聊天界面,证明模型部署正确。
ollama run qwen3.5:0.8b

2.3.5测试与大模型进行对话

2.3.6退出聊天界面
如果不想继续与大模型对话,可以使用 /bye 命令退出聊天界面
/bye

2.3.7退出后,如何再次进入
如果想继续与大模型聊天,可以再次执行 ollama run qwen3.5:0.8b, 这一次再执行的时候,由于本地已经有了这个大模型并运行起来了,所以不会再次下载,而是直接进入聊天界面。

三、发送http的方式调用大模型
ollama平台也开放了API,程序员可以使用发送http请求的方式调用本地部署的大模型,这里咱们借助于Apifox工具调用大模型。
本机ollama默认占用的端口为11434,调用大模型时发送的请求方式必须是post,请求数据必须是json格式,具体样例如下:

请求URL:http://127.0.0.1:11434/api/chat
请求参数body:
{
"model": "qwen3.5:0.8b",
"messages": [
{
"role": "user",
"content": "你好呀"
}
]
}

四、Ollama常用命令
4.1 基础操作指令
| 指令 | 功能 | 示例 |
|---|---|---|
ollama run <模型名> |
运行指定模型(自动下载若不存在) | ollama run llama3 |
ollama list |
查看本地已下载的模型列表 | ollama list |
ollama pull <模型名> |
手动下载模型 | ollama pull mistral |
ollama rm <模型名> |
删除本地模型 | ollama rm llama2 |
ollama help |
查看帮助文档 | ollama help |
4.2 模型交互指令
4.2.1. 直接对话
ollama run llama3 "用中文写一首关于秋天的诗"
4.2.2. 进入交互模式
ollama run llama3 # 进入后输入内容,按 Ctrl+D 或输入 `/bye` 退出
4.2.3. 从文件输入
ollama run llama3 --file input.txt
4.2.4. 流式输出控制
| 参数 | 功能 | 示例 |
|---|---|---|
--verbose |
显示详细日志 | ollama run llama3 --verbose |
--nowordwrap |
禁用自动换行 | ollama run llama3 --nowordwrap |
4.3 模型管理
4.3.1. 自定义模型配置(Modelfile)
创建 Modelfile 文件:
FROM llama3 # 基础模型 PARAMETER temperature 0.7 # 控制随机性(0-1) PARAMETER num_ctx 4096 # 上下文长度 SYSTEM """ 你是一个严谨的学术助手,回答需引用论文来源。""" # 系统提示词
构建自定义模型:
ollama create my-llama3 -f Modelfile ollama run my-llama3
4.3.2. 查看模型信息
ollama show <模型名> --modelfile # 查看模型配置 ollama show <模型名> --parameters # 查看运行参数
4.4 高级功能
4.4.1. API 调用
启动 API 服务
ollama serve
通过 HTTP 调用
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "你好",
"stream": false
}'
4.4.2. GPU 加速配置
# 指定显存分配比例(50%) ollama run llama3 --num-gpu 50
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐


所有评论(0)