* Ollama：一键在本地部署大模型

短期实验、快速验证首选云服务器；对数据敏感且用量大的场景，本地部署更划算。

Maiko Star

248人浏览 · 2026-05-18 06:00:00

Maiko Star · 2026-05-18 06:00:00 发布

一、大模型部署到底怎么选？

大模型的部署无非两种：自己部署（私有化）和他人部署（使用平台 API）。两者各有利弊，适合不同阶段的项目。

1.1 自己部署

自己掌握硬件和模型，又分为 云端服务器部署 和 本地机器部署。

方式	优势	劣势
云服务器部署（如阿里云 ECS）	前期成本低，按量付费；维护简单	数据经过第三方，安全性弱；长期使用总费用高
本地机器部署（公司机房或个人电脑）	数据绝对安全；一次性投入，长期成本低	初期硬件投入大；所有维护自己扛

💡 简单总结：短期实验、快速验证首选云服务器；对数据敏感且用量大的场景，本地部署更划算。

1.2 他人部署（平台 API）

“他人”指的是已经帮我们部署好大模型的云平台，如 阿里云百炼、百度智能云、硅基流动、火山引擎 等。我们直接调用 API，按量付费。

优点：零部署门槛，开箱即用。
缺点：数据外传，安全风险较高；长期调用成本可能超过自建。

理解了这些，你就能根据业务阶段和预算做出合理选择。接下来我们上手实践两种最典型的方案。

二、Ollama：一键在本地部署大模型

本地部署最怕环境配置地狱：装 Python、配 CUDA、拉模型、写启动脚本……

幸运的是，Ollama 把这些繁琐步骤打包成了一行命令。

Ollama的官网是： https://ollama.com/

2.1 安装 Ollama

访问https://ollama.com/download/windows，点击 Download 选择对应操作系统下载安装包。

傻瓜式安装好：

2.2 验证是否安装成功

验证一：安装完成后会自动配置环境变量，打开终端输入 ollama --version 查看版本信息

ollama --version

验证二：当任务栏有如下图标时，证明ollama正常安装成功，并正在运行

2.3 部署大模型

官网地址：https://ollama.com/

Ollama 官网的 Models 页面列出了几乎所有主流开源模型。这里我们选择对硬件要求友好的 qwen3.5:0.8b。

2.3.1在官网找到 qwen3.5

2.3.2点击进入详情页

2.3.3下滑找到Models

这里提供了不同参数规模的qwen3.5模型，由于参数规模越大，对电脑的配置要求越高，这里我们部署最小参数规模的大模型qwen3.5:0.8b来部署。

点击模型的名称，来到该模型的详情页面，复制运行命令：

2.3.4下载模型

打开命令行提示符窗口，执行这个命令，命令执行的过程中，会自动下载qwen3.5:0.8b这个模型到电脑本地，并自动的运行起来，命令行提示符窗口如果自动进入到聊天界面，证明模型部署正确。

ollama run qwen3.5:0.8b

2.3.5测试与大模型进行对话

2.3.6退出聊天界面

如果不想继续与大模型对话，可以使用 /bye 命令退出聊天界面

/bye

2.3.7退出后，如何再次进入

如果想继续与大模型聊天，可以再次执行 ollama run qwen3.5:0.8b, 这一次再执行的时候，由于本地已经有了这个大模型并运行起来了，所以不会再次下载，而是直接进入聊天界面。

三、发送http的方式调用大模型

ollama平台也开放了API，程序员可以使用发送http请求的方式调用本地部署的大模型，这里咱们借助于Apifox工具调用大模型。

本机ollama默认占用的端口为11434，调用大模型时发送的请求方式必须是post，请求数据必须是json格式，具体样例如下：

请求URL：http://127.0.0.1:11434/api/chat

请求参数body：

{

"model": "qwen3.5:0.8b",

"messages": [

{

"role": "user",

"content": "你好呀"

}

]

}

四、Ollama常用命令

4.1 基础操作指令

指令	功能	示例
`ollama run <模型名>`	运行指定模型（自动下载若不存在）	`ollama run llama3`
`ollama list`	查看本地已下载的模型列表	`ollama list`
`ollama pull <模型名>`	手动下载模型	`ollama pull mistral`
`ollama rm <模型名>`	删除本地模型	`ollama rm llama2`
`ollama help`	查看帮助文档	`ollama help`

4.2 模型交互指令

4.2.1. 直接对话

ollama run llama3 "用中文写一首关于秋天的诗"

4.2.2. 进入交互模式

ollama run llama3
# 进入后输入内容，按 Ctrl+D 或输入 `/bye` 退出

4.2.3. 从文件输入

ollama run llama3 --file input.txt

4.2.4. 流式输出控制

参数	功能	示例
`--verbose`	显示详细日志	`ollama run llama3 --verbose`
`--nowordwrap`	禁用自动换行	`ollama run llama3 --nowordwrap`

4.3 模型管理

4.3.1. 自定义模型配置（Modelfile）

创建 Modelfile 文件：

FROM llama3  # 基础模型
PARAMETER temperature 0.7  # 控制随机性（0-1）
PARAMETER num_ctx 4096     # 上下文长度
SYSTEM """ 你是一个严谨的学术助手，回答需引用论文来源。"""                # 系统提示词

构建自定义模型：

ollama create my-llama3 -f Modelfile
ollama run my-llama3

4.3.2. 查看模型信息

ollama show <模型名> --modelfile  # 查看模型配置
ollama show <模型名> --parameters # 查看运行参数

4.4 高级功能

4.4.1. API 调用

启动 API 服务

ollama serve

通过 HTTP 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "你好",
  "stream": false
}'

4.4.2. GPU 加速配置

# 指定显存分配比例（50%）
ollama run llama3 --num-gpu 50

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

SpringBoot

SpringBoot 提供了合理的默认配置，开发者可以 "开箱即用"，无需手动配置即可启动应用。SpringBoot 完全摒弃了 XML 配置，采用注解和 JavaConfig 的方式进行配置，同时不需要任何代码生成，保持了代码的简洁性和可维护性。这使得 SpringBoot 应用可以直接打包为可执行 JAR 文件，无需部署到外部服务器，简化了应用的部署和运行流程。起步依赖解决了传统开发中依赖版本