一、大模型部署到底怎么选?

大模型的部署无非两种:自己部署(私有化)和他人部署(使用平台 API)。两者各有利弊,适合不同阶段的项目。

1.1 自己部署

自己掌握硬件和模型,又分为 云端服务器部署 和 本地机器部署

方式 优势 劣势
云服务器部署(如阿里云 ECS) 前期成本低,按量付费;维护简单 数据经过第三方,安全性弱;长期使用总费用高
本地机器部署(公司机房或个人电脑) 数据绝对安全;一次性投入,长期成本低 初期硬件投入大;所有维护自己扛

💡 简单总结:短期实验、快速验证首选云服务器;对数据敏感且用量大的场景,本地部署更划算。

1.2 他人部署(平台 API)

“他人”指的是已经帮我们部署好大模型的云平台,如 阿里云百炼、百度智能云、硅基流动、火山引擎 等。我们直接调用 API,按量付费。

  • 优点:零部署门槛,开箱即用。

  • 缺点:数据外传,安全风险较高;长期调用成本可能超过自建。

理解了这些,你就能根据业务阶段和预算做出合理选择。接下来我们上手实践两种最典型的方案。

二、Ollama:一键在本地部署大模型

本地部署最怕环境配置地狱:装 Python、配 CUDA、拉模型、写启动脚本……

幸运的是,Ollama 把这些繁琐步骤打包成了一行命令。

Ollama的官网是: https://ollama.com/

2.1 安装 Ollama

访问https://ollama.com/download/windows,点击 Download 选择对应操作系统下载安装包。

傻瓜式安装好:

2.2 验证是否安装成功

验证一:安装完成后会自动配置环境变量,打开终端输入 ollama --version 查看版本信息

ollama --version

验证二:当任务栏有如下图标时,证明ollama正常安装成功,并正在运行

2.3 部署大模型

官网地址:https://ollama.com/

Ollama 官网的 Models 页面列出了几乎所有主流开源模型。这里我们选择对硬件要求友好的 qwen3.5:0.8b

2.3.1在官网找到 qwen3.5

2.3.2点击进入详情页

2.3.3下滑找到Models

这里提供了不同参数规模的qwen3.5模型,由于参数规模越大,对电脑的配置要求越高,这里我们部署最小参数规模的大模型qwen3.5:0.8b来部署。

点击模型的名称,来到该模型的详情页面,复制运行命令:

2.3.4下载模型

打开命令行提示符窗口,执行这个命令,命令执行的过程中,会自动下载qwen3.5:0.8b这个模型到电脑本地,并自动的运行起来,命令行提示符窗口如果自动进入到聊天界面,证明模型部署正确。

ollama run qwen3.5:0.8b

2.3.5测试与大模型进行对话

2.3.6退出聊天界面

如果不想继续与大模型对话,可以使用 /bye 命令退出聊天界面

/bye

2.3.7退出后,如何再次进入

如果想继续与大模型聊天,可以再次执行 ollama run qwen3.5:0.8b, 这一次再执行的时候,由于本地已经有了这个大模型并运行起来了,所以不会再次下载,而是直接进入聊天界面。

三、发送http的方式调用大模型

        ollama平台也开放了API,程序员可以使用发送http请求的方式调用本地部署的大模型,这里咱们借助于Apifox工具调用大模型。

        本机ollama默认占用的端口为11434,调用大模型时发送的请求方式必须是post,请求数据必须是json格式,具体样例如下:

请求URL:http://127.0.0.1:11434/api/chat

请求参数body:

{

    "model": "qwen3.5:0.8b",

    "messages": [

        {

            "role": "user",

            "content": "你好呀"

        }

    ]

}

四、Ollama常用命令

4.1 基础操作指令

指令 功能 示例
ollama run <模型名> 运行指定模型(自动下载若不存在) ollama run llama3
ollama list 查看本地已下载的模型列表 ollama list
ollama pull <模型名> 手动下载模型 ollama pull mistral
ollama rm <模型名> 删除本地模型 ollama rm llama2
ollama help 查看帮助文档 ollama help

4.2 模型交互指令

4.2.1. 直接对话

ollama run llama3 "用中文写一首关于秋天的诗"

4.2.2. 进入交互模式

ollama run llama3
# 进入后输入内容,按 Ctrl+D 或输入 `/bye` 退出

4.2.3. 从文件输入

ollama run llama3 --file input.txt
4.2.4. 流式输出控制
参数 功能 示例
--verbose 显示详细日志 ollama run llama3 --verbose
--nowordwrap 禁用自动换行 ollama run llama3 --nowordwrap

4.3 模型管理

4.3.1. 自定义模型配置(Modelfile)

创建 Modelfile 文件:

FROM llama3  # 基础模型
PARAMETER temperature 0.7  # 控制随机性(0-1)
PARAMETER num_ctx 4096     # 上下文长度
SYSTEM """ 你是一个严谨的学术助手,回答需引用论文来源。"""                # 系统提示词

构建自定义模型:

ollama create my-llama3 -f Modelfile
ollama run my-llama3

4.3.2. 查看模型信息

ollama show <模型名> --modelfile  # 查看模型配置
ollama show <模型名> --parameters # 查看运行参数

4.4 高级功能

4.4.1. API 调用

启动 API 服务

ollama serve

通过 HTTP 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "你好",
  "stream": false
}'

4.4.2. GPU 加速配置

# 指定显存分配比例(50%)
ollama run llama3 --num-gpu 50

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐