【大模型】3.大模型选型、推理框架及算力云服务器介绍
大模型选型、框架认识
·
1. 大模型选型
要做大模型的选型,就需要认识各种各样的大模型并了解它们的特点。
| 大模型种类 | 特点 | 常用大模型 |
|---|---|---|
| 通用模型 | 通用能力强,文本推理,文本生成,深度思考等 | DeepSeek、Qwen3、kimi-k2、GPT-4.5、Claude3系列等 |
| 多模态模型 | 多模态支持(文本/图像/音频/视频),跨媒体理解能力强 | GPT-4o、Qwen2.5-VL、Qwen2.5-Omni、GLM-4.5V等 |
| 文本嵌入模型 | 将文本转换成计算机能理解的数值向量,对文本进行降维处理 | BGE系列(small、base、large),OpenAI Embedding,Qwen3-Embedding等 |
| 多模态嵌入模型 | 将文本、图像、音频、视频等不同模态的数据向量化,同一个向量空间中 | GME-Qwen2-VL,openai-CLIP,Chinese-CLIP等 |
| 多模态解析模型 | 负责解析复杂结构的数据 | DoIphin,Dots.OCR,MonkeyOCR,Unstructured等等 |
| 垂直领域大模型 | 专注于某一个领域的复杂问题,如蛋白质结构预测 | DeepMind-AIphaFold,360安全大模型,讯飞星火4.0(医疗)等 |
2. 大模型Token购买平台
使用大模型能力,主流的方式用两种,一种是在线调用大模型API,另一种是私有化部署大模型。
若对数据安全的要求没有那么高,可以通过购买Token在线调用大模型API,是最省事的。
若对数据安全要求比较高,不允许数据外出,那只能私有化部署了,不过成本可能会比较高,不仅要部署模型,还得解决GPU算力的问题,相对麻烦。
以下是一些可以购买Token实现在线调用大模型API的平台:
| 平台 | 购买地址 | 特点 |
|---|---|---|
| 百炼平台 | https://bailian.console.aliyun.com/ | 国内的模型较为全面 |
| 智普AI | https://open.bigmodel.cn/ | 图像、OCR、ASR、TTS的大模型都有,但模型种类有点单一 |
| xiaoai中转商 | https://xiaoai.plus/ | 一个大模型接口网关,支持国内外很多厂商的大模型 |
| Kimi | https://platform.moonshot.cn/ | 月之暗面,有潜力,有搜索工具 |
3. 大模型推理框架
大模型的应用遵循先训练后推理,训练过程就是大模型学习成长的过程,推理过程就是大模型提供服务的过程。
大模型的私有化部署,一般会部署一个基础版的且已经做过训练的基模,部署起来后再做微调,微调结束才到推理阶段。
大模型的私有化部署离不开大模型推理框架,常见的大模型推理框架有:
| 推理框架 | 所属团队 | 核心特点 |
|---|---|---|
| vLLM | 加州大学伯克利分校 | 高效管理KV缓存,显存利用率可达95%以上,支持张量并行和流水线并行 |
| SGLang | 伯克利团队 | 利用Radix树高效管理和复用KV缓存前缀,尤其擅长多轮对话;结构化输出,零开销批处理;缓存感知负载均衡 |
| Transformers库 | Hugging Face | 提供从模型加载、微调到推理的全流程;灵活的API和训练接口,支持模型范围最广 |
| LMDeploy | 上海人工智能实验室 | 量化部署工具链,针对华为昇腾等国产芯片优化、多模态融合支持 |
| TensorRT-LLM | NVIDIA | 深度链路优化,预编译优化,支持FP8/INT4等多种量化方案,内核级优化(针对Transformers模块的深度CUDA优化) |
4. 算力云服务器
做大模型私有化部署,离不开算力,也就是GPU,可以自己买GPU服务器(比如国外的英伟达A100、V100、H100等,国产的海光K100、华为昇腾910系列、华为昇腾950系列),也可以买公有云算力。
以下是一些可以购买算力的云服务平台:
| 平台名称 | 地址 | 特点 |
|---|---|---|
| 再造云 | https://gpu.zaizao.cloud | 便宜,远程用,定制化服务 |
| Autodl算力 | https://www.autodl.com/home | 资源最多,远程用,隧道公交 |
| Suanli算力 | https://www.suanlix.cn | 有独立IP,远程用,隧道命令 |
| 阿里云 | https://account.aliyun.com/ | 最稳定,最贵,什么都有 |
当下使用大模型最省事的方式就是直接购买大模型Token,不用自己考虑算力的事,买Toekn就已经包含买算力了。
做私有化部署,部署完大模型,还得买算力服务器,并且搭建算力的管控平台管控算力资源,要做的麻烦事不是一般的多。
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐

所有评论(0)