AutoDL云服务器租用与深度学习环境配置实战指南

系列说明:深度学习项目开发中,强大的算力是训练模型的基石。本篇聚焦于如何快速上手 AutoDL 平台,租用高性价比 GPU 云服务器,并完成文件传输与远程开发环境的配置,让你能够高效运行 YOLO 等目标检测模型的训练任务。


一、为什么选择 AutoDL 云服务器?

在本地硬件配置有限的情况下,云服务器成为深度学习开发者的首选。AutoDL 作为国内领先的 GPU 云算力平台,具备以下优势:

特性 说明
丰富 GPU 型号 提供 RTX 3090、RTX 5000、A100 等多种高端显卡
按量计费 开机才计费,不用不花钱
预装环境 支持 PyTorch、TensorFlow 等主流框架镜像
高速传输 支持大文件快速上传下载
简洁易用 网页端一键租用,无需复杂配置

在这里插入图片描述

图1:AutoDL 平台首页,清晰展示各类 GPU 资源与价格


二、租用 GPU 服务器:从注册到开机

2.1 账号注册与登录

访问 AutoDL 官网,完成以下步骤:

  1. 使用手机号或邮箱注册账号;
  2. 完成实名认证(按平台要求提交身份证信息);
  3. 充值余额(支持支付宝、微信支付)。

2.2 选择 GPU 与实例配置

登录后进入控制台,点击「租用主机」,进入实例配置页面。

在这里插入图片描述

图2:AutoDL 实例配置页面,可选择 GPU 型号、镜像、系统盘等

关键配置项说明:

配置项 推荐选择 说明
GPU 型号 RTX 3090 / RTX 5000 性价比高,显存充足
镜像 PyTorch 2.0+ / Ubuntu 预装深度学习环境
数据盘 50GB~100GB 用于存储数据集
计费模式 按量计费 随用随开,灵活控制成本

小贴士:首次使用建议选择「社区镜像」,里面包含常用的 JupyterLab、Python 环境,可直接上手。

2.3 开机与连接

配置完成后点击「立即租用」,等待实例启动。启动成功后,你会获得以下连接信息:

  • SSH 地址:如 username@hostname.autodl.com
  • SSH 端口:通常为 22
  • 密码:自动生成或自定义

三、文件传输:使用 FileZilla 上传数据集

训练深度学习模型需要上传数据集和代码,FileZilla 是 Windows 下最常用的 SFTP 客户端之一。

3.1 安装与配置 FileZilla

下载安装 FileZilla Client 后,需要配置 SFTP 连接:

  1. 打开 站点管理器(快捷键 Ctrl+S);
  2. 点击「新站点」,填写以下信息:
    • 协议:选择 SFTP - SSH File Transfer Protocol
    • 主机:填写 AutoDL 提供的 SSH 地址
    • 端口:填写对应的端口号(默认 22)
    • 登录类型:选择「正常」
    • 用户名/密码:填写 AutoDL 提供的信息

在这里插入图片描述

图3:FileZilla 站点管理器配置界面,填写服务器连接信息

3.2 上传文件

连接成功后,左侧为本地文件目录,右侧为服务器目录。只需将本地文件拖拽到右侧目录即可上传。

在这里插入图片描述

图4:FileZilla 文件传输界面,左侧本地文件,右侧服务器目录

推荐上传结构

/root/
├── datasets/          # 数据集文件夹
├── yolov5/           # YOLOv5 代码
├── weights/          # 预训练权重
└── outputs/          # 训练输出

传输速度优化:传输大文件时,建议开启「压缩」模式,可提升传输效率。


四、远程开发:VSCode + Remote SSH

FileZilla 解决了文件传输问题,但编写和调试代码还需要一个顺手的编辑器。VSCode 的 Remote SSH 插件让远程开发像本地一样流畅。

4.1 安装 Remote SSH 插件

打开 VSCode,按 Ctrl+Shift+X 打开扩展市场,搜索并安装:

  • Remote - SSH

  • Remote - SSH: Editing Configuration Files

    在这里插入图片描述

图5:VSCode 扩展市场搜索 Remote SSH 插件

4.2 配置 SSH 连接

安装完成后,按以下步骤配置:

  1. F1 打开命令面板,输入 Remote-SSH: Open Configuration File
  2. 选择 ~/.ssh/config 配置文件;
  3. 添加服务器配置:
Host autodl-server
    HostName hostname.autodl.com
    User root
    Port 22
    IdentityFile ~/.ssh/id_rsa  # SSH 密钥路径

在这里插入图片描述

图6:VSCode SSH 配置文件,添加服务器连接信息

4.3 连接远程服务器

配置完成后,按 F1 输入 Remote-SSH: Connect to Host,选择刚才配置的 autodl-server,输入密码即可连接。

在这里插入图片描述

图7:VSCode SSH 连接成功界面,底部显示远程连接状态

首次连接:如果连接失败,检查以下几点:

  • SSH 地址、端口号是否正确
  • 密码是否输入正确
  • 服务器是否已开机

4.4 在远程服务器上开发

连接成功后,你可以在 VSCode 中:

  • 打开远程文件夹(Ctrl+K Ctrl+O
  • 安装 Python、YOLO 等插件到远程服务器
  • 打开终端直接运行命令
  • 使用断点调试功能

五、运行第一个训练任务

环境配置完成后,让我们运行一个实际的训练任务。以下以 YOLOv5 为例:

5.1 安装依赖

# 克隆 YOLOv5 仓库
git clone https://github.com/ultralytics/yolov5.git
cd yolov5

# 安装依赖
pip install -r requirements.txt

5.2 修改数据配置

编辑 data/coco128.yaml 或创建新的数据配置文件:

path: /root/datasets/my_data
train: images/train
val: images/val

nc: 2  # 类别数量
names: ['mask', 'no_mask']  # 类别名称

5.3 开始训练

python train.py --img 640 --batch 16 --epochs 100 --data coco128.yaml --weights yolov5s.pt
参数 说明
--img 640 输入图像尺寸
--batch 16 批次大小,根据显存调整
--epochs 100 训练轮数
--data 数据集配置文件
--weights 预训练权重

显存不够?:如果提示显存不足,尝试减小 --batch 值或使用更小的模型(如 yolov5n.pt)。

5.4 监控训练过程

训练过程中可以:

  • 查看终端输出的 loss 曲线
  • 使用 TensorBoard 实时可视化:tensorboard --logdir runs/
  • 检查 runs/exp/weights/ 目录下的模型权重

六、常见问题与解决方案

问题 原因 解决方案
SSH 连接超时 服务器未开机或网络问题 确认实例已开机,检查本地网络
FileZilla 传输失败 密码错误或权限不足 检查用户名密码,尝试重新连接
VSCode 插件无法安装 远程服务器网络问题 使用 pip 手动安装所需包
训练过程显存不足 批次大小过大 减小 --batch
GPU 利用率低 数据加载瓶颈 启用多线程数据加载

七、小结

本篇详细介绍了从零开始在 AutoDL 平台租用 GPU 云服务器的全流程:

  1. 注册账号 → 完成实名认证与充值
  2. 配置实例 → 选择 GPU 型号、预装镜像
  3. 文件传输 → 使用 FileZilla 上传数据集与代码
  4. 远程开发 → VSCode + Remote SSH 实现本地般开发体验
  5. 运行训练 → 快速启动 YOLO 模型训练任务

掌握了这些基础技能后,你就可以将本地开发环境无缝迁移到云端,充分利用 GPU 算力加速深度学习项目的开发与迭代。


附录:AutoDL 使用技巧

A1. 定时开关机

在 AutoDL 控制台设置定时开机/关机任务,合理规划使用时间,节省费用。

A2. 镜像市场

利用社区镜像快速部署常用环境,如目标检测、NLP、图像分割等,减少手动配置时间。

A3. 数据持久化

关机前务必将重要数据下载到本地,或使用 AutoDL 提供的持久化存储功能,避免数据丢失。

A4. 费用监控

定期查看账单详情,设置预算提醒,防止意外超额扣费。


参考资源

  1. AutoDL 官方文档:https://www.autodl.com/docs
  2. FileZilla 官方下载:https://filezilla-project.org
  3. VSCode Remote SSH:https://code.visualstudio.com/docs/remote/ssh
Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐