云计算百科
云计算领域专业知识百科平台

如何使用服务器训练AI模型

参考博客:https://blog.csdn.net/ECHOSON/article/details/142530120 和https://blog.csdn.net/ECHOSON/article/details/144233535 本文仅是自己学习使用,做简单记录,具体细节可见参考博客内容。

2025.03.11

1.获取云服务器

登录蓝耕云

地址如下:https://cloud.lanyun.net/#/loginPage 这个云服务器对新人送30块代金券,比较友好,新人可以考虑。

新建一个容器实例

在这里插入图片描述 在这里插入图片描述 根据自己的情况,选择合适的容器。一般选择按量计费,这个是根据时间计费的,所以在不用容器的时候,可以关机,这样就不会计费了。 在这里插入图片描述 容器镜像选择Miniconda,并且是最高版本。原因是在conda下可以配置多个虚拟环境,而且高版本的可以向下兼容。当然,也可以根据自己项目所需,选择适合自己的镜像。我这里选择的是Miniconda,并且是最高版本。 在这里插入图片描述

2.使用云服务器

开机并使用

开机后,选择JupyterLab 在这里插入图片描述

创建一个终端 在这里插入图片描述 下面列出一些常用的Linux系统的命令,这些命令可以在终端上使用

# 显示当前工作目录
pwd
# 列出当前目录的文件
ls
# 切换目录
cd /path/to/directory
# 创建目录
mkdir new_directory
# 删除空目录
rmdir empty_directory
# 软件安装
yum install [软件]
rpm -ivh [软件包] #安装 RPM 包
# 文件解压缩
tar -xzvf file.tar.gz # 解压 tar.gz 文件
7z x file.7z # 解压 7z 文件(需要安装 p7zip)
# 查看gpu利用率
watch -n 1 nvidia-smi

使用命令:cd lanyun-tmp 进入数据盘,数据盘内存更大。 在这里插入图片描述

上传本地文件到云服务器

由于我们本地需要上传的文件比较大,通过直接拖动上传的方式可能较慢,所以这里我们使用专业的文件传输软件xftp进行上传,软件的下载地址位于:https://www.xshell.com/zh/free-for-home-school/,下载之后使用你得个人邮箱进行注册即可。 我们首先需要从我们的服务器实例页面找到服务器的地址、端口号和密码等信息。 在这里插入图片描述

打开xftp,点击左上角的新建,根据复制的SSH,输入相关信息。如我的SSH是:ssh -p 34683 root@link.lanyun.net,那么我就应该如此填写: 在这里插入图片描述 点开 在这里插入图片描述 以root身份登录: 在这里插入图片描述 将在蓝耕云的密码复制下来,填进去 在这里插入图片描述 在这里插入图片描述 后续直接采用拖拽的方式就可以上传文件了。上传文件建议采用压缩包的形式上传,并且上传到lanyun-tmp数据盘,因为数据盘的数据可以做数据迁移,这样以后容器被占用,就可以再开一个容器。

3. 配置及使用

在命令行输入conda init bash 后重启,初始化环境 。重启后, (1)配置镜像

conda config –remove-key channels
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config –set show_channel_urls yes
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

(2)创建并激活虚拟环境

conda create -n yolo python==3.8.5
conda activate yolo

(3)安装torch

pip3 install torch torchvision torchaudio

验证torch是否安装成功

python
import torch
print(torch.cuda.is_available())
//返回true 后
exit()

(4)安装其他依赖库

pip install -v -e .
//或者 pip install -r requirements.txt

(5)运行相关的文件

python 文件名


2024.12.19

1.获取云服务器

这里推荐AutoDL,网站如下:https://www.autodl.com/home

2.下载mobaxterm

地址:https://mobaxterm.mobatek.net/download-home-edition.html

3.在mobaxterm新建一个会话进行服务器训练

1.输入从云服务器得到的用户名和密码,密码不会显示,右键粘贴 2.查看数据盘所在位置,进入数据盘位置,将本地文件通过拖拽方式放在这个位置。注意:最好拖拽成压缩包形式,这样上传更快。 解压命令:unzip 文件名 在这里插入图片描述 3.通过命令 cd 文件名 的方式进入目标文件夹,初始化环境 conda init bash 后重启。 4.重启后再次进入目标文件夹 (1)配置镜像

conda config –remove-key channels
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config –set show_channel_urls yes
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

(2)创建和激活虚拟环境

conda create -n yolo python==3.8.5
conda activate yolo

(3)安装torch

conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 注意这条命令指定Pytorch的版本和cuda的版本
conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 30系列以上显卡gpu版本pytorch安装指令
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # CPU的小伙伴直接执行这条命令即可

验证torch是否安装成功

python
import torch
print(torch.cuda.is_available())
//返回true 后
exit()

(4)安装其他依赖库

pip install -v -e .
//或者 pip install -r requirements.txt

(5)运行相关的文件

python 文件名

赞(0)
未经允许不得转载:网硕互联帮助中心 » 如何使用服务器训练AI模型
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!