云计算百科
云计算领域专业知识百科平台

服务器下载Google Cloud Storage(GCS)数据集

在中国大陆访问 GCS 通常 速度较慢甚至访问失败,所以建议结合下列方法下载到的服务器上: 下列方式将以Nutrition5K(181G)的数据集为例:链接: link

推荐方式:使用 aria2c + 代理 或 中转下载工具

  • 在你上传的图中,点击文件右侧的 三个点 → 复制公开网址 点三个点复制公开网址
  • 这样拿到一个类似这样的网址:
  • https://storage.googleapis.com/nutrition5k_dataset/nutrition5k_dataset.tar.gz

  • 然后就可以在服务器上下载了(推荐使用 aria2c,支持断点续传)
  • aria2c -x 16 -s 16 https://storage.googleapis.com/nutrition5k_dataset/nutrition5k_dataset.tar.gz

  • 如果数据量比较大,可以使用nohup的方式在后台下载:
  • nohup aria2c -x 16 -s 16 "https://storage.googleapis.com/nutrition5k_dataset/nutrition5k_dataset.tar.gz" nutrition5k.log 2>&1 &

    • 注意:如果没有aria2c插件的话可以安装一下:
      • 对于 Ubuntu / Debian 系统:sudo apt update
        sudo apt install -y aria2
      • 对于 CentOS / RHEL:sudo yum install -y epel-release
        sudo yum install -y aria2

      替代方法:先用你本地电脑下载,再上传到服务器

      方法 A:用浏览器下载本地 → 用 scp 上传到服务器

      • 本地用浏览器下载 .tar.gz
      • 然后使用如下命令上传到服务器(假设用的是 Linux 或 Mac):
      • scp nutrition5k_dataset.tar.gz user@your_server_ip:/path/on/server/

      方法 B:使用 gdown(针对公开文件)

      • 如果这个 GCS 文件也同步到了 Google Drive(部分数据集会这样处理),可以:pip install gdown
        gdown https://drive.google.com/uc?id=xxxxxxx
    赞(0)
    未经允许不得转载:网硕互联帮助中心 » 服务器下载Google Cloud Storage(GCS)数据集
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!