一、安装 Python 环境
更新系统包:登录服务器后,执行以下命令以更新系统包列表并安装编译 Python 所需的依赖库:
bash sudo apt-get update
sudo apt-get install -y build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libsqlite3-dev libreadline-dev libffi-dev curl libbz2-dev
下载并安装 Python:从 Python 官网下载所需的 Python 版本,例如 Python 3.6.8:
bash wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz
tar -xf Python-3.6.8.tgz
cd Python-3.6.8
./configure –enable-optimizations
sudo make install
验证 Python 安装:安装完成后,执行 python3 –version 命令以确认 Python 是否安装成功。
二、安装爬虫相关库
安装 pip:它是 Python 的包管理工具,用于安装和管理 Python 库。执行以下命令安装 pip:
bash sudo apt-get install -y python3-pip
安装常用爬虫库:如 requests、 beautifulsoup4、lxml 等:
bash pip3 install requests beautifulsoup4 lxml
安装 Scrapy 框架(可选):如果需要使用 Scrapy 框架来构建爬虫,可以执行以下命令进行安装:
bash pip3 install scrapy
三、部署爬虫项目
创建爬虫项目目录:在服务器上创建一个目录用于存放爬虫项目文件:
bash mkdir ~/my_crawler
cd ~/my_crawler
上传爬虫代码:可以使用 SCP 命令或工具(如 WinSCP)将本地的爬虫代码上传到服务器的项目目录中:
bash scp -r /local/path/to/crawler/user@remote_host:/remote/path/to/crawler
安装项目依赖:在项目目录下,执行以下命令安装爬虫项目所需的依赖库:
bash pip3 install -r requirements.txt
四、运行爬虫
手动运行爬虫:在项目目录下,使用 Python 命令直接运行爬虫脚本:
bash python3 my_crawler.py
后台运行爬虫:为了确保爬虫能够在后台持续运行,可以使用 nohup 命令:
bash nohup python3 my_crawler.py >/dev/null 2>&1 &
定时运行爬虫:如果需要定时启动爬虫任务,可以使用 cron 定时器。编辑 crontab 文件:
bash crontab -e
添加定时任务,例如每天凌晨 2 点 30 分运行爬虫:
bash 30 2 * * * /usr/bin/python3 /path/to/my_crawler.py
五、优化和监控
性能优化:根据爬虫运行情况,优化代码和服务器性能。可以使用工具(如 HTOP)监控服务器资源使用情况,并根据需要调整爬虫的运行参数。
日志记录和监控:在爬虫代码中添加日志记录功能,以便追踪爬虫的运行状态和问题。同时,可以设置服务器监控,及时发现和处理异常情况。
评论前必须登录!
注册