简介:本文将介绍如何使用Python编写一个简单的爬虫程序,自动爬取网页上的图片并保存到本地文件夹中。通过这个程序,你可以轻松地下载自己喜欢的图片或进行图片数据收集。
要编写一个Python爬虫程序,我们首先需要了解一些基本的网络爬虫概念和Python编程知识。以下是一个简单的Python爬虫程序,用于自动爬取网页上的图片并保存到本地文件夹中。
pip install requests beautifulsoup4
import requestsfrom bs4 import BeautifulSoup
def crawl_images(url, output_folder):# 发送HTTP请求获取网页内容response = requests.get(url)if response.status_code == 200:# 使用BeautifulSoup解析HTMLsoup = BeautifulSoup(response.content, 'html.parser')# 提取图片标签并提取URLimage_tags = soup.find_all('img')for tag in image_tags:image_url = tag.get('src')# 下载图片并保存到本地文件夹image = requests.get(image_url)with open(output_folder + '/' + image_url.split('/')[-1], 'wb') as f:f.write(image.content)
url = 'https://example.com' # 目标网页的URLoutput_folder = 'images' # 保存图片的本地文件夹路径crawl_images(url, output_folder)
这个Python脚本是一个基本的图片爬虫程序,它使用requests库发送HTTP请求获取网页内容,使用BeautifulSoup库解析HTML并提取图片URL,然后使用requests库下载图片并保存到本地文件夹中。你可以根据需要修改和扩展这个程序,例如添加异常处理、支持更多类型的图片格式等。请注意,在使用爬虫程序时,要遵守网站的robots.txt文件和使用条款,尊重网站的权益和用户体验。