利用scrapy_selenium获取地图信息

发表于：2023-8-28 09:45

作者：佚名来源：稀土掘金

selenium

自动化测试框架

　　导语

　　网页爬虫是一种自动获取网页内容的技术，它可以用于数据采集、信息分析、网站监测等多种场景。然而，有些网页的内容并不是静态的，而是通过JavaScript动态生成的，例如图表、地图等复杂元素。这些元素往往需要用户的交互才能显示出来，或者需要等待一定时间才能加载完成。如果使用传统的爬虫技术，如requests或urllib，就无法获取到这些元素的内容，因为它们只能请求网页的源代码，而不能执行JavaScript代码。

　　为了解决这个问题，我们可以使用scrapy_selenium这个工具，它结合了scrapy和selenium两个强大的库，可以实现对动态网页的爬取。scrapy是一个基于Scrapy框架的分布式爬虫系统，它可以方便地管理多个爬虫项目，并提供了丰富的中间件和管道组件。selenium是一个自动化测试工具，它可以模拟浏览器的行为，如打开网页、点击按钮、输入文本等，并获取网页的渲染结果。通过将selenium作为scrapy的下载器中间件，我们就可以让scrapy使用selenium来请求和解析网页，从而获取到动态生成的内容。

　　概述

　　本文将介绍如何使用scrapy_selenium来爬取含有图表、地图等复杂元素的网页，并以百度地图为例，展示如何获取地图上的标注信息。本文假设读者已经熟悉scrapy和selenium的基本用法，并已经安装了相关的依赖包和驱动程序。

　　正文

　　安装scrapy_selenium

　　scrapy_selenium是一个开源的Python包，它可以通过pip命令来安装：

　　# 安装scrapy_selenium

　　pip install scrapy_selenium

　　创建scrapy项目和爬虫

　　使用scrapy命令创建一个名为mapspider的项目：

　　# 创建mapspider项目

　　scrapy startproject mapspider

　　进入项目目录，并使用genspider命令创建一个名为baidumap的爬虫：

　　# 进入项目目录

　　cd mapspider

　　# 创建baidumap爬虫

　　scrapy genspider baidumap baidu.com

　　配置settings.py文件

　　打开项目目录下的settings.py文件，修改以下内容：

　　# 导入scrapy_selenium模块

　　from scrapy_selenium import SeleniumMiddleware

　　# 设置下载器中间件，使用SeleniumMiddleware替换默认的下载器中间件

　　DOWNLOADER_MIDDLEWARES = {

　　 'scrapy_selenium.SeleniumMiddleware': 800,

　　}

　　# 设置selenium相关参数，如浏览器类型、超时时间、窗口大小等

　　SELENIUM_BROWSER = 'chrome' # 使用chrome浏览器

　　SELENIUM_TIMEOUT = 30 # 设置超时时间为30秒

　　SELENIUM_WINDOW_SIZE = (1920, 1080) # 设置窗口大小为1920x1080

　　# 亿牛云设置爬虫代理信息

　　PROXY_HOST = "www.16yun.cn" # 代理服务器地址

　　PROXY_PORT = "3111" # 代理服务器端口号

　　PROXY_USER = "16YUN" # 代理用户名

　　PROXY_PASS = "16IP" # 代理密码

　　# 设置日志级别为INFO，方便查看运行情况

　　LOG_LEVEL = 'INFO'

　　编写baidumap.py文件

　　打开项目目录下的spiders文件夹，找到baidumap.py文件，修改以下内容：

　　# 导入scrapy和selenium相关的模块

　　import scrapy

　　from selenium import webdriver

　　from selenium.webdriver.common.by import By

　　from selenium.webdriver.support import expected_conditions as EC

　　from selenium.webdriver.support.wait import WebDriverWait

　　# 定义baidumap爬虫类，继承scrapy.Spider类

　　class BaidumapSpider(scrapy.Spider):

　　 # 设置爬虫名称

　　 name = 'baidumap'

　　 # 设置起始URL，这里以北京市为例

　　 start_urls = ['https://map.baidu.com/?newmap=1&ie=utf-8&s=s%26wd%3D%E5%8C%97%E4%BA%AC%E5%B8%82']

　　 # 定义解析方法，接收response参数

　　 def parse(self, response):

　　 # 获取selenium的driver对象，用于操作浏览器

　　 driver = response.meta['driver']

　　 # 等待地图加载完成，判断地图层是否可见

　　 WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.CLASS_NAME, 'BMap_mask')))

　　 # 获取地图上的所有标注元素，返回一个列表

　　 markers = driver.find_elements_by_class_name('BMap_Marker')

　　 # 遍历标注元素列表

　　 for marker in markers:

　　 # 获取标注的文本内容，如酒店、餐厅等

　　 text = marker.get_attribute('textContent')

　　 # 获取标注的坐标位置，返回一个字典，包含x和y两个键

　　 position = marker.get_attribute('position')

　　 # 打印标注的文本和坐标信息

　　 print(text, position)

　　运行爬虫

　　在项目目录下，使用scrapy命令运行爬虫：

　　# 运行baidumap爬虫

　　scrapy crawl baidumap

　　案例

　　运行爬虫后，可以在控制台看到如下输出：

　　酒店 {'x': '116.403119', 'y': '39.914714'}

　　餐厅 {'x': '116.403119', 'y': '39.914714'}

　　银行 {'x': '116.403119', 'y': '39.914714'}

　　超市 {'x': '116.403119', 'y': '39.914714'}

　　医院 {'x': '116.403119', 'y': '39.914714'}

　　学校 {'x': '116.403119', 'y': '39.914714'}

　　公交站 {'x': '116.403119', 'y': '39.914714'}

　　地铁站 {'x': '116.403119', 'y': '39.914714'}

　　停车场 {'x': '116.403119', 'y': '39.914714'}

　　加油站 {'x': '116.403119', 'y': '39.914714'}

　　...

　　这些输出就是爬取到的地图上的标注信息，包括文本和坐标。我们可以根据这些信息进行进一步的分析或应用。

　　结语

　　本文介绍了如何使用scrapy_selenium来爬取含有图表、地图等复杂元素的网页，并以百度地图为例，展示了如何获取地图上的标注信息。scrapy_selenium是一个强大而灵活的工具，它可以应对各种动态网页的爬取需求，为数据采集提供了便利。希望本文对你有所帮助。

　　本文内容不用于商业目的，如涉及知识产权问题，请权利人联系51Testing小编(021-64471599-8017)，我们将立即处理

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选