相信大家都对爬虫非常熟悉,一般来说,利用HttpClient发送请求并获取响应以获得想要提取的数据应该是最常用的方法。最近工作中频繁使用了Selenium,在本文中,我们将使用Selenium和POI(读写Excel)来完成一个入门级的自动化程序。步骤一览使用Maven创建工程,引入Selenium和POI依赖下载ChromeDriver并配置环境变量编写Selenium查词脚本读写Excel并保存编写main方法,运行程序现在开始。
1.使用Maven创建工程,引入Selenium和POI依赖
1.2 在IDEA中配置MavenIDEA自带Maven可能版本非最新,建议自行引入本地最新版本。
1.3 创建工程创建工程时只要使用最基础的模板,也就是直接点击next。
1.4 在mvnrepository.com搜索Selenium,POI和POI-ooxml依赖,将其引入pom.xml,并在右下角点击import change,最终pom.xml加入内容如下:
2.下载ChromeDriver并配置环境变量(三选一)
2.1 在镜像站下载ChromeDriver,配置环境变量自行手动下载ChromeDriver后如不配置环境变量,需在代码中加上System.setProperty("webdriver.chrome.driver",path); 其中path是你的driver路径。
2.2 Windows使用choco install直接安装
2.3 Mac使用brew install cask直接安装
3.编写Selenium查词脚本
3.1 创建Search类,编写setUp方法 在setUp中,首先需要初始化WebDriver,然后访问到有道首页,搜索test点击确定并跳转至搜索页,注意在driver访问此页面时会弹出广告,需要一行代码来抓取关闭链接关掉广告,代码如下:
3.2 编写searchWord脚本方法searchWord方法需要传入你要搜索的单词,然后抓取搜索框,输入后点击确认。这时你将获得搜索详情的页面,其中你需要抓取中文翻译的div并且获取其中文字,代码如下:
4.读写Excel并保存
4.1 创建Excel文件并写入单词新建一个Excel,然后在最左边第一列填入一些单词,注意,不要有空行,本文代码中没有带异常处理,空行会报错。
4.2 编写Excelio类,编写read方法利用poi框架,与普通文件读写异曲同工,代码如下:
4.3 编写searchWord方法
调用Search类的searchWord进行搜索,然后将获取到的String写入Excel,代码如下:
4.4 编写save方法使用FileOutputStream,保存Excel,代码如下:
5.编写main方法,运行程序
编写入口方法,代码如下:
后记成为技术大牛梦想虽然很美好,但是要付出很多,这个过程中可能很苦逼,也可能很枯燥,这里我想特别强调一下:前面我讲的都是一些基础的东西,但真正起决定作用的,其实还是我们对技术的热情和兴趣!
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。