空间管理您的位置: 51Testing软件测试网 » 学掌门Atstudy网校 » 日志

《权力的游戏》谁是你最喜爱的演员？这里有一份Python教程

上一篇 / 下一篇 2019-04-22 09:55:29 / 个人分类：软件测试

《权力的游戏》最终季已于近日开播，对于全世界翘首以待的粉丝们来说，其最大的魅力就在于“无法预知的人物命运”。那些在魔幻时代的洪流中不断沉浮的人们，将会迎来怎样的结局？近日，来自 Medium 上的一位名叫 Rocky Kev 的小哥哥利用 Python 通过《权力的游戏》粉丝网站收集最喜爱演员的照片。结果是怎样的是其次的，关键是过程，用他的话来讲，“非常 enjoy！”

　　文中，他主要分享了一些关于 Python 库的使用，包括：通过 Selenium 库实现 Web 自动化，并通过 BeautifulSoup 库进行 Web 抓取，生成 CSV 模块的报告，类似于采用 Python 工具模拟整个 Pandas/Data Science 方面的功能。

　　他还指出，读者不需要任何的 Python 经验，他已经详细解释了这些代码。而他自己也不是一名 Python专家，仅仅学习了几周的 Python 知识，就写出了这些代码。在他看来，“Python 是一种通用的编程语言，它具有严格的类型、解释，并且因其易读性和优异的设计原则而出名。”

　　如简单对比下 JavaScrip 与 Python 语法区别：

　　Python使用缩进和大括号。

　　Python 使用基于类的继承，因此它更像 C 语言，而 JavaScript. 可以模拟类。

　　Python 也是一种强类型，没有类型混合。例如，如果同时添加一个字符串和一个 Int类型的数据，它就会报错。

　　同样，他也为大家提前奉献了自己常用的 Python 免费资源，比如 Automata the Boring Stuff、Python for Beginners，以及 Dataquest.io data science等，都可以在网上搜集到。

　　本篇将主要分为三部分：

　　一、Web自动化

　　使用 Python 最酷的事情之一就是实现 Web 自动化。例如，你可以使用如下思路来编写一个 Python 脚本：

　　1、打开浏览器

　　2、自动访问特定网站

　　3、登录该站点

　　4、转到该网站的另一页面

　　5、查找最新的博文

　　6、打开那篇博文

　　7、提交评论 “写得好，鼓掌”

　　8、最后退出网站

　　这个过程看似不难，花 20 秒就可以搞定，但如果让一遍一遍这样做，谁都会被逼疯。例如，如果你的网站还在开发中，里面有 100 篇博客，你想给每篇博客发表评论来测试该功能。那就会需要花 100 篇博文 * 20 秒 = 大约 33 分钟。如果有多个测试阶段，那是不是要多次测试该功能？

　　不过，Web 自动化同样也可以应用在：

　　自动化创建网站账户。

　　在线课程中，从头到尾自动化监控。

　　仅使用单个脚本就能在网站上推送 100 个评论的功能。

　　我们将做什么？

　　对于这一部分，我们将自动化登录美剧《权力的游戏》的粉丝网站。如果我们单独去登录如 westeros.org、winteriscoming.net 等粉丝网站，非常浪费时间。使用如下所示的模板，你可以自动登录各类粉丝网站。

　　代码

　　安装 Python3、Selenium 和 Firefox Web 等程序才可以开始使用。

　　教程：如何使用 Python 自动化表单提交：

　　https://rockykev.com/how-to-automate-form-submissions-logins/

## Game of Thrones easy login script

　　##?Description:?This?code?logs?into?all?of?your?fan?sites?automatically

　　from selenium import webdriver

　　from selenium.webdriver.common.keys import Keys

　　from selenium.webdriver.support.ui import WebDriverWait

　　from selenium.webdriver.support import expected_conditions as EC

　　from selenium.common.exceptions import TimeoutException

　　import time

　　driver = webdriver.Firefox()

　　driver.implicitly_wait(5)

　　## implicity_wait makes the bot wait 5 seconds before every action

　　## so the site content can load up

　　# Define the functions

　　def?login_to_westeros?(username,userpass):

　　## Open the login page

　　driver.get('https://asoiaf.westeros.org/index.php?/login/')

　　## Log the details

　　print(username + " is logging into westeros.")

　　## Find the fields and log into the account.

　　textfield_username = driver.find_element_by_id('auth')

　　textfield_username.clear()

　　textfield_username.send_keys(username)

　　textfield_email = driver.find_element_by_id('password')

　　textfield_email.clear()

　　textfield_email.send_keys(userpass)

　　submit_button = driver.find_element_by_id('elSignIn_submit')

　　submit_button.click()

　　## Log the details

　　????print(username?+?"?is?logged?in!?->?westeros")

　　def?login_to_reddit_freefolk?(username,?userpass):

　　## Open the login page

　　????driver.get('https://www.reddit.com/login/?dest=https%3A%2F%2Fwww.reddit.com%2Fr%2Ffreefolk')

　　## Log the details

　　print(username + " is logging into /r/freefolk.")

　　## Find the fields and log into the account.

　　textfield_username = driver.find_element_by_id('loginUsername')

　　textfield_username.clear()

　　textfield_username.send_keys(username)

textfield_email = driver.find_element_by_id('loginPassword')

　　textfield_email.clear()

　　textfield_email.send_keys(userpass)

　　submit_button = driver.find_element_by_class_name('AnimatedForm__submitButton')

　　submit_button.click()

　　## Log the details

　　????print(username?+?"?is?logged?in!?->?/r/freefolk.")

　　## Define the user and email combo.

　　login_to_westeros("gameofthronesfan86", PASSWORDHERE)

　　time.sleep(2)

　　driver.execute_script("window.open('');")

　　Window_List = driver.window_handles

　　driver.switch_to_window(Window_List[-1])

　　login_to_reddit_freefolk("MyManMance", PASSWORDHERE)

　　time.sleep(2)

　　driver.execute_script("window.open('');")

　　Window_List = driver.window_handles

　　driver.switch_to_window(Window_List[-1])

　　## wait for 2 seconds

　　time.sleep(2)

　　print("task complete")

　 代码分解

　　首先，我们需要导入 Selenium 库来解决复杂的问题。还可以导入时间库，在每次操作后，将等待数秒。添加允许页面加载的等待时间。

from selenium import webdriver

　　from selenium.webdriver.common.keys import Keys

　　from selenium.webdriver.support.ui import WebDriverWait

　　from selenium.webdriver.support import expected_conditions as EC

　　from selenium.common.exceptions import TimeoutException

　　import time

　　什么是Selenium？

　　Selenium 是我们用于 Web 自动化的 Python 库。Selenium 开发了一个 API，可以让第三方开发 Web 驱动程序与浏览器通信。这样，Selenium 团队可以专注于代码库维护更新，而另一个团队可以专注于中间件。

　　例如：

　　Chromiun 团队为 Selenium 创建了自主的网络驱动程序 chromedriver

　　Firefox 团队为 Selenium 创建了自主的网络驱动程序 geckodriver

　　Opera 团队为 Selenium 创建了自主的网络驱动程序 operadriver

driver = webdriver.Firefox()

driver.get('

　　https://www.hbo.com/game-of-thrones

　　driver.close()

　　以上代码表达的意思是：将 Firefox 设置为首选浏览器，将此链接传递给 Firefox，关闭 Firefox。

　　登录网站

　　为了便于阅读，作者写了一个单独的函数来登录每个站点。

deflogin_to_westeros?(username,?userpass):

　　## Log in

　　driver.get('https://asoiaf.westeros.org/index.php?/login/')

　　## Log the details

　　print(username + " is logging into westeros.")

　　## 2)

　　Look for the login box on the page

textfield_username = driver.find_element_by_id('auth')

　　textfield_username.clear()

　　textfield_username.send_keys(username)

textfield_email = driver.find_element_by_id('password')

　　textfield_email.clear()

　　textfield_email.send_keys(userpass)

　　submit_button = driver.find_element_by_id('elSignIn_submit')

　　submit_button.click()

　　## Log the details

　　print(username?+?"?is?logged?in!?->?westeros")

　　如果更进一步分析代码，每个函数都有以下功能：

　　1、访问指定页面

driver.get('https://asoiaf.westeros.org/index.php?/login/')

　　2、查找登录框

　　*如果有请清除文本

　　*提交变量

textfield_username = driver.find_element_by_id('auth')

　　textfield_username.clear()

　　textfield_username.send_keys(username)

　　3、查找密码框

　　*如果有请清除文本

　　*提交变量

textfield_email = driver.find_element_by_id('password')

　　textfield_email.clear()

　　textfield_email.send_keys(userpass)

　　4、查找提交按钮，然后单击

　　submit_button = driver.find_element_by_id('elSignIn_submit')

　　submit_button.click()

　　注释：每个网站都有不同的方法来查找用户名/密码和提交按钮。需要读者做一些搜索工作。

　　如何找到任何网站的登录框和密码框？

　　Selenium 库有一堆方便的方法来查找网页上的元素。可以提供一些函数：

　　find_element_by_id

　　find_element_by_name

　　find_element_by_xpath

　　find_element_by_class_name

　　有关整个的函数列表，请访问 Selenium Python 文档去查找。

　　以 asoiaf.westeros.com 为例：

　　运行代码

　　以下运行代码时的一小段 demo（截图）

　　二、Web Scrapping

　　接下来，将探讨 Web Scrapping，它可以帮助你自动的获取 Web 内容。

　　整个过程是这样的：首先使用 Python 访问网页；接着使用 BeautifulSoup 解析该网页；然后设置代码获取特定数据。我们将获取网页上的图像。

　　Web Scrapping 也可以应用于：

　　获取网页上的所有链接；

　　获取论坛中所有帖子的标题；

　　下载网站中的所有网站。

　　挑战

　　我们的目标是抓取网页中的图片，虽然网页链接、正文和标题的抓取非常简单，但是对于图像内容的抓取要复杂得多。

　　作为 Web 开发人员，在单个网页上显示原图像会降低网页访问速度。一般是仅使用缩略图，而仅在单机缩略图时才加载完整图像。

　　举个例子：如果我们的网页有20张1M的图像。访问者登录后，必须下载20M的图像。更常用的方法是制作20张10kb的缩略图，这样有效负载就仅为200kb，也就是1/100。

　　那么这与网络抓取图像有什么关系呢？

　　上述例子意味着写一个适用于每个网站的通用代码非常困难。每个网站实现将缩略图转换为全尺寸图像的方法不同，这就导致很难创建一个通用的模型。

　　过程案例

　　本教程的目标是收集我们最喜爱演员的照片。为了收集这些照片，先利用 Python 进行网页内容抓取，然后通过 BeautifulSoup 库访问网页并从中获取图像的 tag。

　　注释：在许多网站条款和条件中，禁止任意形式的数据抓取。此外，请注意你正在占用其网站资源，你应该一次一个请求，而不是并行打开大量连接请求，逼停网站。

# Import the libraries needed

　　import requests

　　import time

　　from bs4 import BeautifulSoup

　　# The URL to scrape

　　url='https://www.popsugar.com/celebrity/Kit-Harington-Rose-Leslie-Cutest-Pictures-42389549?stream_view=1#photo-42389576'

　　#url='https://www.bing.com/images/searchq=jon+snow&FORM=HDRSC2'

　　# Connecting

　　response = requests.get(url)

　　# Grab the HTML and using Beautiful

　　soup = BeautifulSoup (response.text, 'html.parser')

　　#A loop code to run through each link, and download it

　　foriinrange(len(soup.findAll('img'))):

　　tag = soup.findAll('img')[i]

　　link = tag['src']

　　#skip it if it doesn't start with http

　　if"http"?in?full_link:

　　print("grabbed?url:"+link)

　　filename = str(i) + '.jpg'

　　print("Download:"+filename)

　　r = requests.get(link)

　　open(filename, 'wb').write(r.content)

　　else:

　　print("grabbed?url:"+link)

　　print("skip")

　　time.sleep(1)

　　Breaking down the code

　　使用 Python 访问网页

　　首先导入所需的库，然后将网页链接存到变量中。

　　Requesets 库用于执行各种 HTTP 请求。

　　Time 库用于在每个请求后等待一秒钟。

　　BeautifulSoup 库用于更轻松地搜索 DOM 树。

　　使用 BeautifulSoup 解析网页

　　接下来，将 URL 地址推送给 BeautifulSoup。

　　寻找内容

　　最后，使用 FOR 循环来获取内容。

　　以 FOR 循环开始，BeautifulSoup 能快速过滤，并找到所有的 img 标签，然后存储在临时数组中。使用 len 函数查询数组的长度。

　 #A loop code to run through each link, and download it

　　for i in range(len(soup.findAll('img'))):

　　代码中会有51个内容。

　　For i in range(50):

　　接下来，我们将返回 soup 对象，然后开始内容过滤。

　 tag = soup.findAll('img')[i]

　　link = tag['src']

　　需要记住的是，For循环中，[i]代表一个数字。

　　因此，我们可以通过索引号来寻找到每一个存储下来的 img 内容。采用soup.findALL('img')[i] 的使用方法将其传递给 tag 变量。

　　下一步是 src 变量。

　　下载内容

　　到循环的最后一步，下载内容。这里面的代码设计解释一下：

　　1、IF语句实际上是用于测试站点，有时候抓取的图像是根网站的一部分，且是不想要的内容。所以如果使用IF语句可以忽略。

　　2、只抓取 .jpg 格式的图片。

　　3、添加打印命令，如果你想获取网页所有的链接或特定内容，也是可以的。

　　其中采用的是 requests.get(link)和open(filename,'wb').write(r.content) 代码。

　 r = requests.get(link)

　　open(filename, 'wb').write(r.content)

　　原理：

　　1、Requests 获取链接。

　　2、Open 是 Python 的一个内置函数，可以打开或者创建文件，并给它写的权限，并将链接的内容写入文件。

#skip it if it doesn't start with http

if "http" in full_link:

print("grabbed url:

　　 " + link)

filename = str(i) + '.jpg'

print("Download:

　　 " + filename)

r = requests.get(link)

open(filename, 'wb').write(r.content)

else:

print("grabbed?url:

　　" + link)

print("skip")

time.sleep(1)

　　Web Scraping 有很多有用的函数。以上的代码在抓取网站的图像时，需要修改后才能使用。

　　三、生成报告和数据

　　收集数据很容易，但解释数据很困难。这就是为什么现在对数据科学家的需求急剧增加。数据科学家通常使用 R 和 Python 等语言进行解释。

　　接下来，我们将使用 CSV 模块。如果我们面对的是一个巨大的数据集，比如50,000 行或更多，那就需要使用 Pandas 库。

　　我们需要做的是下载 CSV 库，让 Python 解释数据，根据问题查询，然后打印出答案。

　　对比 Python 与表格函数

　　你可能会有疑问：“当我可以轻松使用像= SUM或= COUNT这样的表格函数，或者过滤掉我不需要手动操作的行时，为什么要使用 Python 呢？”

　　与第1部分和第2部分中的所有其他自动化技巧一样，你绝对可以手动执行此操作。但想象一下，如果你每天必须生成一份新的报告。

　　过程案例

　　每年，《权力的游戏》的新闻网站 Winteriscoming.net 都会举办疯狂三月的活动。访问者将投票选出他们最喜欢的角色，获胜者将向上移动并与另一个人竞争。经过 6 轮投票，宣布获胜者。

　　由于 2019 年投票仍在进行中，我们抓取了 2018 年 6 轮的数据并将其编译成 CSV 文件。此外，还添加了一些额外的背景数据（比如它们来自哪里），使报告内容更有趣。

　　不过，基于这个报告，有些问题需要考虑：

微软雅黑

收藏举报

TAG:

查看全部评论