空间管理您的位置: 51Testing软件测试网 » 兜兜米的个人空间 » 日志

爬虫小程序

上一篇 / 下一篇 2016-04-07 18:07:43 / 个人分类：python

import re
import urllib
#取整个网页的源码
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'#正则表达式
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html)#找出整个网页中的图片地址
    x=0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg'%x)#下载图片
        x+=1

html=getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))

#不是所有的网页都适用

用户菜单

我的栏目

标题搜索

日历

我的存档

数据统计

访问量: 17025
日志数: 18
书签数: 3
建立时间: 2016-03-21
更新时间: 2017-09-11