爬虫小程序

上一篇 / 下一篇  2016-04-07 18:07:43 / 个人分类:python

import re
import urllib
#取整个网页的源码
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
  
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'#正则表达式
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html)#找出整个网页中的图片地址
    x=0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg'%x)#下载图片
        x+=1

html=getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))


#不是所有的网页都适用

TAG: 程序

 

评分:0

我来说两句

我的栏目

日历

« 2024-04-22  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 17025
  • 日志数: 18
  • 书签数: 3
  • 建立时间: 2016-03-21
  • 更新时间: 2017-09-11

RSS订阅

Open Toolbar