python3.x爬取美团信息

上一篇 / 下一篇  2016-07-22 23:47:42 / 天气: 阴雨 / 心情: 高兴 / 精华(1) / 个人分类:python

   在之前的文章中,笔者有提到,我们要在实践中去学习python,笔者有天就想着要不要爬点东西呢,跃跃欲试的节奏啊,想来想去,想到美团了,那么首先笔者想给自己确定一个目标,就是我要爬什么样的数据,我要爬美团的哪些东西。笔者首先确定了笔者想要爬去的界面,http://bj.meituan.com/。就是美团网在北京的团购首页,获取首页的团购,团购项目的介绍,团购售价,销量。
   1.首先确定要用的模块,<1.>urrlib,os,re三个模块,
   2.要想获得数据,并且一一对应起来,那么用到循环的嵌套(一开始卡壳,后来咨询得到启发),
   3.获取网页的所有数据,爬去下来
   4.分析这些想要或许的模块怎么找出来,
   5.找出相对于的正则来匹配,
   6.获取数据,并且找到对应的数值
   7.利用循环,并且配合字典的使用,将数据完整的获取下来,
   8.保存到相应的文档中
   9.关闭文档,
   10.提示数据保存成功,结束爬去。
   由于这是第一次采取这么多的信息,之前只是爬个图片啥的,所以笔者还是十分小心的去审查每一个元素,在这里推荐利用火狐浏览器,感觉是真的好用使用Firebug插件审查元素。
查看元素后,可以获得这个网站的编码形式是utf-8,这对于我们爬取数据也是关键的。
   在一开始呢,笔者还打开了一款软件,fiddler,抓包

TAG: 美团 信息

 

评分:0

我来说两句

日历

« 2024-04-22  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 13125
  • 日志数: 13
  • 建立时间: 2016-04-14
  • 更新时间: 2019-11-07

RSS订阅

Open Toolbar