数据人群性别分布
男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我爬取的数据中男生居多。
下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。
图说股市
在知乎“能利用爬虫技术做到哪些很酷很有趣很有用的事情?” 有一个google实习的哥们@Emily L爬了400亿条tweet也做了很多有趣的分,其中提到一篇关于利用twitter上人的心情来预测股市的论文()很有意思。另附我在该问题下的答案“用爬虫监测她(他)的知乎动态”,仅做技术玩乐,求别再喷我猥琐了。
如果当我们拥有海量的QQ空间最新说说,和sina微博数据。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。我接下来可能会考虑去做这件有趣的事情。
将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量用户进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱。
群众讨论最多的明星排行榜,还是很靠谱的。
另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。
张杰QQ:419998
花千骨的赵丽颖QQ:427794
谢娜QQ:500746
杨幂QQ:456773
范冰冰QQ:88597
周杰伦QQ:332661
最为用户喜爱的手机品牌
人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。 取这么多名字,自讨苦吃。
QQ空间中讨论的最为频繁的社交平台排行榜。
生活的统计图
爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多; 谁特么说中国不幸福了,这满满的都是正能量数据啊。
好了,其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的,那就给我留言吧。
技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。 这次的程序设计就是模拟的工厂的生产线。附个设计图吧。