使用Python采集招聘网站软件测试关键词

发表于:2020-12-09 10:07

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:zhu6201976-朱华龙    来源:CSDN

#
Python
  先看效果:
  从上图可知,目前软件测试岗位需求主要关键词如下:自动化、数据库、经验、计算机相关专业
  源码(背景图、51job 软件测试 采集结果请自备或联系博主获取):
import csv
 
import jieba
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
 
# 1.读取文件内容
csv_file = open(r'examples/wc_cn/job_51_2020-04-16.csv', 'r', encoding='utf-8')
reader = csv.reader(csv_file)
title = next(reader)
content = ''
for line in reader:
    info = line[3]
    info = info.replace('微信分享', '').replace('Python', '').replace('python', '') \
        .replace('工程师', '').replace('职能', '').replace('类别', '').replace('岗位职责', '').replace('职位诱惑', '')\
    .replace('以上学历', '').replace('关键字', '').replace('软件测试', '')
    content += info
 
csv_file.close()
 
# 2.jieba分词
# ret = jieba.cut(content, cut_all=True)
ret = jieba.cut_for_search(content)
ret = ' '.join(ret)
 
# 3.制作词云
bg = np.array(Image.open('mzss.jpg'))  # 背景图片
wc = WordCloud(
    background_color='white',  # 图片背景
    mask=bg,  # 背景图片
    max_words=200,  # 最大分词数量
    stopwords=STOPWORDS,  # 停止的默认词语
    font_path='SIMHEI.TTF',  # 自定义中文字体路径
    max_font_size=100,  # 最大字体尺寸
    random_state=50,  # 随机角度 横竖
    scale=1,
).generate(ret)
icg = ImageColorGenerator(bg)  # 字体随机颜色从bg中截取
plt.imshow(wc)
plt.axis('off')
# plt.show()
plt.savefig(__file__ + '.png')

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号