专注于自动化测试,性能测试.......

使用python提取英文文章中的单词及出现的次数(原创)

上一篇 / 下一篇  2009-09-15 19:06:09 / 个人分类:Python

51Testing软件测试网D}wMidZ6H

  经常要读一些英文的文章,但文章中的生僻单词经常会影响阅读的速度和节奏,所以就像先把文章中所有的单词提取出来,然后找出自己不认识的单词进行预读和背诵。下边是使用python进行单词的提取。51Testing软件测试网 Ax'J,v&Y u

51Testing软件测试网7Q;B N%vNz

    #-*-coding:gb2312-*-51Testing软件测试网"Q'h&LL%I3v"S}
import re51Testing软件测试网:rj,|;_]H0O
import string
M0tlCbq.A0#输出结果
B1IY_OUO L[9r)M(pX0f = open("D:\\result.txt","w")51Testing软件测试网$}tJ:}$v8Q\b
#输入文本51Testing软件测试网$F8N&w$x|4a2f
r = open("D:\\input.txt","r")
i \5u2A y W,K0strs =r.read()51Testing软件测试网a0E^7l1x j;Gu
#使用正则表达式,把单词提出出来,并都修改为小写格式51Testing软件测试网]!LIR?,R(eM"Z7G+{
s = re.findall("\w+",str.lower(strs))51Testing软件测试网 A#x`6S dz\
#去除列表中的重复项,并排序51Testing软件测试网u5Yr4F;t.\p(VZ%e
l = sorted(list(set(s)))
XE^ ~G5Xfzh.S0#去除含有数字和符号,以及长度小于5的字符串
@'`rWi4w1~Z0for i in l:51Testing软件测试网V4NL O'}E
    m = re.search("\d+",i)
J(R/r6\W?j&ZH0    n = re.search("\W+",i)51Testing软件测试网QQ!AafA
    if not m and  not n and len(i)>4:51Testing软件测试网 q3}|;Pa-y)Gx
        f.write(i +" : "+str(s.count(i))+"\n")
/h/[,m?wLmH6NR0r.close()51Testing软件测试网D.s!O7}F U
f.close()51Testing软件测试网"DD1s2]2^9_W i

O8~r.iR'|`d0

TAG: Python python

daven的个人空间 引用 删除 xdf191   /   2015-10-19 09:01:02
5
引用 删除 2dboy   /   2011-05-20 09:46:00
你好  如果连续两个单词首字母大写 那就是词组了  是一个人名、事件名或者是地名了  这个如果条件如何加在这个程序里?  我们交个朋友吧  Q23597193
冰山一角 引用 删除 wxf_xsfy   /   2009-09-17 00:46:11
原帖由Yangtze.Rive于2009-09-16 16:17:46发表
很强大。。。python这个我才开始接触。。你是做这方面开发的吗?

我也是学习不久,我是干测试的
Yangtze.Rive的个人空间 引用 删除 Yangtze.Rive   /   2009-09-16 16:17:46
很强大。。。python这个我才开始接触。。你是做这方面开发的吗?
 

评分:0

我来说两句

wxf_xsfy

wxf_xsfy

自动化测试的拥簇者,善于自动化测试的框架和工具开发,TIB工作室核心成员

日历

« 2024-04-24  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 381445
  • 日志数: 79
  • 图片数: 1
  • 文件数: 1
  • 书签数: 3
  • 建立时间: 2007-09-19
  • 更新时间: 2018-01-30

RSS订阅

Open Toolbar