专注于自动化测试,性能测试.......

使用python提取英文文章中的单词及出现的次数(原创)

上一篇 / 下一篇  2009-09-15 19:06:09 / 个人分类:Python

51Testing软件测试网Q9J/{f5Y'}U3F"`U

  经常要读一些英文的文章,但文章中的生僻单词经常会影响阅读的速度和节奏,所以就像先把文章中所有的单词提取出来,然后找出自己不认识的单词进行预读和背诵。下边是使用python进行单词的提取。51Testing软件测试网4r6ypW$n+v^O

yt3{P j0A3|"x0    #-*-coding:gb2312-*-
Pz%Q)])r`-Q0import re
%to|KK4j#v X0import string
0]$V(]~)f$o5@Gj0#输出结果51Testing软件测试网!Z/\dOy8hW"uT
f = open("D:\\result.txt","w")
!M+{ vof:tw#a0#输入文本
(vT-Lz"}!d5f0r = open("D:\\input.txt","r")
9r-T3pv@0strs =r.read()51Testing软件测试网7`*x3?W/U_b
#使用正则表达式,把单词提出出来,并都修改为小写格式51Testing软件测试网 }$RHC F M,b
s = re.findall("\w+",str.lower(strs))51Testing软件测试网%wye$?[#a
#去除列表中的重复项,并排序
aY_` U0l = sorted(list(set(s)))51Testing软件测试网3x.Gcs \.j:i(\4@
#去除含有数字和符号,以及长度小于5的字符串
x"u-]$?!E}0for i in l:
U'Sk$bp3L2H&D:c0    m = re.search("\d+",i)51Testing软件测试网Yo fu&XYd%d-j*c
    n = re.search("\W+",i)51Testing软件测试网B!q[/Vq$b
    if not m and  not n and len(i)>4:51Testing软件测试网]3D-p2|e?;F
        f.write(i +" : "+str(s.count(i))+"\n")51Testing软件测试网[%Bgy9Va4i z
r.close()51Testing软件测试网u{l?&].?8[
f.close()
*O7Y+u\-d7q0m!vS3kB051Testing软件测试网#cV+pt!?f C_


TAG: Python python

daven的个人空间 引用 删除 xdf191   /   2015-10-19 09:01:02
5
引用 删除 2dboy   /   2011-05-20 09:46:00
你好  如果连续两个单词首字母大写 那就是词组了  是一个人名、事件名或者是地名了  这个如果条件如何加在这个程序里?  我们交个朋友吧  Q23597193
冰山一角 引用 删除 wxf_xsfy   /   2009-09-17 00:46:11
原帖由Yangtze.Rive于2009-09-16 16:17:46发表
很强大。。。python这个我才开始接触。。你是做这方面开发的吗?

我也是学习不久,我是干测试的
Yangtze.Rive的个人空间 引用 删除 Yangtze.Rive   /   2009-09-16 16:17:46
很强大。。。python这个我才开始接触。。你是做这方面开发的吗?
 

评分:0

我来说两句

wxf_xsfy

wxf_xsfy

自动化测试的拥簇者,善于自动化测试的框架和工具开发,TIB工作室核心成员

日历

« 2024-05-08  
   1234
567891011
12131415161718
19202122232425
262728293031 

数据统计

  • 访问量: 381643
  • 日志数: 79
  • 图片数: 1
  • 文件数: 1
  • 书签数: 3
  • 建立时间: 2007-09-19
  • 更新时间: 2018-01-30

RSS订阅

Open Toolbar