现在主要在知乎,地址:https://www.zhihu.com/people/qqrrm 老的文章在:http://blog.csdn.net/pyp

宋词分析改编版(ruby)

上一篇 / 下一篇  2014-02-02 23:50:10 / 个人分类:ruby

很久之前写的了,在别的地方,blog多就总忘,还是在这里留一个备份吧。现在是ruby2.0版了,有时间还是应该重构一下。还有,我专门买了一个移动硬盘安装ubuntu,笔记本也用wubi安装了一个,所以现在主要在ubuntu下学习ruby,坑就少多了,大家也可以学习一下ruby。



上一次我写的宋词分析,是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。 
    不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。 
    我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理utf-8文字了。 
    嗯,Windows就是麻烦,Linux和mac一直想玩玩,但是单位无法上网,需要联网的东西太费事了。 
    还有就是改写为utf-8版后,计数和gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。 



#coding: utf-8
require "iconv"

NUM1 = 2 #分词长度
NUM2 =500  #显示大于多少的记录

def splitword(s,l)    #分词,s是字符串,l是字符分词长度
  lt  = s.length
  k = Array.new
  0.upto(lt-l) do |i| 
    k<<s[i..i+l-1]
  end
  return k
end

t = Time.now

x = Array.new     #记录分词结果的数组
File.open("ci.txt", "r")  do |file|
  file.each do |line|    
    line = Iconv.conv("UTF-8//IGNORE","GBK", line)    
    line.chomp!
    column = line.split(/,|。|!|?|、/)          #使用标点分割
    column.delete_if {|i| i.length >10 }    #去除大于10个字的语句
    column.each do |col| 
      splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
    end 
  end
end

h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2}               #去除hash中小于指定数值的部分

y = Array.new
y  = h.sort {|a,b| b[1]<=>a[1]}                      # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

puts "运行时间是:"<<(Time.now-t).to_s<<"秒"

TAG:

 

评分:0

我来说两句

日历

« 2024-04-15  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 70008
  • 日志数: 47
  • 图片数: 2
  • 文件数: 2
  • 建立时间: 2006-11-24
  • 更新时间: 2023-01-29

RSS订阅

Open Toolbar