空间管理您的位置: 51Testing软件测试网 » RR 相思已是不曾闲 » 日志

现在主要在知乎，地址：https://www.zhihu.com/people/qqrrm 老的文章在：http://blog.csdn.net/pyp

宋词分析改编版（ruby）

上一篇 / 下一篇 2014-02-02 23:50:10 / 个人分类：ruby

很久之前写的了，在别的地方，blog多就总忘，还是在这里留一个备份吧。现在是ruby2.0版了，有时间还是应该重构一下。还有，我专门买了一个移动硬盘安装ubuntu，笔记本也用wubi安装了一个，所以现在主要在ubuntu下学习ruby，坑就少多了，大家也可以学习一下ruby。

上一次我写的宋词分析，是在Windows环境下的，缺省编码是GBK（936），所以在处理UTF-8的时候，需要转换为GBK，再进行处理分析。

不过现在已经是ruby1.9版了，那么就改一下，在uft-8下处理程序，主要就是把原宋词文件内容从gbk编码为utf-8，再进行相应的处理，dos下需要chcp 65001转换为utf-8编码，再执行才可以看到正确结果，否则就是乱码。

我用的SciTE，在Options->Open Global Options File中，code.page=65001，output.code.page=65001去除前面的#，就可以正确处理utf-8文字了。

嗯，Windows就是麻烦，Linux和mac一直想玩玩，但是单位无法上网，需要联网的东西太费事了。

还有就是改写为utf-8版后，计数和gbk版的不同了，gbk版的，和原文的计数一致，utf-8版的，一是计数多了，二是很多后面的也提到了前面，不知道为什么，也许是gbk->utf-8转换的时候，一些文字出现问题了吧。

#coding: utf-8

require "iconv"

NUM1 = 2 #分词长度

NUM2 =500 #显示大于多少的记录

def splitword(s,l) #分词，s是字符串，l是字符分词长度

lt = s.length

k = Array.new

0.upto(lt-l) do |i|

k<<s[i..i+l-1]

end

return k

end

t = Time.now

x = Array.new #记录分词结果的数组

File.open("ci.txt", "r") do |file|

file.each do |line|

line = Iconv.conv("UTF-8//IGNORE","GBK", line)

line.chomp!

column = line.split(/，|。|！|？|、/) #使用标点分割

column.delete_if {|i| i.length >10 } #去除大于10个字的语句

column.each do |col|

splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词

end

h = Hash.new

h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash

h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分

y = Array.new

y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序

y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }

puts "运行时间是："<<(Time.now-t).to_s<<"秒"

收藏举报

TAG:

查看全部评论

luming

用户菜单

我的栏目

标题搜索

日历

数据统计

访问量: 70008
日志数: 47
图片数: 2
文件数: 2
建立时间: 2006-11-24
更新时间: 2023-01-29

宋词分析改编版（ruby）

用户菜单

我的栏目

标题搜索

日历

我的存档

数据统计

RSS订阅