掌握NLTK:Python自然语言处理库中级教程

发表于:2023-8-11 09:33

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:小小张说故事    来源:稀土掘金

  在之前的初级教程中,我们已经了解了NLTK(Natural Language Toolkit)的基本用法,如进行文本分词、词性标注和停用词移除等。在本篇中级教程中,我们将进一步探索NLTK的更多功能,包括词干提取、词形还原、n-gram模型以及词云的绘制。
  一、词干提取
  词干提取是一种将词语简化为其基本形式或词干的过程。例如,“running”、“runner”和“ran”的词干可能都是“run”。在NLTK中,我们可以使用Porter词干提取器进行词干提取:
  from nltk.stem import PorterStemmer
  from nltk.tokenize import word_tokenize
  ps = PorterStemmer()
  words = ["run", "runner", "running", "ran"]
  for w in words:
      print(ps.stem(w))
  二、词形还原
  与词干提取相似,词形还原也是简化词语的一种方式,但它保留的是词语的词形,而不仅仅是词干。在NLTK中,我们可以使用WordNet词形还原器进行词形还原:
  from nltk.stem import WordNetLemmatizer
  lemmatizer = WordNetLemmatizer()
  print(lemmatizer.lemmatize("running"))
  print(lemmatizer.lemmatize("ran", pos='v'))
  三、n-gram模型
  n-gram是一种语言模型,用于预测下一个词的可能性。n-gram模型基于统计的方法,考虑前n-1个词来预测下一个词。在NLTK中,我们可以使用ngrams函数来生成n-gram:
  from nltk import ngrams
  from nltk.tokenize import word_tokenize
  sentence = "I love to play football"
  n = 2
  grams = ngrams(word_tokenize(sentence), n)
  for gram in grams:
      print(gram)
  四、绘制词云
  词云是一种可视化技术,用于表示文本数据中词的频率。在NLTK中,虽然没有直接提供绘制词云的函数,但我们可以结合wordcloud库来创建词云:
  from nltk.corpus import stopwords
  from nltk.tokenize import word_tokenize
  from wordcloud import WordCloud
  import matplotlib.pyplot as plt
  text = "NLTK is a leading platform for building Python programs to work with human language data."
  stop_words = set(stopwords.words('english'))
  words = word_tokenize(text)
  words = [word for word in words if word not in stop_words]
  wordcloud = WordCloud().generate(' '.join(words))
  plt.imshow(wordcloud)
  plt.axis("off")
  plt.show()
  以上,我们介绍了NLTK库中的一些中级功能,包括词干提取、词形还原、n-gram模型和词云的绘制等。然而,NLTK还有更多高级的功能和特性,如情感分析、语义角色标注等,值得我们进一步探索和学习。  
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号