怎么用r做数据分析如何利用R软件简单处理文本数据？

最佳经验

由作者撰写原创经验并推荐置顶

本文介绍如何利用R中tm包分析文本数据，以及用wordcloud绘制词云图的具体方法，以下内容是由微蓝经验网用户发布怎么用r做数据分析如何利用R软件简单处理文本数据？希望对于用户有一定帮助，为朋友进行解决疑惑，如若想了解更多相关内容，可以向底部移动了解更多与本教程文章相关解决经验方法！

工具与材料

R；tm；wordcloud

方法/步骤

1/6
将要分析的文本文档存在一个目录里，加载程序包tm，利用函数Corpus处理文档，代码如下：
library(tm)
#读取文件夹名
filename<-"C:/Users/jsb/Desktop/txt"
#语料库,DirSource处理目录
text<-Corpus(DirSource(filename),readerControl = list(language="lat"))
summary(text)
要处理的目录中有两个文档，文档名称和类别。
2/6
读取文档目录后，可以用函数inspect查看文档，查看单个文档要加双括号，#语料库的提取
inspect(text[1:2])
#提取单个文档
identical(text[[1]],text[["text,txt"]])
text[[1]]
3/6
利用tm_map函数对文本进行一些处理，#去除空白
text<- tm_map(text, stripWhitespace)
#小写变换
text<-tm_map(text,tolower)
#停止词去除
text<-tm_map(text,removeWords,stopwords("english"))
4/6
wordcloud包中的wordcloud函数绘制词云图，#词云图
> library(wordcloud)
> wordcloud(text)
5/6
利用DocumentTermMatrix 生成文档关系矩阵，这是建立模型的基础，#文档关系矩阵
dtm<-DocumentTermMatrix(text)
inspect(dtm[1:2,1:20])
结果中可以看到前两个文档中20个词语出现的频次表。
6/6
从文档关系矩阵出找出我们关心的词，例如：
#找出出现6次以上的条目
findFreqTerms(dtm,6)
#找到与"program"的相关系数在0,8以上的条目
findAssocs(dtm, "program", 0,8)

注意与说明

如果文档是中文本文，需要将编码设置为“UTF-8”的格式,否则读出的文本会出现乱码，以上经验结束，与怎么用r做数据分析如何利用R软件简单处理文本数据？有关的经验教程内容，若解决问题请点击“有用”，没有解决请向下浏览“相关”内容或点击“无用”平台积极改进优质原创的内容文章，点击下方工具分享给更多的朋友吧！