admin管理员组文章数量:1440489
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
全文链接:/?p=34319
作为中国古典文学的瑰宝,《红楼梦》具有极高的文学价值和丰富的主题内涵。
近年来,随着大数据和文本挖掘技术的发展,对《红楼梦》等古典文学作品的深度分析成为可能。本研究采用R语言作为分析工具,对《红楼梦》全文进行文本挖掘,通过词频统计、词云可视化以及前后对比分析,以期深入探索这部经典小说的主题演变和人物塑造。
读入数据
将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。这儿我导入的是《红楼梦》的文本。
先导入rJava和Rwordseg两个包
代码语言:javascript代码运行次数:0运行复制
library(rJava)
library(Rwordseg)
分词+统计词频
代码语言:javascript代码运行次数:0运行复制words=unlist(lapply(X=lecre, FUN=seentCN))
#unlist将list类型的数据,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
table统计数据的频数
降序排序
代码语言:javascript代码运行次数:0运行复制v=rev(sort(v))
过滤掉1个字的结果和词频小于100的结果
代码语言:javascript代码运行次数:0运行复制d1=subset(d, nchar(as.chad$词汇))>1 & d$词频.Freq>=100)
画出标签云
代码语言:javascript代码运行次数:0运行复制wordcloud(d1$词
性格分析:宝玉
代码语言:javascript代码运行次数:0运行复制xinggefenxi("宝玉")
从关键词“丫头”“出去”“姐姐”这些来看,贾宝玉是一个又奇又俗的人物。自幼深受祖母贾母疼爱,住贾母院。因此娇生惯养,构成他性格的主要特征是叛逆。他行为“偏僻而乖张”,是封建社会的叛逆者。他鄙视功名利禄,不愿走“学而优则仕”的仕途。他痛恨“八股”,辱骂读书做官的人是“国贼禄蠹”,懒于与他们接触拜会。
红楼梦前八十回与后四十回是否同一个人写的?
代码语言:javascript代码运行次数:0运行复制lecture<-read.csv("红楼梦前80回.txt", sSE,header=FALSE)
words=unlist(lappl
#unlist将list类型的数据,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
word=lapply()
画出标签云
js
lecture<-read.csv("红楼梦后40回.txt", stder=FALSE)
前后红楼梦词频对比
代码语言:javascript代码运行次数:0运行复制qianword=qianword[which(qianword[ ,1] %in% gongtongword), ]
houword=houword[which(houword[ ,1] %in% gongtongword), ]
前红楼梦:
后红楼梦:
t检验
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。用于比较前后红楼梦的关键词出现频率的区别差异。
代码语言:javascript代码运行次数:0运行复制t.test(qianword[,3],houword[,3])
从结果来看,t检验的p值显著小于0.05,因此拒绝原假设。有95%的把握可以认为前后的红楼梦不是一个人所做。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-09,如有侵权请联系 cloudcommunity@tencent 删除数据统计工具可视化排序本文标签: R语言《红楼梦》文本挖掘词频统计词云可视化及前后对比分析
版权声明:本文标题:R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747746136a2753100.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论