摘要 返回
     
基于随机森林和LDA的论文自动分类及主题挖掘研究
 

当前科研成果呈爆炸式增长, 论文跨学科交叉分布不断深化, 精准获取所需的论文需要耗费大量的时间和精力。文章提出一种基于随机森林的论文自动分类方法, 实现对海量论文的自动分类; 提出一种基于LDA模型的主题挖掘方法, 提取论文关键词并进行词云展示。实验数据采用Selenium技术抓取中国知网九大主题的1710篇论文, 实验结果表明, 该论文分类方法在准确率、 召回率和F值上都有所提升, 有效地挖掘出各学科的主题词, 为下一步引文分析、 文本挖掘和知识图谱构建提供有效支撑。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号