当前科研成果呈爆炸式增长, 论文跨学科交叉分布不断深化, 精准获取所需的论文需要耗费大量的时间和精力。文章提出一种基于随机森林的论文自动分类方法, 实现对海量论文的自动分类; 提出一种基于LDA模型的主题挖掘方法, 提取论文关键词并进行词云展示。实验数据采用Selenium技术抓取中国知网九大主题的1710篇论文, 实验结果表明, 该论文分类方法在准确率、 召回率和F值上都有所提升, 有效地挖掘出各学科的主题词, 为下一步引文分析、 文本挖掘和知识图谱构建提供有效支撑。