摘要 返回
     
《黄帝内经》文本语料库的构建与应用研究
 

针对当前优质中医古籍语料库较为缺乏的问题,对《黄帝内经》全书156,507字进行人工标注,构建集词性标注和分词一体的《黄帝内经》中医古籍语料库,并对《黄帝内经》开展系统性的中文分词研究。基于本文语料库,采用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF等算法开展中文分词研究。经过对比验证得出RoBERTa-wwm-BiLSTM-CRF算法分词效果在各方面均有较大提升,准确率、召回率和 F1值分别为93.86%、94.41%、94.13%,明显优于传统机器学习和主流深度学习方法。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号