摘要 返回
     
基于文本标点密度连续和的网页正文抽取
 

 为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法(TPDS)。TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽取正文内容。从不同的门户网站随机选取的网页作为测试数据集,实验结果表明,TPDS可有效过滤网页噪声信息得到正文内容。该方法在不同网页上具有很好的适用性,抽取性能优于CETR、CETD、CEPR和CETD-TPC算法。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号