摘要 返回
     
基于文本密度的藏文网页正文提取方法
 

互联网的发展带动了另一种形式的信息传播, 人们越来越多地依赖于电子产品, Web网页也随之变为了最大的信息源, 利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息, 文章提出了基于文本密度的藏文网页正文提取方法, 利用半结构化的HTML网页中正文内容的连续性特点, 结合正则表达式过滤HTML标签。此方法针对主题型网页, 类似新闻类网页中的正文提取具有较高的准确率。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号