摘要 返回
     
基于Delphi的Web文本获取方法
 

提出基于delphi的Web文本获取方法, 从网页中获取Web页面格式的源文件(.html文件), 分析它的结构信息, 处理它的控制符, 通过分析过滤源文件的格式来提取网页中的文本信息。利用标点符号对文本信息进行章节、 段落、 句子等预处理, 将文本信息转换成句子序列, 让用户快速地定位到需要了解的内容, 从而让用户远离钓鱼网站、 恶意广告、 欺诈信息以及在浏览网页内容时产生的骚扰, 提高互联网体验。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号