提出基于delphi的Web文本获取方法, 从网页中获取Web页面格式的源文件(.html文件), 分析它的结构信息, 处理它的控制符, 通过分析过滤源文件的格式来提取网页中的文本信息。利用标点符号对文本信息进行章节、 段落、 句子等预处理, 将文本信息转换成句子序列, 让用户快速地定位到需要了解的内容, 从而让用户远离钓鱼网站、 恶意广告、 欺诈信息以及在浏览网页内容时产生的骚扰, 提高互联网体验。