互联网的发展带动了另一种形式的信息传播, 人们越来越多地依赖于电子产品, Web网页也随之变为了最大的信息源, 利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息, 文章提出了基于文本密度的藏文网页正文提取方法, 利用半结构化的HTML网页中正文内容的连续性特点, 结合正则表达式过滤HTML标签。此方法针对主题型网页, 类似新闻类网页中的正文提取具有较高的准确率。