内容概要

	摘要	返回

基于云平台的网页抓取架构的研究与设计

随着网络数据的迅速增长，网页数据抓取在处理大量数据时遇到了一些挑战，例如大量数据存储，需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构，该架构使用AWS(Amazon Web Services)作为云平台，按需配置计算资源和数据存储； Selenium作为网页自动化工具，调用WebDriver API能够模拟用户使用浏览器。通过实验，比较了该架构与其他基于云的网页抓取架构的不同，并分析了它的优势。

(全文阅读请到中国期刊全文数据库)

读者园地

地址: 杭州市五常港路121号西溪创智中心四号楼807室《计算机时代》编辑部

邮编: 310012 电话: (0571)85118010 (0571)85119435 E-mail: Computer_era @ vip.163.com