摘要 返回
     
基于云平台的网页抓取架构的研究与设计
 

随着网络数据的迅速增长, 网页数据抓取在处理大量数据时遇到了一些挑战, 例如大量数据存储, 需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构, 该架构使用AWS(Amazon Web Services)作为云平台, 按需配置计算资源和数据存储; Selenium作为网页自动化工具, 调用WebDriver API能够模拟用户使用浏览器。通过实验, 比较了该架构与其他基于云的网页抓取架构的不同, 并分析了它的优势。

 
(全文阅读请到中国期刊全文数据库)



 
   
读者园地  
   
 
 
地址:  杭州市五常港路121号西溪创智中心四号楼807室    《计算机时代》编辑部
邮编:  310012      电话:  (0571)85118010   (0571)85119435   E-mail:  Computer_era @ vip.163.com
浙ICP备10035352号