随着网络数据的迅速增长, 网页数据抓取在处理大量数据时遇到了一些挑战, 例如大量数据存储, 需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构, 该架构使用AWS(Amazon Web Services)作为云平台, 按需配置计算资源和数据存储; Selenium作为网页自动化工具, 调用WebDriver API能够模拟用户使用浏览器。通过实验, 比较了该架构与其他基于云的网页抓取架构的不同, 并分析了它的优势。