网络数据采集与存储
网络访问工具
- 访问工具:浏览器
- 测试工具:postman
- 编程实现:apache httpclient
- 响应返回的也买你数据解析
- jsoup实时页面数据解析
- document对象数据抽取
- 抓包工具:Charles
- :warning:注意
- 多线程
- 无间断
实现功能
- httpclient发送请求访问豆瓣电影Top250
- html, jsoup, 字符串
抽取页面数据
- logback
本地存储的数据同步到HDFS
实现步骤
创建project工程(maven)
- pom.xml, httpclient, jsoup, logback
分析访问页面请求的规律
响应数据的规律
li
标记对- 电影名称、评分、评价人数