网络数据采集与存储

网络访问工具

  • 访问工具:浏览器
  • 测试工具:postman
  • 编程实现:apache httpclient
  • 响应返回的也买你数据解析
    • jsoup实时页面数据解析
    • document对象数据抽取
  • 抓包工具:Charles
  • :warning:注意
    • 多线程
    • 无间断

实现功能

  • httpclient发送请求访问豆瓣电影Top250
  • html, jsoup, 字符串

抽取页面数据

  • logback

本地存储的数据同步到HDFS

实现步骤

评论