基于Scrapy的关键词式新闻爬虫
这是我闲鱼上接的第二个单子,既然做完了,那就干脆把项目开源吧。其实主要就是把之前写过的百度搜索爬虫改成了谷歌,又添加了几个新闻站点的解析。
这是我闲鱼上接的第二个单子,既然做完了,那就干脆把项目开源吧。其实主要就是把之前写过的百度搜索爬虫改成了谷歌,又添加了几个新闻站点的解析。
在闲鱼上挂自己近一个月了,终于接到一笔比较大的生意,写一个今日头条的爬虫。我报价1000竟然直接给我砍到650。哎,现在想想还是有点亏啊。不过比起第一单爬微博数据的生意还是好多了。(当时真的是太naive了,我竟然只要了80?!)不过,这毕竟是我人生中第一次接触社会,做生意,有些吃亏也是正常的,至少现在我有些了解行情了,下次报价不会再这么保守了,谈判时也不会这么学生气了。应当要学会握住自己手上的筹码,守住自己的价格底线。现在想想,这是他求我写软件,而不是我想着要赚钱,不过话又说回来,能凭自己的实力花两天时间挣到这笔小钱,也挺有自豪感的。
下面就来说说这项任务本身吧。
m端
[GET]
weibo.cn(简版)
[POST]高级搜索(须登录)
keyword=关键词
&advancedfilter=1(高级搜索)
&starttime=20200201(开始日期)
&endtime=20200210(结束日期)
&sort=time或hot(实时or热门)
&page=1