数据抓取
模拟正常浏览器
UA 啥的都带上
还有间隔时间
数据清洗
使用 cheerio
模块,使用方法基本同 jQuery
一致
也别忘了记录抓取的状态,成功率啊,失败地址啊之类的
存储
目前方案是数据都读取到内存中,最后批量写入数据库
PS:开始用 mbp 搞的,然后 game over
换了我的大神船,边打守望边抓取 杠杠的~
模拟正常浏览器
UA 啥的都带上
还有间隔时间
使用 cheerio
模块,使用方法基本同 jQuery
一致
也别忘了记录抓取的状态,成功率啊,失败地址啊之类的
目前方案是数据都读取到内存中,最后批量写入数据库
PS:开始用 mbp 搞的,然后 game over
换了我的大神船,边打守望边抓取 杠杠的~
本文链接:https://note.lilonghe.net/post/node-js-reptile.html
-- EOF --
作者
lilonghe
发表于2017-06-11 12:56
,并被添加「
reptile
」标签
署名-非商业性使用-禁止演绎 (CC BY-NC-ND 4.0)
Copyright ©2015-2024 lilonghe. All rights reserved.