随笔

Node.js 爬虫

数据抓取

模拟正常浏览器
UA 啥的都带上
还有间隔时间

数据清洗

使用 cheerio 模块,使用方法基本同 jQuery 一致
也别忘了记录抓取的状态,成功率啊,失败地址啊之类的

存储

目前方案是数据都读取到内存中,最后批量写入数据库

PS:开始用 mbp 搞的,然后 game over
换了我的大神船,边打守望边抓取 杠杠的~

本文链接:https://note.lilonghe.net/post/node-js-reptile.html

-- EOF --