Node.js 爬虫

数据抓取
数据清洗
存储

数据抓取

模拟正常浏览器
UA 啥的都带上
还有间隔时间

数据清洗

使用 cheerio 模块，使用方法基本同 jQuery 一致
也别忘了记录抓取的状态，成功率啊，失败地址啊之类的

存储

目前方案是数据都读取到内存中，最后批量写入数据库

PS：开始用 mbp 搞的，然后 game over
换了我的大神船，边打守望边抓取杠杠的～

本文链接：https://note.lilonghe.net/post/node-js-reptile.html

-- EOF --

作者 lilonghe 发表于2017-06-11 12:56 ，并被添加「 reptile 」标签

署名-非商业性使用-禁止演绎 (CC BY-NC-ND 4.0)

Copyright ©2015-2025 lilonghe. All rights reserved.