千奇百怪的网站访问记录

很久很久没看网站的访问记录了,毕竟小破站月 PV 也才个位数,今天无聊看了下日志,发现了很多有意思的日志。

爬虫

第一种是各种爬虫,有搜索引擎的,有做营销服务商的,其实之前只屏蔽了一家某度的爬虫,但是看日志百度还是会每天都来爬好多次,也就是说某个知名互联网公司其实是不遵守 robots 协议的。

话说回来,之前屏蔽某度是因为想过滤掉一批人,毕竟现在的互联网环境比较乌烟瘴气。

索性趁着机会,把一些来源的用户直接返回 403,这样得到了一个错误的结果,它们应该就会觉得这个网站是个死链,然后放弃继续爬取。

扫描

有些无聊的人,就喜欢到互联网上做各种违法的事情,比如“扫描”,看日志里面一大堆请求 wordpress 资源的,还有各类备份文件的,配置文件的,有些就贼离谱,好歹伪装下自己啊你 (・ˍ・*)
真想奉劝这些人,我的代码都在 GITHUB 上!去找我代码漏洞都好过在这瞎试强啊!

13.90.211.190 - - [12/Sep/2021:08:35:44 +0800] "GET / HTTP/1.1" 200 5648 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:45 +0800] "GET /wp-admin HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:45 +0800] "GET /wordpress HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:46 +0800] "GET /wp HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:46 +0800] "GET /blog HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:47 +0800] "GET /new HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:47 +0800] "GET /old HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:47 +0800] "GET /newsite HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:48 +0800] "GET /test HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:48 +0800] "GET /main HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:49 +0800] "GET /cms HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:49 +0800] "GET /dev HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:50 +0800] "GET /backup HTTP/1.1" 404 18 "-" "-" "-"
13.90.211.190 - - [12/Sep/2021:08:35:50 +0800] "GET /protal HTTP/1.1" 404 18 "-" "-" "-"
......
192.241.221.231 - - [12/Sep/2021:09:27:25 +0800] "GET /owa/auth/x.js HTTP/1.1" 403 125 "-" "Mozilla/5.0 zgrab/0.x" "-"
192.241.196.216 - - [12/Sep/2021:09:29:52 +0800] "GET /owa/auth/logon.aspx HTTP/1.1" 403 125 "-" "Mozilla/5.0 zgrab/0.x" "-"
......
45.146.164.110 | GET      /
45.146.164.110 | POST     /api/jsonws/invoke
45.146.164.110 | GET      /?XDEBUG_SESSION_START=phpstorm
45.146.164.110 | GET      /
45.146.164.110 | POST     /vendor/phpunit/phpunit/src/Util/PHP/eval-stdin.php
45.146.164.110 | POST     /mifs/.;/services/LogService
45.146.164.110 | GET      /wp-content/plugins/wp-file-manager/readme.txt

日志分析

因为直接看日志不太直观,想找一个可以可视化看的,然后排第一的是 goaccess,就真的挺难用的,因为它的格式自己又做了一层封装,所以需要先把 nginx 的日志规则转成 goaccess 的日志规则,才能根据规则去解析,另外就是时间格式也是如此的与众不同,一般日月年是D/M/Y,但是现在是d/b/Y

先去找了一个转换工具 nginx2goaccess,然后输出成 html 文件查看

LC_TIME="en_US.UTF-8" goaccess xxxx.log --log-format 'xxx' --date-format '%d/%b/%Y' --time-format '%T' -o html > Downloads/goaccess.html

每天大概二百个访问,一多半是无效流量,真实用户估计也就十来个吧。

本文链接:https://note.lilonghe.net/post/bizarre-website-visit-records.html

-- EOF --