ahrefs.comのbot
ahrefs.comというサイトの被リンクを分析するサービスがあり、定期的にbotがクロールしてくる。定期的にbotが来ることは特に問題なくブロックの設定をせずに運用しているのだが、気になるログがあったのでエントリーすることにした。
気になるログは以下のログで、
5.10.83.93 dim5.net mirai.dim5.net – – [15/Nov/2013:10:50:33 +0900] “GET /cgi-bin/mt-comments.cgi?entry_id=159 HTTP/1.1” 404 1930 “-” “Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)”
下のURLにアクセスしてきた点に違和感を感じた。
GET /cgi-bin/mt-comments.cgi?entry_id=159
このURLは2004年時に同じドメインで運用していたMT2.661のURLです。そのブログサイトは2004年のうちに閉鎖して2013年(先月くらいに)に復活させました。が、新しいdim5.netはwordpressで運用していて、上のURLには404エラーを返すようになっているのです。
なぜAhrefsBotがMT2.661のURLにアクセスできるのか?
今度、ahrefs.comというサービスが2004年時点で存在していたのか調べてみたいと思う。存在せず、前身となる企業も無い場合には、クロールするデータをどのように得ることができたのか少し気になる。同ドメインで上のURLにリンクを貼っているサイトがネット上に存在するわけでもない。
クロールするデータがやり取りされているとか?
謎である。