教育は参考ブログ

百度のイメージ検索クローラ

Crawler

今週に入ってから「百度」のイメージ検索クローラと思われるアクセスがやってくるようになった。

必ず HEAD リクエストを出してから GET リクエストでファイルをとって行く: うちサイトの画像ファイルのキャッシュなんかないだろうに、最初から GET リクエストで取っていけばよいのに…
Referer と User-Agent がなんか変: Referer が "image.baidu.com" で、User-Agent が "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)" を名のっている。

あいかわらず変な検索ロボットを使う検索サイトだよなぁ。