Crawler
今週に入ってから「百度」のイメージ検索クローラと思われるアクセスがやってくるようになった。 必ず HEAD リクエストを出してから GET リクエストでファイルをとって行く うちサイトの画像ファイルのキャッシュなんかないだろうに、最初から GET リクエス…
念願かなって自分の Web サイトにトラックバッカーを貼り付けることができた (12/11の日記)。ところでこの貼り付けには C 言語で作った自作 SSI 用コマンドを使っているのだが、トラックバック関連のリンクは最初から A 要素に rel="nofollow" を付けるよう…
11月17日より以下の User-Agent を持つ Web クローラーがページを取りにきている。 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)ホストのIPは中国内にあるようだ。中国の Yahoo! の検索サービスは、ページのクローラ…
User-Agent を見ると MSN Search のクローラーと同じ文字列だが、逆引きがドメイン名が胡散臭い。.gbl なんて Top Level Domain は知らんよ。 by1sch4041903.phx.gbl - - [29/Nov/2005:14:48:55 +0900] "GET /~nminoru/dvd/dvd_to_hdd.html HTTP/1.0" 200 21…
Accoona という検索サイトのロボットの User-Agent。 "Accoona-AI-Agent/1.1.1 (crawler at accoona dot com)"開発中の Web クローラー。 ConveraMultiMediaCrawler/0.1 (+http://www.authoritativeweb.com/crawl)
NextLinks というプロジェクトのための crawler のようだ。NextLinks のページの説明がドイツ語のため詳細不明。 findlinks/0.961 (+http://wortschatz.uni-leipzig.de/findlinks/)アクセスをすると User Licence が表示され accept/deny のクリックを要求さ…
id:nminoru:20050119:p3 で見つけた ConveraCrawler だが、バージョンが上がって自分の所属を名乗るようになった。 準備中の検索サイトのクローラーのようだ。 ConveraCrawler/0.9d (+http://www.authoritativeweb.com/crawl)フィンランドの検索サイトのクロ…
CydralSpider/1.9 (Cydral Web Image Search; http://www.cydral.com)Cydral という画像とサイトの検索サイトのロボットのようだ。 Cydral の検索をすると主要な検索エンジン (Google、Yahoo!、Ask Jeeves、Fast、Dir) でキャッシュされているかどうかもリス…
BruinBot (+http://webarchive.cs.ucla.edu/bruinbot.html)UCLA 大の Web 検索エンジンのプロトタイプ
EmeraldShield.com WebBot (http://www.emeraldshield.com/webbot.aspx)SPAM と Web ページをフィルターするサービス会社のロボット。
新しい検索サイト & 検索プロジェクトはどんどん生まれているようだ。新規に見つけた Web クローラーの足跡を記録しておく。 IRLbot/1.0 (+http://irl.cs.tamu.edu/crawler) MJ12bot/v1.0.0 (http://majestic12.co.uk/bot.php?+) NutchCVS/0.06-dev (Nutch; …
Apache のログを見ると、crawler とも user-agent とも判別のつかないアクセスが残っている。 3これはただ "3" という User-agent。 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322; 1aaaaaaaaaaaaaaaaaaaa…
久しぶりだが自分の Web サーバーのアクセスログに残った Web クローラーの足跡を見て行こう。 NuSearch Spider www.nusearch.com検索サイト NuSearch のクローラー Tkensaku/1.02 (http://www.tkensaku.com/q.html)検索エンジン TKENSAKU のロボット samida…
Ocelli/1.3 (http://www.globalspec.com/Ocelli)検索エンジンサイト GlobalSpec のクローラー。 GlobalSpec はエンジニアリング Web のための検索を謳っており、「製品」、「特許」、「標準仕様」といった分類から検索ができるようだ。ただし日本語非対応。
毎度、毎度おなじみの新顔クローラーの User-agent。 "appie 1.1 (www.walhello.com)"ミニ google を目指す検索サイトのクローラー (Appie spider というらしい) みたい。
Apache のログに残った User-agent から、crawler のニューフェイスを紹介。 "wish-la"1/26 からきている。 crawler の IP アドレスは筑波大学内から。 "Zao-Crawler"2/6 から来ている。 crawler の IP アドレスは東大内で、http://www.kototoi.org/zao/ と…
Apache のログに見慣れない crawler を User-Agent を発見。今日の 10 時からアクセスを開始して、30 分足らずの間に 180 ページも持って行った。アクセスが集中的な crawler だ。 "ConveraCrawler/0.4"正体は不明。Crawler の動いている IP アドレスは逆引…
新しい User-Agent を発見。国立国会図書館のデジタルアーカイブ用の Web ロボットのようだ。 "ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)"…
Apache のログに見慣れない crawler を User-Agent を二つ発見。 一つは 当サイト では 1/6 の 15:43 に出現した新顔で、User-Agent は以下のようになっている。 "ichiro/1.0 (ichiro@NTTR.CO.JP)"*1id:nminoru:20041230#p1 と同様に画像ファ…
新顔の User-Agent。新手の Web 検索サイトでした。 "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; Girafabot; girafabot at girafa dot com; http://www.girafa.com)"
http://blogwatcher.pi.titech.ac.jp/アクセスログに blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/blogwatcher/) という見慣れない User-Agent が残っていて気づいたが、東工大の奥村研究室がやっている blog に特化した検索エンジンの crawler …