Crawler

百度のイメージ検索クローラ

今週に入ってから「百度」のイメージ検索クローラと思われるアクセスがやってくるようになった。 必ず HEAD リクエストを出してから GET リクエストでファイルをとって行く うちサイトの画像ファイルのキャッシュなんかないだろうに、最初から GET リクエス…

HTML アンカー(A) 要素の rel="nofollow" 属性って本当に有効なのか?

念願かなって自分の Web サイトにトラックバッカーを貼り付けることができた (12/11の日記)。ところでこの貼り付けには C 言語で作った自作 SSI 用コマンドを使っているのだが、トラックバック関連のリンクは最初から A 要素に rel="nofollow" を付けるよう…

中国の Yahoo! Search は Web クローラーから別

11月17日より以下の User-Agent を持つ Web クローラーがページを取りにきている。 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)ホストのIPは中国内にあるようだ。中国の Yahoo! の検索サービスは、ページのクローラ…

Web クローラーの User-Agent を偽証するアクセス?

User-Agent を見ると MSN Search のクローラーと同じ文字列だが、逆引きがドメイン名が胡散臭い。.gbl なんて Top Level Domain は知らんよ。 by1sch4041903.phx.gbl - - [29/Nov/2005:14:48:55 +0900] "GET /~nminoru/dvd/dvd_to_hdd.html HTTP/1.0" 200 21…

Crawler のニューフェイス

Accoona という検索サイトのロボットの User-Agent。 "Accoona-AI-Agent/1.1.1 (crawler at accoona dot com)"開発中の Web クローラー。 ConveraMultiMediaCrawler/0.1 (+http://www.authoritativeweb.com/crawl)

crawler のニューフェイス

NextLinks というプロジェクトのための crawler のようだ。NextLinks のページの説明がドイツ語のため詳細不明。 findlinks/0.961 (+http://wortschatz.uni-leipzig.de/findlinks/)アクセスをすると User Licence が表示され accept/deny のクリックを要求さ…

crawler のニューフェイス

id:nminoru:20050119:p3 で見つけた ConveraCrawler だが、バージョンが上がって自分の所属を名乗るようになった。 準備中の検索サイトのクローラーのようだ。 ConveraCrawler/0.9d (+http://www.authoritativeweb.com/crawl)フィンランドの検索サイトのクロ…

crawler のニューフェイス

CydralSpider/1.9 (Cydral Web Image Search; http://www.cydral.com)Cydral という画像とサイトの検索サイトのロボットのようだ。 Cydral の検索をすると主要な検索エンジン (Google、Yahoo!、Ask Jeeves、Fast、Dir) でキャッシュされているかどうかもリス…

crawler のニューフェイス

BruinBot (+http://webarchive.cs.ucla.edu/bruinbot.html)UCLA 大の Web 検索エンジンのプロトタイプ

crawler のニューフェイス

EmeraldShield.com WebBot (http://www.emeraldshield.com/webbot.aspx)SPAM と Web ページをフィルターするサービス会社のロボット。

crawler のニューフェイス

新しい検索サイト & 検索プロジェクトはどんどん生まれているようだ。新規に見つけた Web クローラーの足跡を記録しておく。 IRLbot/1.0 (+http://irl.cs.tamu.edu/crawler) MJ12bot/v1.0.0 (http://majestic12.co.uk/bot.php?+) NutchCVS/0.06-dev (Nutch; …

User-Agent スパム?

Apache のログを見ると、crawler とも user-agent とも判別のつかないアクセスが残っている。 3これはただ "3" という User-agent。 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322; 1aaaaaaaaaaaaaaaaaaaa…

crawler のニューフェイス

久しぶりだが自分の Web サーバーのアクセスログに残った Web クローラーの足跡を見て行こう。 NuSearch Spider www.nusearch.com検索サイト NuSearch のクローラー Tkensaku/1.02 (http://www.tkensaku.com/q.html)検索エンジン TKENSAKU のロボット samida…

crawler のニューフェイス

Ocelli/1.3 (http://www.globalspec.com/Ocelli)検索エンジンサイト GlobalSpec のクローラー。 GlobalSpec はエンジニアリング Web のための検索を謳っており、「製品」、「特許」、「標準仕様」といった分類から検索ができるようだ。ただし日本語非対応。

crawler のニューフェイス

毎度、毎度おなじみの新顔クローラーの User-agent。 "appie 1.1 (www.walhello.com)"ミニ google を目指す検索サイトのクローラー (Appie spider というらしい) みたい。

crawler のニューフェイス

Apache のログに残った User-agent から、crawler のニューフェイスを紹介。 "wish-la"1/26 からきている。 crawler の IP アドレスは筑波大学内から。 "Zao-Crawler"2/6 から来ている。 crawler の IP アドレスは東大内で、http://www.kototoi.org/zao/ と…

crawler のニューフェイス

Apache のログに見慣れない crawler を User-Agent を発見。今日の 10 時からアクセスを開始して、30 分足らずの間に 180 ページも持って行った。アクセスが集中的な crawler だ。 "ConveraCrawler/0.4"正体は不明。Crawler の動いている IP アドレスは逆引…

国立国会図書館デジタルアーカイブの crawler

新しい User-Agent を発見。国立国会図書館のデジタルアーカイブ用の Web ロボットのようだ。 "ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)"…

crawler のニューフェイス

Apache のログに見慣れない crawler を User-Agent を二つ発見。 一つは 当サイト では 1/6 の 15:43 に出現した新顔で、User-Agent は以下のようになっている。 "ichiro/1.0 (ichiro@NTTR.CO.JP)"*1id:nminoru:20041230#p1 と同様に画像ファ…

検索結果をイメージで返してくれる Web 検索サイト Girafa.com

新顔の User-Agent。新手の Web 検索サイトでした。 "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; Girafabot; girafabot at girafa dot com; http://www.girafa.com)"

blog用検索サイト blogWatcher が公開

http://blogwatcher.pi.titech.ac.jp/アクセスログに blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/blogwatcher/) という見慣れない User-Agent が残っていて気づいたが、東工大の奥村研究室がやっている blog に特化した検索エンジンの crawler …