百度のイメージ検索クローラ

Crawler

今週に入ってから「百度」のイメージ検索クローラと思われるアクセスがやってくるようになった。必ず HEAD リクエストを出してから GET リクエストでファイルをとって行くうちサイトの画像ファイルのキャッシュなんかないだろうに、最初から GET リクエス…

2005-12-15

HTML アンカー(A) 要素の rel="nofollow" 属性って本当に有効なのか？

Search Crawler

念願かなって自分の Web サイトにトラックバッカーを貼り付けることができた (12/11の日記)。ところでこの貼り付けには C 言語で作った自作 SSI 用コマンドを使っているのだが、トラックバック関連のリンクは最初から A 要素に rel="nofollow" を付けるよう…

2005-11-29

中国の Yahoo! Search は Web クローラーから別

Search Crawler

11月17日より以下の User-Agent を持つ Web クローラーがページを取りにきている。 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)ホストのIPは中国内にあるようだ。中国の Yahoo! の検索サービスは、ページのクローラ…

2005-11-29

Web クローラーの User-Agent を偽証するアクセス?

Crawler

User-Agent を見ると MSN Search のクローラーと同じ文字列だが、逆引きがドメイン名が胡散臭い。.gbl なんて Top Level Domain は知らんよ。 by1sch4041903.phx.gbl - - [29/Nov/2005:14:48:55 +0900] "GET /~nminoru/dvd/dvd_to_hdd.html HTTP/1.0" 200 21…

2005-11-04

Crawler のニューフェイス

Crawler

Accoona という検索サイトのロボットの User-Agent。 "Accoona-AI-Agent/1.1.1 (crawler at accoona dot com)"開発中の Web クローラー。 ConveraMultiMediaCrawler/0.1 (+http://www.authoritativeweb.com/crawl)

2005-09-14

crawler のニューフェイス

Crawler

NextLinks というプロジェクトのための crawler のようだ。NextLinks のページの説明がドイツ語のため詳細不明。 findlinks/0.961 (+http://wortschatz.uni-leipzig.de/findlinks/)アクセスをすると User Licence が表示され accept/deny のクリックを要求さ…

2005-08-25

crawler のニューフェイス

Search Crawler

id:nminoru:20050119:p3 で見つけた ConveraCrawler だが、バージョンが上がって自分の所属を名乗るようになった。準備中の検索サイトのクローラーのようだ。 ConveraCrawler/0.9d (+http://www.authoritativeweb.com/crawl)フィンランドの検索サイトのクロ…

2005-07-07

crawler のニューフェイス

Search Crawler

CydralSpider/1.9 (Cydral Web Image Search; http://www.cydral.com)Cydral という画像とサイトの検索サイトのロボットのようだ。 Cydral の検索をすると主要な検索エンジン (Google、Yahoo!、Ask Jeeves、Fast、Dir) でキャッシュされているかどうかもリス…

2005-06-18

crawler のニューフェイス

Search Crawler

BruinBot (+http://webarchive.cs.ucla.edu/bruinbot.html)UCLA 大の Web 検索エンジンのプロトタイプ

2005-06-13

crawler のニューフェイス

Crawler

EmeraldShield.com WebBot (http://www.emeraldshield.com/webbot.aspx)SPAM と Web ページをフィルターするサービス会社のロボット。

2005-06-01

crawler のニューフェイス

Search Crawler

新しい検索サイト & 検索プロジェクトはどんどん生まれているようだ。新規に見つけた Web クローラーの足跡を記録しておく。 IRLbot/1.0 (+http://irl.cs.tamu.edu/crawler) MJ12bot/v1.0.0 (http://majestic12.co.uk/bot.php?+) NutchCVS/0.06-dev (Nutch; …

2005-04-22

User-Agent スパム？

Crawler

Apache のログを見ると、crawler とも user-agent とも判別のつかないアクセスが残っている。 3これはただ "3" という User-agent。 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322; 1aaaaaaaaaaaaaaaaaaaa…

2005-04-22

crawler のニューフェイス

Search Crawler

久しぶりだが自分の Web サーバーのアクセスログに残った Web クローラーの足跡を見て行こう。 NuSearch Spider www.nusearch.com検索サイト NuSearch のクローラー Tkensaku/1.02 (http://www.tkensaku.com/q.html)検索エンジン TKENSAKU のロボット samida…

2005-02-12

crawler のニューフェイス

Search Crawler

Ocelli/1.3 (http://www.globalspec.com/Ocelli)検索エンジンサイト GlobalSpec のクローラー。 GlobalSpec はエンジニアリング Web のための検索を謳っており、「製品」、「特許」、「標準仕様」といった分類から検索ができるようだ。ただし日本語非対応。

2005-02-10

crawler のニューフェイス

Search Crawler

毎度、毎度おなじみの新顔クローラーの User-agent。 "appie 1.1 (www.walhello.com)"ミニ google を目指す検索サイトのクローラー (Appie spider というらしい) みたい。

2005-02-06

crawler のニューフェイス

Crawler

Apache のログに残った User-agent から、crawler のニューフェイスを紹介。 "wish-la"1/26 からきている。 crawler の IP アドレスは筑波大学内から。 "Zao-Crawler"2/6 から来ている。 crawler の IP アドレスは東大内で、http://www.kototoi.org/zao/ と…

2005-01-19

crawler のニューフェイス

Crawler

Apache のログに見慣れない crawler を User-Agent を発見。今日の 10 時からアクセスを開始して、30 分足らずの間に 180 ページも持って行った。アクセスが集中的な crawler だ。 "ConveraCrawler/0.4"正体は不明。Crawler の動いている IP アドレスは逆引…

2005-01-12

国立国会図書館デジタルアーカイブの crawler

Search Crawler

新しい User-Agent を発見。国立国会図書館のデジタルアーカイブ用の Web ロボットのようだ。 "ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)"…

2005-01-06

crawler のニューフェイス

Search Crawler

Apache のログに見慣れない crawler を User-Agent を二つ発見。一つは当サイトでは 1/6 の 15:43 に出現した新顔で、User-Agent は以下のようになっている。 "ichiro/1.0 (ｉｃｈｉｒｏ@ＮＴＴＲ.ＣＯ.ＪＰ)"*1id:nminoru:20041230#p1 と同様に画像ファ…

2004-09-03

検索結果をイメージで返してくれる Web 検索サイト Girafa.com

Search Crawler

新顔の User-Agent。新手の Web 検索サイトでした。 "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; Girafabot; girafabot at girafa dot com; http://www.girafa.com)"

2004-08-20

blog用検索サイト blogWatcher が公開

Search Crawler

http://blogwatcher.pi.titech.ac.jp/アクセスログに blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/blogwatcher/) という見慣れない User-Agent が残っていて気づいたが、東工大の奥村研究室がやっている blog に特化した検索エンジンの crawler …