よく見かけるクローラの説明。当サイトによく巡回にくるクローラ Top 11 より。

当サイトによく巡回にくるクローラ Top 11 を紹介します。Google、Bing、Baidu などの検索サービスの大手、AhrefsBot、BLEXBot などの SEO ツール提供者、または ICC-Crawler、Steeler などの学術・研究機関からのアクセスがクローラの大半を占めていました。概ね、過大なアクセスなどは無く、ユーザエージェントにはクロールの停止方法などが記載された説明ページの URL が記載されていました。なお、アクセス頻度は Google や Bing が最多で 1日あたり100回ほどです。

当サイトによく巡回にくるクローラ Top 11 を紹介します。
クローラとは Webサイトを自動的に巡回して
データを集めるプログラムです。
ロボットやボットなどとも呼ばれます。
他サイトにはどんなクローラが来ているのか、
あるいは、各々のクローラはどんな素性のものなのか
そのような興味をお持ちの方のご参考になれば幸いです。

なお、これは当サイトの公開開始から
3ヶ月〜6ヶ月ほど経過した時点でのものです。

1位 : GoogleBot

Google 検索 のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Google 検索は世界でも極めて大規模
かつ人気のある検索サービスの 1つです。

日本では Yahoo! JAPAN がポータルサイト、
及び検索サイトとして有名ですが、
米Yahoo!のクローラである
Yahoo Search Technology の開発終了に伴い、
Yahoo! JAPAN は検索サービスに
Google を使用する形に切り替えています。

search_engine_share

http://gs.statcounter.com
2015年1月における、日本国内での検索エンジンの利用状況を見ると
上図のように Google が 59.06%、Yahoo! が 37.85% となっています。

Yahoo! JAPAN が全ての検索に対して
Google を使用する形に切替を完了していれば
日本での Google 検索のシェアは 97% 近くを占めていることになります。

1日100回くらい来ます。

2位 : BingBot

Bing のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Bing は Microsoft が提供する検索エンジンです。
Google と同じような検索サービスが提供されています。
また、Bing Maps (Bingマップ) など
検索以外にも対応するサービスがあります。

こちらも 1日100回くらい来ます。

3位 : AhrefsBot

ahrefs のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)

ahrefs は SEO のための有料サービスです。
被リンク (backlink) に関するレポートが得られます。

SEO に格別こだわらなければ
Google ウェブマスター ツールなどを使うことで、
自身のサイトがどのような外部サイトから
被リンクを受けているかを知ることができます。
例えば、不当に高いあるいは低い評価を受けるような
リンクがないかなどは一応チェックできます。

ahrefs のような被リンク情報のレポートからは
ウェブマスターツールよりも詳細だったり
リアルタイム性の高い情報が得られます。

AhrefsBot によるクロールは ahrefs が
提供する情報の価値を高めるのに役立ちます。

4位 : Baidu

百度 (バイドゥ) のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

中国で最大の検索エンジンです。
中国では Google、Bing、Yahoo ではなく
百度が使われています。

5位 : Majestic-12

Majestic-12 プロジェクト のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)

Majestic-12 プロジェクトとは、
分散型クローラによって世界最大の
検索エンジンを作ろうというプロジェクトです。

多くの人からパソコンの計算や通信能力を集めることで、
新薬の開発を行ったり、宇宙人を捜すなどのプロジェクトがあります。
それの検索エンジン版といった趣です。

Majestic-12 Ltd. から資金提供を受けています。

6位 : BLEXBot

WebMeUp のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

WebMeUp は SEO のための有料サービスです。
被リンクに関する情報を検索することができます。
無料で月3回のレポートが得られるプランも用意されています。

7位 : Yandex

Я́ндекс のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

ロシアで最大級のポータルサイト、検索エンジンです。
日本国内で Google や Bing を使わない人が、
Yahoo! JAPAN を使うように、ロシアでは
Я́ндекс を使うのだと思います。

8位 : Yahoo!

Yahoo! のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

ちなみに、Yahoo! は Yahoo! JAPAN とは違います。
日本でヤフーと言われているのは
Yahoo! JAPAN で、主に日本だけで使われています。
Yahoo! (JAPANが付かないものが) 世界中で
使われているポータルサイト、検索エンジンになります。

9位 : ICC-Crawler

研究目的のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

ICC-Crawler/2.0 (Mozilla-compatible; ; http://kc.nict.go.jp/project1/crawl.html)

情報通信研究機構 (NICT) ユニバーサル
コミュニケーション研究所
が運用しています。
情報通信研究機構は総務省所管の独立行政法人で、
日本標準時や宇宙天気予報などのサービスを提供しているところです。

このあたりのクローラから、
頻繁にではなく、たまにやってきて、
全体をクロールして行く感じになります。
ですから、時々ふらりとやってきて
300 アクセスする……といった振る舞いをします。
仮に平均値で考えるなら、
1日あたり3回くらいのアクセスです。

10位 : Steeler

研究目的のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)

Steeler は 東京大学 喜連川研究室 が運用しています。
Steeler について というページで
様々な社会現象の分析に活用することを目的とする
Webクローラと説明しています。

仮に平均値で考えるなら、
1日あたり3回くらいのアクセスです。

11位 : Turnitin

turnitin のために情報を収集するクローラです。
アクセス記録には以下のようなユーザエージェントが記録されます。

TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)

turnitin はインターネット上にコンテンツからの
剽窃・盗作の防止に役立つサービスを有料で提供しています。

例えば、学生の提出した課題、投稿された論文
などに剽窃・盗作があってはいけませんから
それをチェックする必要があります。
これを Google を使って検索していては
大変な労力がかかってしまいます。
turnitin はそのようなチェックの負担を
軽減するためのサービスを提供しています。

基本的には教育機関をターゲットにしていますが、
仕事では納品物に対する著作権上の安全性や、
オリジナリティのチェックに活用できる可能性もあります。

仮に平均値で考えるなら、
1日あたり3回くらいのアクセスです。

クロールをやめてもらうには

いずれのクローラも 3秒から数分に 1回
程度のアクセス頻度です。
特に学術・研究機関のクローラは行儀が良く、
アクセス間隔が長めの傾向です。
ですから、偽装やクローラのバグなどがなければ
特にクロールを拒否する必要はありません。

もちろん、クロールを拒否したり
クロール間隔を伸ばすような指示を与えることは可能です。

上記のいずれのクローラもユーザエージェントに
クローラの説明ページの URL が記載されています。
概ね robots.txt でクロールを拒否等する方法が
説明されていますので、その通りに記述すれば OK です。
又は .htaccess でアクセスをのものを拒否することもできます。

お問い合わせについて

業務として技術コンサルティングやシステム設計・開発を行っております。

  1. 偽装されたクローラからのアクセスではないか気になる
  2. Webサイトが攻撃されているのではないか気になる
  3. robots.txt が効かない

など、気になることがありましたらご相談下さい。
ご相談のみで完結する場合、コンサルティング費用の目安は
内容によりますが1時間で5千円〜1万円ていどです。
コンサルティングや開発を検討されるその前に、
まずはお気軽にコメントやメールでご連絡下さい。
ご契約前のコメントやメールでのやりとりは無料です。

お問い合わせフォーム

お急ぎの場合など、ただちに業務対応が必要な場合は、こちらのお問い合わせフォームをご利用ください。かきしちカンパニーお客様窓口が直ちに対応いたします。
※窓口へのお問い合わせ、お見積もりは無料です。


お名前 (必須)

メールアドレス (必須)

題名

メッセージ本文 (必須)

Share

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*