2005年07月22日

lj系クローラーの大量来襲

昨日のログにlj系のクローラーが大量来襲してきた事が記録されている。

自サイトでは通常1ヶ月あたり4〜5万のYSTクローラーの来訪がある。しかし昨日(2005/7/21)では27000以上のYSTクローラーの来訪があり、かつその殆どがlj系であった。

5月下旬に行なった対策が効果を発揮するためにはこのlj系のクローラーの大量な来訪を受けなければならない。確かに5月下旬以降lj系のクローラーの来訪数に関しては増加していることが確認されており、インデックス数も増加傾向にあったのであるが、これまでの来訪数増加が充分なものであるか否かの判断はつけかねていた。

そこへ昨日の大量来襲があり、来訪箇所もほぼ全てのページに亘っているということを考えてみると、少なくとも自サイトに関してはこれからが評価の本番なのではなかろうか。

そこで今回の現象と対応すると私が考えている前回の現象(3月14日〜4月1日)と今回の現時点までを比較してみる事にした。

前回
インデックス数
 米Yahoo! 3,070(直前)>>18,800(直後)>>2,960(4月4日)
 日Yahoo! 7,567(直前)>>7,507(直後)>>3,420(4月4日)
来訪数平均
 2,365(直前)>>4502(直後)
 平均数は直前が3月4日〜13日までの10日間、直後は3月15日〜17日の3日間

今回
インデックス数
 米Yahoo! 11,900(直前)>>39,000(直後)
 日Yahoo! 12,300(直前)>>38,900(直後)
来訪数平均
 1,699(直前)>>27312(直後)
 平均数は直前が7月10日〜19日までの10日間、直後は7月21日

前回のクローラー来訪数(直後)を3日間としたのは、今回のデータが1日だけであることもあるが、新しく追加した考えで、インデックス数増加=過去分も含めたサイトの再検証・再評価を行なっているのではないか、またその際には最新のデータを改めて収集してそれを基に検証・評価しているのではないかと考えているからである。そのため、直後以降も随時必要とするファイルを収集しには来るのであろうが、直後に一旦評価対象の殆どをまとめて収集に来るために大量来訪現象が起こると考えている。

増加の率や数字には違いがあるものの、確かにインデックス数増加の直後にはクローラーが多く来ているという点では一致している。

増加したインデックス数と直後のクローラー来訪数の比率の違いであるが、これはサイトの構造(つまりリンク数の多寡)と関連しているのではないかと考えている。自サイトの5月下旬に行った対策では結果的にリンク数がかなり増加しており、再評価の際にはその増加したリンクの検証があるはずだと考えていたので、これも現象としては矛盾しない。

私の意見としては、Third Weather Reportにある今回のインデックスの更新といわれる現象は、前回の4月1日に至るインデックス更新と同質であるが、前回は評価が定まった時点での天気予報であり、今回は評価が始まった時点での天気予報であったのだろうと捉えている。

これまでの変動周期から考えて、Third Weather Reportの収束は7月30日ないし31日であろう。
それまでの間、SERPsはかつてのGoogle Danceのように変動を繰り返すのか、そうでないのか(たぶん変動はないと考えている)。そして収束の際にはSERPsは再度変動するのか、現状のままなのか(こちらはたぶん変動すると考えている)。また、自サイトにおいてはインデックス数は増加したままなのか、また減少するのか。順位は上がるのか、上がらないのか。それはその時が来なければ誰にも判らないであろう。

ただ一つ気になる点がある。これは、上の( )囲みの2点の予想に至る一要因でもあるのだが。
現時点でのYahoo! JAPANの「ページとの一致」で見られる同一サイトの表示順位並びに内容を見ると、あるキーワードで同一サイトから2ページがSERPsに現れた場合、一方は以前と同じページであるが、他方は違うページに変わっているケースをたびたび見かける。YSTではGoogleやMSNと違い同一サイトからのページでもクラスタリング処理されて表示されているわけではないようで、順位が離れていることが殆どといっても良い。しかし3件以上がSERPsに現れることも極特殊なケースを除いて無いといっても良い。これは一体どうしてなのだろう。
あくまでも私の仮説であるが、このGoogleやMSNと違ったメカニズムは、
1.lj系のインデックスを用いたSERPs表示には、最新世代のlj系インデックスと一世代前のlj系のインデックスの二つのインデックスからページがピックアップされている。
2.ベースとなるlj系インデックスと、それとは違った評価体系を持つlj系インデックスの二つのインデックスからページがピックアップされている。
という可能性がある。私としてはどちらかというと仮説1の考え方が正解なのではないかと思っているのだが、今回の変動に関してはいくつかの掲示板でもインデックスが増減したという話題が出ており、最終的には前回(6月20日)よりは大きな変動になることは間違いないであろう。そのプロセスにおいてもし仮説1が近いとすれば収束期に突然の再変動があり、仮説2が近いとすれば小変動を小刻みに繰り返しながら最終的に大きな変動に至るということになるのではなかろうか。

暫くはYSTの動きの特に注目していきたい。

この記事へのトラックバックURL

http://app.blog.livedoor.jp/medartkuma/tb.cgi/28658631
この記事へのトラックバック
最近やたらと inktomi系のクローラーがやってくる。。正確には普通に他のクロ...
妙なクローラー。。【縁にまつわるエトセトラ。。】at 2005年08月09日 14:02