4月1日のインデックスの変更、5月12日頃の総インデックス数の減少など、YSTの変化は約40日を周期としていることは明らかである。
今回もあくまでも私の仮説である
YSTが日本に導入された昨年6月以降の変化の周期は約28〜30日と考えていた。毎月中旬になると定期的に観察している検索語のインデックス数が不安定になる期間が存在していたからである。
こうしたインデックス数が不安定になる現象は、期間が5日程度の場合と10日程度かかる場合があり、この時期以外にも不安定になる場合もあることから、複数の要因によって起こっていたものと思われる。
そしてこのような現象は今年に入ってからも何度か見られていたのだが、これとは全く違ったインデックス数の変化が最初に起こったのは2月21日である(但し2月19・20日は土日のため観察していなかったので、この間に起こっている可能性はある)。
YSTのインデックス数の指標として、「で に を は の デ ニ ヲ ハ ノ」のOR検索を見ているのだが、2月21日の直前は5.5億だったものが11.2億程度に増加、さらに約40日後、3月末頃は12.2億程度が15.1億程度に個別サイトのSERPs変化を伴って増加している。(以下このエントリー内のインデックス数は通常「で に を は の デ ニ ヲ ハ ノ」のOR検索を指している)さらに約40日後の5月12日には直前15.1億であったものが10.4億に減少している。
では1月10日頃には何か変化があったのだろうか?
実はこの時には何も無かった。少なくとも私は気がつかなかった。
さらにこの40日程前の12月1日前後の変化はというと・・・
気が付いている人もいるとは思うのだが、lj2000系のクローラーの登場である。
この後YSTのクローラーの来訪総数は相対的に増えている。
そこで、私の持っている少ない情報や過去からの推測を基にしてではあるが、YSTで起こったであろう変化についての仮説を立ててみたい。
先ず今回の変化はlj系の作成するインデックスのアルゴリズム変更にあるのではないだろうか。
もし単純なクローラーの増加であれば、lj2000系の登場と共にSERPsの変化は兎も角インデックス数は増加のペースを上げるはずである。しかしそうした変化は起こっていない。つまりlj2000系のインデックスは2月20日頃まで秘匿されていたのではないだろうか(この時初めてlj2000系のインデックスが追加された?)
lj2000系はlj1000系のアルゴリズム変更を伴うブラッシュアップ版なのではないだろうか。
昨年7月8日前後まで米Yahoo!には一般の検索結果ページ以外に新デザイン版というようなものがあり、これに7月9日以降切り替えられている。この時のインデックス数は5.5億。途中5億から6億程度の範囲で増減は見られるが、今年2月20日頃まで基本的な変化は無い。つまりlj1000系を基にしたクロールでは何らかの原因でこれ以上インデックス数を増やすことが不可能だったのではなかろうか
lj2000系のインデックス能力は40日で4億弱くらいはあるのではなかろうか。
2月20日前後の11.2億から4月1日の15.1億というインデックス数の増加数は3.9億である。
lj2000系のインデックスには複数のグループあるいはアルゴリズムが存在するのではないだろうか。
少し飛躍しているかもしれないが、YSTのauthority and hubという考え方では、全websiteをある種のカテゴリに分類し、同カテゴリ内の他のサイトとの関係を計測する事になるのだと思われる。ただこの計算は再帰的に行われ膨大な量の計算を行わねばならないらしい。
1.これらの計算を全てのカテゴリに対して行おうとすればさらに膨大な計算が必要であろう。効率的に行おうとすれば現行インデックスの有効期間を複数に区切りグループごとに順番に計算を行うのではなかろうか。
2.別な考え方として、何段階かの評価ポイントの違うアルゴリズムを使って新インデックスの作成期と修正期のようなものが存在するのではないかという見方も出来る。
この二つの対立する考え方のいずれが正しいのか、あるいは全く別なところに正解があるのかはいずれかの時期にもう一度考え直してみたい。一応後で現在自分の知る範囲の中での考えだけは示してみる。
さらに推測であるがグループごとのインデックス材料収集期間は約80日なのではないだろうか。
lj2000系の登場から2月21日のインデックス数の増加まで約80日の期間がある。仮に1月10日前後に別グループのクロールが開始されたとすると、1クールでのインデックス数増加量4億弱の約1.5倍のインデックスが一気に追加されている2月21日のインデックス数増加も符合する。また自サイトでは、12月中旬のlj2000系のクロール数に対して1月中旬のそれが約2倍になっていることも、これを補強する材料である。
また、インデックス材料の評価期間は約40日なのではないだろうか。
12月1日から2月20日頃までで収集され評価対象となったものが4月1日に新SERPsとして表示されたのだとしたらというだけの話なのだが、この間には約40日のタイムラグが存在するが、この間に起こっていること、起こっていないことはというと、インデックス数が増加しつつ、SERPsが変化していない。つまりこの時追加されているインデックスはSERPsを決める評価要素としては非常に低く目立たないものだったということだろう。
4月1日の変化はlj2000系インデックスの優先順位をlj1000系インデックスより上げた事による変化なのではないだろうか
以前から考えていることとして、YSTは、各系列ごとのクローラー(dj、fj、lj)更にはクローラーNo(1000、2000、5000、9000)毎、あるいはもしかしたらもっと細かく個別にインデックスがあり、それらがレイヤーのように重なっているのではないか。また日Yahoo!のページとの一致ではさらに独自のインデックスのレイヤーが上位に存在しているようだ。そして、検索の種類(特別構文検索やOR検索)によってはこの組合せが変更されたり、このレイヤーの順番を変えることで通常の順位とは違うSERPsで表示されることがある。あくまでもイメージではあるのだが、4月1日にはこのうちlj1000系とlj2000系の順番が入れ替えられたのではないだろうか。
5月12日のインデックス減少はlj1000系のインデックスの廃棄か。
5月6日を最後としてlj1000系のクローラーは全く姿を見せなくなった。そして、数日後のインデックスの減少である。この二つに関連があるのは間違いないと見ても良いのではないか。
lj2000系のインデックスには複数グループがあるのか?、複数アルゴリズムがあるのか?
複数のグループがあるという考え方の元にあるのは、過去のlj1000系のクロールの記録からであるが、1クール(以前は28〜30日)の間でlj1000系クローラーが多く来る時期と少ない時期が存在するということがある。しかし、これとSERPsの間には関連性はあまり見出せなかった。昨年6月の段階で自サイトは相当順位が下がったことがあったのだが、これの回復した時期を考えると、クローラーが多く来た時期から暫くずれて回復しているようには確かに思える。これ自体はlj2000系で考えているインデックス収集期、評価期が存在するのではないかということからしてもおかしくはないのだが、逆に少ない時期があっても一旦評価の上がったものが再び下がるということは無かった。少ない時期があればその分自サイトのインデックス数あるいはSERPsが下がっても良さそうなものなのだが。
5月12日インデックス数を減らしたサイトはあるのか?
また別の要素として、4月1日以降の観察サイトのインデックス数の変化として「jeff.ecjapan.jp」のインデックス数は若干の増減を伴いながらも5月12日にはあまり変化は無かった。しかし、「sem-research.jp」は2/3にインデックス数を減らしている。この両者の違いとしては、「jeff.ecjapan.jp」が詳報・長文系であるのに対し、「sem-research.jp」は速報・短文系と例えることが出来るのではないか。そして当然かもしれないが私の見たところでは固有名詞の比率は「sem-research.jp」の方が高い。
自サイトでも5月12日の変化では、インデックス数に米Yahoo!では変化なしである。日Yahoo!では2/3に減少したのだが、共通キーワード+site:ドメインの検索では固有名詞がメインとなるページがインデックスから消える傾向がある。
6月20日頃に何が起こるのか?
4月1日の変化は、自サイトで言えば固有名詞主体ページのランクアップ、あるいはそれ以外のページの大幅な削除。5月12日の変化は固有名詞主体ページの削除、あるいは目次のようなページのランクアップである。しかし、他の検索エンジンではこれらのページはあまり検索にかかることは無い。自サイトの場合この間にあるページが評価が高い。また私がメインと考えているのもこの部分である。自サイトだけを中心に見ると評価を誤る可能性が高いのでもう少し一般論としてみると、固有名詞はオーソリティーの評価、目次のようなページはハブの入り口あるいは傾向の評価、未評価の部分はハブのメインの評価と考えることも出来る。
つまり次回の変更でハブのメインが評価されることでlj2000系を中心とした新YSTの完成なのではないかというのが私の見方である。
まあこれで自サイトのメインページが上位にカムバックするかどうかは全く不明であるが。
lj2000系のインデックスには複数のグループあるいはアルゴリズムが存在するのではないだろうか。(再)
lj2000系のクローラーが作るインデックスは複数のグループがあるのかあるいはアルゴリズムが存在するのか。どちらかというとアルゴリズムというか評価のポイントをずらした複数回の段階的インデックス作成を行う必要があるような気がする。一度それが出来てしまえば、追加されるものは相対的な評価で概ね問題がないのであろうが、最初にはそうした作業が必要なのだろう。しかし、複数グループがあるという考え方も小さな区分されたグループを個々に評価すればそれだけ早く評価を確定することが出来るだけに全く矛盾するわけではないので否定する要素が見当たらない。
私自身の考え方もこの両者でゆれている。
YSTあるいはauthority and hubの欠点?
lj系の問題なのかもしれないが、インデックス数の大幅な増加を伴う新アルゴリズムの導入には、今回のような、そして昨年6月のYST導入の時の様な大規模な混乱が付き物なのかも知れない。
考えてみれば、あるテーマについてのオーソリティーやハブを探すというある意味ネット全体を評価する作業は、個々のファイルを一定の基準に沿って評価する(たとえそのファイル(被)にリンクするファイル(発)の傾向からリンクの有効性を評価するとしても、発リンクのファイル・サイトを基準にリンクの有効性を評価するのであれば本質的に個々のファイルの評価であることは変わりが無い)という作業に比べ大幅なインデックスの急激な増加には弱いし、それを正当に評価するには新たに一からやり直す方が良いのであろう。しかし、アルゴリズムが変わるたびにこうした混乱が起こるというのは如何なものかと思うのだが。
今回の推測は分析材料も自サイトのデータが中心となっており、前提となる条件がいくつかある(これも私の推測に基づくものである)。そのため間違っている部分も含まれているかもしれない。また仮に合っていたとしても、各サイトの構造というものは様々であり必ずしも予想通りの変動をするものではないという事を重ねてお断りしておく。
また、クローラーの動きに関しても以前立てた仮説ではうまく説明できない部分がある。クローラーの動き、特にfjクローラーの来訪を誘発するトリガーの部分などについては考え直す必要があると考える。