2005年05月21日

Yahoo!はブログを殺すのだ - YSTのインデックス削除

このところ忙しかったことや、いくつかの観測結果から過去のYSTに関する自己の推測に疑問点が出てきたこともあり、まとまった時間が取れる時に書き直そうと考えていたのだが、SEO塾さんの「Yahoo!はブログを殺すのか - YSTのインデックス削除」というエントリーを拝見し、思うところを少しだけではあるがエントリーしておこうと思う。

今回のエントリーのタイトルはSEO塾さんのエントリーをもじってタイトルとさせていただいた。SEO塾ライオン丸氏には敬意を表すと共に、ふざけた内容ではない事を先ずお断りしておく。

今回のエントリーはブログについてを中心にしているが、一般のサイトにも当てはまることは多いと思う。

オーソリティーという概念の規定
これは私の推測であるが、オーソリティーとはオリジナルなトピックを載せているページであって、サイトではないのではなかろうか。例えば「小泉純一郎」という人物についての記事を探そうとしたときには、当然現在日本の首相である「小泉純一郎」について書かれているページが重要性を持つが、同時に同姓同名の人物を探している場合もあるし、それ以前に小泉純一郎首相について様々な側面から書かれているページがより多く見つかることが良い。単に数が出れば良いのではない。
こんなことは検索エンジンを語る上で嫌というほど言われ尽くしていることではあるのだが、ここ1年以上よく問題となる検索結果へのブログの過度な上位表示を考えるとき、検索エンジン側としては何らかの手を打つのは当然のことである。ありがちなこととしての、引用が多すぎるもの、他との違いが見られないものなどはオリジナルなトピックがあればそれで充分なのである。トラックバックしてエントリーの半分以上が引用などというようなものも見かけることがあるが、こうしたページを削除しようとしているのではないか。
自サイトはブログ形式ではないのだが、こうしたオリジナルなトピックをYSTはより積極的に収集し、そうでないものを排除しているのではないかということを推測させるようなインデックス内容が観察されている。これは自サイトの構造上の問題なのであるが、いわゆる固有名詞系のトピックが米YSTの最近のインデックス傾向で再度浮上してきている。

YSTはオリジナルなトピックスを探そうとしている。
また、良質のブログでさえ、違った意味でブログの性格からより少数のインデックスで最大の検索結果を出そうとしているのではないかと思える点もある。
上記SEO塾さんで紹介されている「ネットは新聞を殺すのかblog」というブログも拝見させていただいたが、この記事自体は勿論オリジナルであるだろうし内容も立派なものである。ただし、サイトとして見るとSEO塾ライオン丸氏も指摘されているように構造がいけない。実にもったいない話である。
このようなサイトの場合、トップページのエントリーは最新のものであり、それで充分に伝えるべき内容を表現している。時事的なものであればそれで良いと、YSTでは考えられているのではないだろうか。
先の引用過多のブログにしろ、トップページにエントリーの殆どが載せられているブログにしろ同一のテキストが重複しているという意味では同じである。
こうした重複テキストを探し出し、どちらがオリジナルか、あるいは重要かを判定し、不要なものは削除する。この一連の流れもlj系に課せられた使命なのではなかろうか。
また、コピーサイト(いわゆる他人のページ内容をコピーして自らの名前でサイトとして公開しているサイト)というものがある。これはれっきとした著作権違反のサイトであるが、こうしたサイトを私は少なくとも一つ知っている。しかもここは日Yahoo!のカテゴリのコピーである。このサイト他のGoogle、MSN、Ask(Askの場合だけはちょっと事情が違うのだが)では上位に着けているのだが、YSTでは恐ろしく順位が低い。これもやはりYSTがオリジナルを重視しようとしているのではないかと考える一つの要素である。

総インデックス数の変動とページの削除の関係
ほぼ毎日確認している日米YSTの「で に を は の デ ニ ヲ ハ ノ」のOR検索の総数であるが、これは一本調子に増えているわけではない、それどころか5月12日のインデックス削除以外の期間でもインデックス数が下がっていく時期というものが以前から何度もある。件の検索の総数が真のインデックス総数を表すものではないにしても、分野の偏ることなく増減の傾向を知るには充分な検索条件であろうと思う。この検索条件で何故上下20%近いインデックス数の増減が起こるのであろうか。少なくともこうした検索についてアルゴリズムが変わったのであれば、限りなく0に近い数字が出てくることの方が自然である。とするとやはり実際にインデックスからの削除が頻繁に、過去lj1000系主体のときも、lj2000系が主体になってからも、行われているのではなかろうか。そして、これがオリジナルと判定されなかったページのインデックス数減として表れるのではなかろうか。

リンク構造とインデックス削除の関係
過去私が目にしたYST関係の記述で印象に残るものとしてジュチさんという方の記述がある。
この中でゴーストリンクという考えを示されているのであるが、もしリンク構造が変更されあるページから他ページへ発リンクが移動したことで一時的にSERPsが下がるということだけであれば、先の「ネットは新聞を殺すのかblog」さんのような酷いことは起こらないであろう。ネットの性質上リンク関係を軽視することができないと考えるのは私も同じである。しかし、多くの方が抱いているであろうljは何故沢山来るのにインデックスが一向に増えないというような不満を考えるとき、あるページを仮インデックスし判定するために過去の似た記述のページを探ってみてよりオリジナルなページの判定をしているのだとしたらどうだろうか。この点を考えるとき、リンク構造よりも固有名詞や記述内容といったものを私は優先して考えてしまう。

ハブサイトはどのような役目を果たしているのだろうか
簡単に言ってしまえば、YSTにおいてのハブサイトの役割とはクローラーの道案内である。では何故しばしばハブサイトがオーソリティーサイトより上位に表示されるような現象に出くわすのであろうか。多分それはAskの「おすすめリンク集」のような役割ごとの分類がされていないからであろう。分野によってはそうしたハブサイトが重要である場合もある。これらにはどうしても一定の評価が必要となってくる。しかしこれもいつまで続くものかははなはだ疑問であると言わざるを得ない。より判定能力が上がったときには殆どのハブサイトは表示から消えてしまう、少なくともハブサイトが重要な役割を果たさない分野ではそういった現象が見られるかもしれない。

大変化の周期は本当に40日なのか
確かにYSTにとってハブサイトは、複雑なネットというパズルの大きな先埋めされたピースなのであろう。そしてそのハブサイトを中心とした演算が解けるとき不要なものは消されるのかもしれない。
そしてその演算の再帰の開始と最初の打ち止めが2月20日頃と4月1日だったと推測している。
この考えからすると5月12日には何故何も騒がれなかったのかという疑問に行き当たる。
特徴的な違いは4月1日の前には、その約20日前から総インデックス数が増加傾向(その前は若干の減少傾向を伴う上下動)にあるのだが、5月12日の直前にはそうした傾向は無い。ただその日に合わせたようにsem-research.jpのインデックス数が減少している。もしかするとこの日に合わせたインデックス減少サイトも多く存在した可能性がある。6月1日頃からのインデックス数の傾向を注意深く観察する必要があると考えている。

各サイトが危機にさらされる変化の予兆
自サイトのインデックス数を観測する方法として、日YSTに対しては「共通キーワード+site:ドメイン」、米YSTに対しては「site:ドメイン」という方法があるが、この時のインデックス数として1ページ目の数字を見ている人は多くても、2ページ目以降の数字を併せてみている人は少ないと思う。
前回のエントリーで、「あるサイトのテーマとする部分の計算が急激に進むとき、そのサイトの構造次第では、インデックス数が一時期過剰に増えるという現象があるのではなかろうか」と書いたのだが、最近自サイトの観測では2ページ以降も定期的に確認するようにしている。ここで面白いことが判ったのだが、日YSTの場合、この表示件数を100件単位としたとき、1〜100→201〜300(約1800件)のインデックスと、301〜400→601〜700(約1700件)のインデックス、701〜800→901〜999(約2800件)のインデックスはそれぞれ別物ではないかということを感じさせる現象が起こっている。それぞれの範囲毎に総インデックス数の数字が3つのグループに分けられるのである。また表示される結果にも不審な点がある。これはインデックス数が一定以上あるサイトでしか見られない現象であるが、不思議な現象である。これらのグループがどういった性格のものなのかは私にも不明であるが、米YSTのインデックス状況などを勘案すると最後のグループが未来の自分の姿かもしれないと考えている。
また、米YSTでは自サイトにはあまり特徴が無いのだが面白い動きをするサイトを目にすることがある。あるサイトが100件表示の1ページ目の表示で急激にインデックス数を増やしたとする。しかし2ページ目以降は以前とあまり変わりが無い。そして数日するとインデックスが増加したページが2ページ目、3ページ目と段々進行していくのである。またこのようなサイトの場合、日YSTでも100件表示の1、2、3ページ目でのインデックス数の落差が大きいという特徴がある。
自サイトの急増現象の際には、「うーん、YSTも本気で自サイトをインデックスしだしたか。」などと自惚れてこうした観察には思考のしの字も浮かばなかったので資料は無い。しかし、米YSTで10ページ目までインデックス数が増えたときそのサイトの命運が下されるのではなかろうかと推測している。

インデックス削除のタイミングは二つあるのか
ここまで書いていることは多少推測をごちゃ混ぜにして書いているので読んでいる人には判りにくいかもしれないが、インデックス削除が起こるタイミングは二つあると考えている。一つは個別サイトごとに不審なインデックス現象が始まってから一定期間の後の個別サイト独自のもの、そしてもう一つは約40日を周期とした定期的なものである。ただ、個別サイトのインデックス削除に関しても、ある程度分野の傾向があるような気がしなくもない。また、それぞれの削除されるタイミングもはっきりしないことが多いので、これ以上詳しいことは私にも何も判らない。

素人SEOの不遜な預言
今回のエントリーでは、判らないということで片付けている事が多くあり、明確な数字も殆ど伴っていない。自サイトを特定できるような資料は公表しないという方針で書いているので曖昧な書き方になっている事をご理解いただきたい。そのため、このエントリーを読まれた方の中でもその信憑性に疑問を持たれる方が多くいるであろう。
そこで、先のエントリーでも書いた「インデックス数の過剰増加現象」に見舞われている観察サイトを記しておく、実は以前のエントリーでも言及したことのある「jeff.ecjapan.jp」なのである。SEOのプロが作っているブログであるから、こうした事は素人の戯言であると笑って許してやって欲しい。しかし、約1週間前に始まったインデックス数の過剰増加現象は7ページ目まで進行している。また先に挙げられていたブログのように表紙での最新エントリーと各個別エントリーでの追記による差異が少ないことも似ている。つまり、今月末頃あるいは6月20日頃に表紙だけがインデックスされている状況になれば、細かな理屈は兎も角、予兆とその結末だけは現象面として世に受け入れられるであろう。

この記事へのトラックバックURL

http://app.blog.livedoor.jp/medartkuma/tb.cgi/22663595