Rankbrain – Googleの検索エンジン向け人工知能まとめ。




RankBrainは、2015年にGoogleが公表した検索エンジン向け人工知能の事。

Google傘下のDeepMindのAlphaGoなど、
Google関連企業のAIへの投資は目覚ましいが、
中でもこのRankrainはGoogleの中核事業である検索エンジンに利用されるAIである。

元々Googleは2000年代後半にAIに着目し、
コンピュータの処理速度の向上に伴い実用化が可能になってきた。

以下に、雑多ではあるが、Rankbrainについての情報をまとめた。

Rankbrainの影響

Googleの検索アルゴリズムの総称をまとめて「ハミングバード(Hummingbird)」と言うが、
Rankbrainはその一部、およそ15%程度もの決定に関わっている。

600以上ある要素のうち、3番目に重要な要素だそうだ。
1番はリンク、2番目がコンテンツ、と言われている。

Rankbrainの処理した検索結果は、1秒間に何百万件と打ち込まれる検索クエリの非常に大きな部分を占めると言う。
今も日々、Rankbrainはその精度を機械学習により高めている。

Rankbrainが最初に検索順位を大変動させたのは2011年の、
あのパンダアップデートではないかとコンテンツマーケティングエージェンシーのMOZ社が指摘している。

We SEOs discovered how Google uses machine learning when Panda rolled out in 2011.
Panda, in fact, is a machine learning-based algorithm able to learn through iterations what a “quality website” is — or isn’t.

“パンダアップデートが2011年に施工された際、
我々SEO業界はGoogleがマシンラーニングをどのように利用したか発見した。
パンダアップデートはマシンラーニングによるアルゴリズムであり、「何が良質なコンテンツか」を繰り返し学習する事ができる”

Rankbrainは機械学習システム

Rankbrainはよりユーザーに関連する検索結果を提供するためにつくられた機械学習システムだ。
正の集合と負集合のサンプルを与えられ、分散表現により単語ベクトルを決定し、単語間の関係性を理解出来る。
そのため、始めて見るキーワードが検索された場合、
このクエリを単語(エンティティ)またはそれにマッチする可能性が最も高い単語のクラスタにマップする。

それによりRankbrainが知らない検索クエリであっても、
近しいと思われるその意味を推測し、より的確な検索結果をフィルタできる。
(現に検索クエリは過去にほとんど検索されたことのないものが常に増えているらしい)

検索クエリをエンティティとして「理解」し、
単なる文字列として処理するのではなく、
セマンティックな検索を実現する事のできるシステムという事。

Rankbrainはいくつかのウェブページのうち、検索結果の1位になるものがどれかを予測し、80%の正答率だった。

同じテストを検索エンジンのアルゴリズムを担当していたエンジニアがやってみると、
正答率は70%だったそうだ。

なおRankbrainには上記の様にオンラインの時もあれば、オフラインの時もある。

RankBrainがオフラインの時は、過去の検索のバッチが与えられ、検索結果の一致によって学習する。
RankBrainが処理した結果がGoogleのチームによって検証されると、システムは更新され、再びRankbrainはオンラインで稼働する。

と言う感じでRankbrainとは機械学習システムのため、
日を追うごとにどんどんその精度が高まっていく事になる。理論上は。

RankbrainはGoogleが2015年に公開したオープンソースライブラリ(フレームワーク)のTensorFlow(テンソルフロー)と同じものを使ってマシンラーニングを行っている。
GoogleはRankBrainの要求を処理するためにTensor処理ユニットASICを使用している。

Rankbrainの課題は検証が難しいこと

Rankbrainにはもちろん課題もある。

2016年のPubcon(サーチやSNS等のカンファレンス)では、
Googleの中の人が「Rankbrainの処理した結果はデバッグが難しい」と言っていたようだ。
これはつまり、なぜRankbrainがその検索結果をフィルタしたか検証する事がほぼ不可能であるという事。

確かにRankbrainの使用する上記のTensorFlowもオープンソースだが処理自体はブラックボックスだから、
Google社内でもデバッグできないのも納得。

あと別の場所では、SMXだか何だか忘れたが、そのために検索アルゴリズム全体にAIを使う事はできないと言っていた。
さらには、検索アルゴリズムには別のAIを試す可能性もあるらしい。

また個人的に思う疑問もある。
TensorflowというライブラリをGoogleは公開したが、
Rankbrainも同様のものを機械学習に使っている。
これを他の検索エンジンの競合に使われても良いのか?
(良いから公開しているのは理解しているが)

世界には他にも超大手の検索エンジンが多数あり、
大きいところでは中国のBaidu、ロシアのYandex、韓国のNaverがそれぞれの国のトップ検索エンジンだ。

またアメリカのBingやDuckDuckGoなどは利用者数でも広告収益でもGoogleより遥かに下ではあるが、
彼らがTensorflowを使って機械学習を使ったAIを投入したらどうなるのか、というシンプルな疑問がある。

Rankbrain対策、すなわちRankbrain Optimization(RBO)はどうするのか

ではSEO対策においてRankbrain対策、すなわちRankbrain Optimization(RBO)なるものがあるかと言うと、特別にそういったものは必要ないだろう。
普通にSEO対策をやるだけだ。

Rankbrainは誤解を恐れず言えば、
通常の、多くの人が行う検索クエリも処理できるが、
ロングテールの、ほとんど検索されたことのない長文なんかも意味を理解し処理できる、
というものだからだ。

さらには機械学習により、これまで手動でアルゴリズムをアップデートしてきたが、
Rankbrainが日々学習を繰り返し、処理の精度を上げてくよ、というものだ。

だからRankbrain対策(RBO)なるものを強いて言えば、
Rankbrainがコンテンツの意味を理解しやすいようにコンテンツを仕立てておくぐらいは必要である。

ただそれって、セマンティック検索に対応できるよう、
構造化マークアップをしときましょうねとか、
通常のSEOで必要とされている事をきちんとやっておきましょうね、というぐらいだ。

一部で言われているが、ナレッジグラフ、アンサーボックス等のフィーチャードスニペットのアルゴリズムには大いに関わっていそう。
高度な意味理解が重要になるので。

例えば日本語では「~とは」というクエリでアンサーボックスが出るが、
検索インテント(意図)の理解を行い、百数十文字程度のボックスに綺麗に収まるような、
コンパクトな「とは」解説を行い、
かつ検索インテントに合致するより詳細な情報を十分に掲載したコンテンツで、
信頼性や専門性のシグナルもある程度見られて…
という軸で高度なクエリ解析、解釈を行っている。かも知れない。

通常のSEOとは、まずコンテンツをしっかりつくること。
タイトルとか見出しを的確に(検索エンジンをだまそうと思わず)書きあげること。
内部リンクも訪問者のためにしっかり貼ること。
サーバーエラーとか重複ページをなくすこと。
リダイレクトは的確にやること。
そしてモバイルの時代だからモバイルに対応したページをつくること。
モバイル時代に向けて、サイトの表示速度を速める努力すること(AMP対応したり無駄な要素は削除するなど)。




  • このエントリーをはてなブックマークに追加

フォローする