ロボット型サーチエンジン（ページ検索）対策の基礎

Google に代表される、ロボット型サーチエンジン対策の基礎を説明します。

ディレクトリ対策の基礎知識

登録はページ単位

ウェブディレクトリと違い、ページ検索ではサイト内の各ページが対象となります。サイトの表紙にあたるページ以外にも、サーチの対象にできるということです。できるというよりは、そうならないように積極的に対策しない限り、自然とそうなります。

ページ検索への対策は、個別のページ単位で行えるので、ある意味ディレクトリ対策よりは手をつけやすいといえます。しかしページ単位の検索であるため、その分同じキーワードでもディレクトリ検索とは比較にならないくらい、他サイトのページも多数ヒットしてしまうので、人気のあるキーワードの場合その中から抜け出すのは大変です。

相手は「ロボット」

ロボット型サーチエンジンで意識する対象は人ではなく、コンテンツを集めて自動的に索引化してまわる、いわゆる検索ロボットの振る舞いです。ロボットといっても実際は無人のブラウザみたいなもので、いずれにせよ人間ではありません。だからたとえば、商品のチラシをスキャナで取り込んだ画像をドーンと貼り付けただけといったページは相手にされません。ロボットが理解できるテキストとしての情報が、ゼロだからです。これは極端な例ですが、人ばかりでなく機械にもやさしいページのほうが有利なのは、間違いありません。

なのでディレクトリの場合よりは多少テクニカルな要素が入ってきます。HTML の知識も多少は必要になります。とはいっても基本は簡単で、要するに適切なメタ情報（そのページについての情報）を用意して、それを各ページに埋め込み、ロボットに満遍なくさらっていってもらうということです。

実作業の内容

以上の基礎知識を踏まえた上で、ロボット型サーチエンジン対策の実作業を説明します。

ロボットに見つけてもらう

とりあえず最低レベルのロボット型サーチエンジン対策は、ロボットを自分のサイトに呼び込むことです。

ロボットの呼び込みは、早めに仕掛ける

正式な URL にコンテンツを置いたら、すぐにロボットを呼び込む手を打っておきましょう。ロボットがくるタイミングは基本的にロボット任せで、逃したら次はいつかわからないので。

新ドメインへのロボット呼び込み

新しいドメインでサイトを立ち上げた場合、各社のロボットはこのドメインのことをまだ知りません。こういう場合は自分から働きかけて、ロボットを呼び込むことが必要です。何もしなくても相手から察知してくれることもありますが、Google などは無料で URL の登録を受け付けているので、さっさと済ませててしまうのが良いでしょう。

URL の登録は通常、そのサイトの最上位のページだけでよく、ロボットはそのアドレスを起点として、リンクを次々にたどっていってくれます。サイト内の各ページが機能的にリンクされていれば、ロボットはサイト内をくまなく泳ぎまわってコンテンツを持ち帰ってくれます。

サイト内のほかのページからリンクされないページには、基本的にロボットは訪れません。こうしたページも検索の対象にしたい場合は、個別に登録する必要があります。ただしこうしたページが存在すること自体、サイトの設計上問題である可能性があるので、サーチエンジン対策といったレベルで解決することは必ずしもお勧めしません。

サーチエンジンで検索されたくないコンテンツがある場合、どこからもリンクしないという作戦で、一応見つからずにすむ場合があります。しかしこの場合も、他のドメインからリンクされた場合に見つかってしまうことがあるため、完全ではありません。こうしたコンテンツに対しては、ロボットによる検索や巡回の対象から除外するという方向で、やはり予め対策をしておくのが自衛上、良いでしょう。

既存ドメイン内にサイトを立ち上げるとき

既存のドメイン内にサイトを新しく作る場合、このドメインがロボットの巡回ルートに含まれていることがわかっているなら、最上位のページからリンクしておくだけで、新しいサイトにもロボットは呼び込めます。

ただし既存のドメイン内であっても、上位のページからリンクしてもらえない場合は、待っていてもロボットは来ません。たとえばプロバイダが用意した個人ホームページのスペースを使う場合などです。こうした場合は、上位ページの管理者にお願いしてリンクを設けてもらうか、新たにドメインを作るときと同様に、自力でサーチエンジンに登録しましょう。

ロボットに情報を伝える

基本的には HTML のテキスト全体をロボットは持っていきます。しかしその中でも、直接画面に表示されない TITLE と KEYWORDS、DESCRIPTION の欄は、特に重要といわれています。

基本: TITLE, KEYWORDS, DESCRIPTION

HTML のヘッダ部分に、以下のような行が入っていることが必要です。

<meta name="keywords" content="キーワード1, キーワード2, キーワード3" >
<meta name="description" content="ここにはページ内容の概要を記入" >
<title>ここにページのタイトルを記入</title>

KEYWORDS の中身には、検索用のキーワードをカンマ区切りで、DESCRIPTION にはページの概要説明を普通の文章で、TITLE にはそのページのタイトルを記入します。

TITLE はページそのものの題名を記入します。当然キーワードもその中に含まれているでしょう。サーチエンジン対策上は長くないほうが良いようですが、このタイトルはブラウザのタイトルバーやブックマークなどいろいろな場所に使われるので、短くしすぎると不都合な場合もあります。よく考えて決めましょう。

KEYWORD は普通にキーワードを書けばよいのですが、検索エンジン受けを狙っていろいろ詰め込みすぎると、最重要なキーワードに対するノイズが増えて、思わしくない結果を招くことがあるようです。増やし過ぎないようにしましょう。

キーワードをどうしても減らせないという場合は、無理に詰め込むということはせずに、むしろ文書のテーマが単純に絞りこめる形になるように、ページそのものを分割することを考えましょう。こうしたほうが文書としては利用者にやさしい形になるばかりでなく、それぞれのキーワードに対しても対策しやすいページになります。

DESCRIPTION について。ここには文章で、このページの説明を記入します。「この項目は Google では使われないので書かなくても良い」という俗信がありますが、これは嘘です。検索のキーワード次第で、ここに書いたテキストが検索結果内のサイト説明文として使われることはあります。

DESCRIPTION に何を書いたらいいか分からない、という声を聞くことがあります。普通に計画されたサイトであれば、ページの説明はそのページ自体ができる前から存在しているはずなので、基本的にそれをここに書くだけでよいはずです。それが見当たらないならば、サーチエンジン対策より先にサイトの不確かな構造のほうを先に解決したほうが良いかもしれません。

正しい HTML を書く

HTML のその他の部分もロボットは持っていくので、それなりの重みでスコアリングに影響すると思われます。このことを考えると、テキストの部分も HTML で、文書の構造がわかりやすいようなタグ付けをしておいたほうが、スコアリング上有利になると考えられます。

文書の構造といっても聞きなれない言葉かもしれませんが、要するに重要な部分とそうでない部分にメリハリがついているということです。テキスト内で重要なたとえば見出しのような部分は、見出し用のタグでくくっておけば、ロボットにもそこが重要な見出しだということがわかります。なので、文章中の見出しなど重要な部分は、ふさわしいレベルの見出し（<H1>, <H2>...）として扱うのがいいでしょう。

同じ理由から、たとえば単に文字を大きくしたいといった理由で H1 のような見出し用のタグを使うのも損だと言えます。サーチエンジン対策の視点から見れば、文書の含むノイズが増えるということですから。

この他に、見出しの文章をGIFなど画像にしてしまった場合、テキスト情報が失われてしまうので、ALT="代わりのテキスト文字列" といった指定をつけて補うといったこともできます。

こうした配慮は、HTML として正しい文書が書けていれば、ほぼクリアされる問題です。たとえば上であげた画像に対するALT文字列の指定などは、HTMLでは実は必須とされていたりしますし、HTML4.0 からは、いわゆるブラウザ以外の端末からの利用も考慮に入れた書き方を求めています。だから HTML 的に正しいページを書いていれば、意識しなくてもある程度、機械にも人間にもやさしい HTML になり、結果的にサーチエンジン対策上も望ましいページになりやすいと言えるでしょう。

もちろん HTML として正しいといっても必ずしも完璧でなくてはならないということではないし（そのほうが望ましいのは確かですが）、最新バージョンの HTML で書かなければならないということでもありません。それなりのHTMLがそこそこ正しければ、ひとまずそれで十分です。

はまりやすい罠

基本的にロボット型サーチエンジンは審査がないのですが、ロボットは来ても検索でヒットしないとか、しても期待したページが思ったように拾ってもらえないといったことがあるようです。相手は機械なので巡回も機械的に行われます。思ったとおりにいかない場合のほとんどは、ページの側に問題があるようです。

文字コードの問題

日本語のページの場合は特にですが、使用している文字コードが HTML にちゃんと書かれていない場合、あるいは間違っている場合に、機械が思ったとおりに読み取ってくれない場合があります。人間が読むときは、ブラウザが適当に自動判定してたまたま読めてしまうということがあるので、なかなか本人には気づきにくいのですが。

フレーム使いの問題

フレーム使いのページは、ロボット型サーチエンジン対策に関する限り、相性が良いとはいえないようです。たとえばロボットが巡回するときの話では、フレームの外枠のページがリンクを全然含まない場合（割合としては非常に高いのですが）、ロボットがそれより先のリンクをたぐれず引き返してしまうという問題があります。

工夫してロボットを泳がせることができた場合でも、検索結果では逆にフレームの内側のページがピックアップされて、訪れた人が迷ってしまうというケースも非常によく見かけます。

こうしたフレームがらみのサーチエンジン対策上の問題は、個別の取り組みによってある程度解決できるようですが、少なくともそれだけの手間は余分に見積もる必要があるでしょう。サーチエンジン対策以外にも、フレーム使用は必要以上の複雑さをサイトに持ち込む結果となることが多いようです。これからサイトを設計するのなら、あらかじめ考慮しておいたほうが良いかもしれません。

ドキュメントを読んでいない

各サーチエンジンとも、自社のロボットで的確に検索してもらうための資料を公開しています。ちょっと読めばわかる落とし穴もありますし、有益なヒントも得られます。作業を無駄にしないためにも、登録にあたっては一通り熟読しましょう。

HTMLそのものがデタラメ

どうしても思わしい結果にならないという場合、サーチエンジン対策以前の問題として、HTMLそのものがデタラメだというケースがあります。サーチエンジン対策上は、HTML は必ずしも最新のものでなくてもよく、そのバージョンとしてそれなりに正しければ問題ありません。それでも、最低限の文法すら無視して HTML として破綻しているようなページは、結果的にロボットからも無視されたり、思ってもみない表示になることはあります。ロボットを疑う前に、自分の HTML が最低レベルに達しているかどうか、一応は疑ってみましょう。

Internet Explorer などは特に、文法エラーに対して許容度が高いというか、時にお節介と思われるほどに、デタラメな HTML でもなんとか画面を取り繕おうとします。そのため「ちゃんと書けている」ように見えるページであっても、文法上ボロボロだという場合は、実は非常に多いようです。確かめるにはブラウザの画面ではなく HTML のソースを見ること、文法チェッカーの手を借りることが役に立ちます。

デタラメな HTML といっても、具体的に何を注意というのは大変に難しい問題です。そもそもがデタラメなので。 HTML の説明をするのはこの文書の目的から離れすぎるのでしませんが、気になる人はきっかけとして、たとえば以下のような文書に、さっと目を通してみてはどうでしょうか:

Links

ロボット型検索エンジン攻略でアクセスアップ多数のロボット型サーチエンジンに同時にサイトを登録申請できる、大変便利な機能を提供しています。また上級者向けのサーチエンジン対策情報も掲載しており、非常にためになるサイトです。

最適化.com 存在そのものも含め、非常に興味深いサイトです。