検索ロボットの CSS ファイルのクロールについてと、それを拒否する手段

http://hxxk.jp/2005/09/02/1910

記事データ

投稿者

真琴

投稿日時

2005-09-02T19:10+09:00

タグ
概要

Yahoo や Google が CSS ファイルをインデックスしだしたということですが、クロール自体を拒否したらどうなるんでしょう ?

リプライ

4 件のリプライがあります。

記事本文

CSS ファイルのインデックス

Lucky bag::blog: 検索サイトが CSS ファイルをインデックス経由で。

私は SEO 目的ではありませんが、 CSS 中に display: none; を用いている箇所がいくつかあります。 display: none; があれば即 SEO スパムとみなされるということは無いと思いますが、可能性が全く無いとも言えません。

hxxk.jp の各ページは現在では Google にはインデックスされているので、 SEO スパムとみなされてはいないようです。

CSS ファイルを検索

これは本題には関係ない部分ですが……。

んでもって、Google の方でもいくつか CSS ファイルがインデックスされてるみたい。

CSS ファイルだけに限定して検索することもできるんですねえ。 Googleの特殊機能 - PDF ファイルの検索に例示されていますが、これを応用して、「検索キーワード+filetype:css 」として検索すると CSS ファイルだけを検索できるようです。 hxxk.jp の CSS もこの通り。 robots.txt の効果かはたまた .htaccess の効果か分かりませんが、検索結果に現れなくなっていました。 ( 記事作成時は http://hxxk.jp/common/css/mt16.css が検索結果に現れていました。 ) CSS ファイル以外の検索結果はまだ残っていますが、今後どうなることやら……。 この追記部分を書いている時点での hxxk.jp ドメイン内のインデックス数 約 4,520 件 のようです。

CSS ファイルのインデックスを禁止するとどうなる ?

さて、 CSS ファイルのクロールによってスパム判定をされかねないと危惧するなら、 robots.txt でインデックスをしないように指定したらいかがでしょう ?

まさか Google 自身が認めている方法を取ったからって、 「ヤヤ、こやつ CSS ファイルのクロールを拒否しておる ! 其の方何ぞやましいことでもあるのか !? 」 という判定はしないと思うのですが……どうでしょう。

単純に *.css のクロールを Googlebot にやめてもらう場合は

User-agent: Googlebot
Disallow: /*.css$

で良いのですが、 Googlebot 以外にもこの記述が使えるかどうかは分かりません。 少なくとも Yahoo! ヘルプ - サイト管理者向けA Standard for Robot Exclusion には書かれてありませんし。

そこで、念のために CSS ファイルを置いているディレクトリもクロール拒否をしてみましょう。 hxxk.jp の例ですと、 CSS ファイルは /common/css/ に置いていますから、

User-agent: *
Disallow: /common/css/

で全てのクローラに対して /common/css/ へのクロールを拒否することができます。

CSS ファイルの外部参照を制限

これは有効な手段となるかどうか分かりませんが、自サイト以外からの CSS ファイルの参照を制限するという手もあります。 前項と同じく hxxk.jp を例にします。 /common/css/.htaccess に、

SetEnvIf REFERER "hxxk.jp" Lilith
Order Deny,Allow
Deny from all
Allow from env=Lilith

と記述すれば、 hxxk.jp 以外からの参照を防ぐことができます。 ただし、この場合はセキュリティソフトなどで HTTP_REFERER を無効にしている場合に、 CSS の適用が無効になってしまうかもしれません。 なお、SetEnvIf ディレクティブを .htaccess で扱う場合は Apache のバージョンが 1.313 以降であることが前提となります。

ところで、参照を許可する場合の値は任意なのですが、 Lilith を使って説明しているリソースが多かったです。 何で Lilith なんでしょうねえ。 トラックバックをいただいたので、改めて Allow from env=Lilith or Deny from env=Lilith という項を書き足しました。

CSS へのリクエストを .htaccess で弾いて 403 ページに飛ばしちゃうと、 MIME タイプがリクエストとレスポンスで異なってエラーと認識されてしまうことが判明したので、この処置は元に戻しました。

実験してみます

ということで、 Googlebot の *.css ファイルへのクロールと全てのロボットの /common/css/ へのクロールと、 hxxk.jp 以外の HTTP_REFERER ( 空白の HTTP_REFERER も含む ) による /common/css/ へのアクセスを禁止してみました。

しばらく経って hxxk.jp 自体が Google や Yahoo にインデックスされなくなったら、 CSS ファイルのクロールを拒否するのはスパム認定されちゃう、ということで。

トラックバック送信先

Yahoo! ページ検索(YST)がCSSファイルをインデックス

display:none によってスパム行為と誤認される恐れがある場合、 robots.txt でクロールを避けるという回避策があるのではと思いました。

Lucky bag::blog: 検索サイトが CSS ファイルをインデックス

robots.txt でクロールを避けたり、 CSS ディレクトリへのアクセスを制限したりといった回避策があるのではと思いました。私は SEO 業者じゃありませんけれど。

リプライ

4 件のリプライが送られています。

2005-09-02T21:54+09:00 - CSSファイルについて(9/1・9/2)

どこもかしこも「外部CSSファイルが検索エンジンにインデックスされている!SEOに変動があるかも!!」というニュースが駆けめぐっている。 このような馬鹿げたブ...

2005-09-02T21:56+09:00 - 2005-09のSEO対策日記 < code.ps4.jp/log/

どこもかしこも「外部CSSファイルが検索エンジンにインデックスされている!SEOに変動があるかも!!」というニュースが駆けめぐっている。 このような馬鹿げたブ...

2005-09-03T10:24+09:00 - SetEnvIf で使用される Lilith に関しての考察 < 脳無しの呟き

.htaccess における SetEnvIf ディレクティブの話なのだけど、きっかけとなるエントリの主題とはまったく掛け離れたトコロに興味が湧いた。

2005-09-12T15:39+09:00 - re:検索ロボットの CSS ファイルのクロールについてと、それを拒否する手段 < Web Café Weblog

人間がクロールした場合にCSS適用できないのは本末転倒ではないか?

この記事に対するご意見やご質問、ご感想などありましたらこのフォームに簡潔に記入して下さい。 簡潔に記入できない場合や、関連記事にてご意見をお寄せいただく場合は、ご自身の weblog にて記事を書かれた上で あてにトラックバックとして送信してください。

記入フォーム

補足情報

著作、講演、制作実績など