記事本文
ネタの再利用というか、まあそんな感じ
ARTIFACT@ハテナ系 - GoogleでキャッシュがなかったらYahooでチェック経由で。 以前 LiVEMARK の機能変更と著作権にて
私もあの機能はキャッシュではなくむしろミラーリングだと思っていたので、途中までそれに関する記事を書いていましたが、「高木浩光@茨城県つくば市の日記」跡地 - 技術用語「cache」が政治的な言葉として拡大利用されるにかなり詳しく書かれていますので、これを参考にすることにして、記事を書くのは中断しました。
といった経緯でお蔵入りになった文章が今回の件に再利用できそうなので、以前の記事に陽の目を当ててみようと思います。
Google キャッシュとは
Google では、該当のページのサーバーがダウンした場合でも、ページの内容が見られるように多数のウェブページをクロールの時点で保存しています。 「キャッシュ」リンクをクリックすると、このクロール時点でのページが表示されます。 このキャッシュに保存してある内容がGoogleの検索の対象になっている情報です。
名目上はサーバダウン時でも閲覧できるようにとの事だそうで、該当ページが消失した場合でも閲覧できるようにするという目的は無いようです。
この節を書いている時点での hxxk.jp の Google キャッシュを見ると、
2005年4月4日 02:45:11 GMTに保存された
となっていますので、最新の状態との齟齬もあまり無いようです。
( もちろん、たまたまキャッシュ時刻が新しかった可能性もありますが。 )
「キャッシュ」リンクには、クロールされていないページや作成者からキャッシュの削除依頼があったページは含まれていません。
このように、作成者がクロール拒否の意思表示を行っている場合はキャッシュが作成されませんし、またキャッシュの削除を依頼した場合には削除が行われます。 ただし、そのどちらもなければ自動的にキャッシュが作成され、公開されます。
クロール拒否の意思表示を行っておらず、既に作成されてしまった Google キャッシュの削除を行うには、 2 通りの方法があります。
サイトのコンテンツをロボットがアーカイブしないようにするには、以下の NOARCHIVE メタ タグを使用します。 このタブをドキュメントの
<HEAD>セクションに次のように挿入します。<META NAME="ROBOTS" CONTENT="NOARCHIVE">
インデックス ロボットによるページ コンテンツのアーカイブを許可し、Google のロボットのみのページのキャッシュを禁止するには、次のタグを使用します。
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
注意: このタグはキャッシュページのみを削除するものであり、Google は引き続きページのインデクス付けを行いスニペットを表示します。
このように、 meta 要素での指定を行っておくことで、次回のクロール時にロボットがそれを解釈し、キャッシュを削除します。 また、緊急を要する場合には、前述の指定を行った上で URL の削除を用いて削除することもできます。
もうひとつの方法として、ページ自体を WWW から削除するという方法もあります。
Google は、定期的に全インデックスを自動的に更新します。 Web をクロールする際、新しいページをみつけ、無効になったリンクを破棄し、リンクを自動的に更新します。 古くなったリンクはたいてい次回のクロールで削除されます。
デッドリンクはクロールごとに削除されるようです。 これも予め WWW から削除しておき、 URL の削除を用いて削除することもできます。
Yahoo キャッシュとは
提携する検索エンジンが、検索結果表示用の索引を作る際に各ページの内容を保存したものです。 キャッシュを表示することにより、目的のページが見られなくなっているような場合でも情報を探すことができます。
この節を書いている時点での hxxk.jp の Yahoo キャッシュを見ると、
Last Modified at 2005-03-31
となっていますので、最新の状態との齟齬があります。
( たまたまキャッシュ時刻が古かった可能性もありますが、 Google よりは間隔が長い気がします。 )
なお、 Yahoo の場合はキャッシュの削除依頼には応じてくれません。 Yahoo! ヘルプ - インデックスクローラーに書いてありますが、明確に書かれていないので勝手に要約すると、
- WWW から元のファイルを削除すれば、次回のデータベース更新時から検索結果が表示されなくなる ( ≒ キャッシュも表示されなくなる ) よ
- 最初から meta 要素や robots.txt で登録拒否をしておくとキャッシュは表示されないよ
というスタンスのようです。
なお、私の経験上の話ですが、 WWW から削除されたページが検索結果やキャッシュから消える期間は Google に比べかなり長いようです。 ( 元々クロールの頻度自体が Google より少ないというのも関係あるかもしれません。 )
それぞれのキャッシュの保持に対するスタンス
両者のスタンスを簡単に ( 乱暴に ? ) まとめると以下のようになります。
-
- 「クロールするなよ」と言われていなければクロールしてキャッシュを作る
- 「すぐにキャッシュを消せ」と言われれば、条件を満たしていればキャッシュを消す
- Yahoo
-
- 「クロールするなよ」と言われていなければクロールしてキャッシュを作る
- 「すぐにキャッシュを消せ」と言われても、「次の巡回の時に消しとくわー」と言ってすぐには消さない
Re: キャッシュ倉庫の検索エンジンとしてのヤフー | 240雑記
ちょっと興味深かったので、これをヤフーで調べたらキャッシュがありました。 で、そのキャッシュの前後の記事をヤフーとグーグルで調べてみると、ヤフーはライブドアニュースのキャッシュを取っていて、グーグルは取ってない、てなだけの話だったのです。
クロールおよびインデックスの早さから考えて、 Google がキャッシュを取っていない、ということは考えにくいと思います。 どちらかというと、キャッシュの削除申請があったと考えるのが自然かな、と。
要はヤフーもキャッシュを取っているから上記二つで検索しても見つからないものも見つかる場合があるから便利でっせという話でした。
便利な面もありますが、そうでもない面もあります。 元々 Google や Yahoo のキャッシュ行為というのはミラーリングと呼ばれるべきものであり、そしてミラーリングされる方の許諾を得ているわけではありません。 「拒否されなかったら許諾とみなす」 といったスタンスの基に行われているので、ミラーリングされる方が拒否する手段を知らなければ、知らないままにミラーリングされているのです。 そして、知らず知らずミラーリングされていた場合や、ミラーリングされているのは知っていたけれど、何らかの事情でそれが公開されている状態が不利益となる状態になった場合に、削除を求めることもあるでしょう。
その場合になるべく素早く対処する選択肢も用意しているのが Google 、いったんミラーリングされると決して頻繁ではないクロールを以って「今度ね」と言う Yahoo 、という違いなのです。
もちろんそのページを見たい人からすれば、より長く残ってくれた方が便利なのは確かです。 しかし、キャッシュ倉庫として積極的に活用するというのは本来の使い方とは言えないのではないでしょうか。 元々 Google が持っていたキャッシュ機能を後追いする形で始まった Yahoo のキャッシュ機能ですが、それの削除に関する部分は Google に追いついていないと思うので、私はそういった使い方が広がるのにはあまり感心できません……。
トラックバック送信先
ただし、 2005-04-06T02:14:42+09:00 時点では何度トラックバックを送ってもエラーになります……。

