サーチエンジンはURLの大文字と小文字を区別する

アルファベットの大文字と小文字が混在したファイルを、すべて小文字だけに統一したら、GoogleのPageRankがすべて「0」になってしまった。

これって一時的なもの?
それとも、Googleが別ページとして認識してしまったから?

答えは、後者です。

WebmasterWorldで見かけたスレッドからです。

大文字と小文字を区別するのは、Googleの仕様ではなくコンピュータの仕様です。
※ちなみに英語では、大文字を「upper case」、小文字を「lower case」、大文字と小文字を区別することを「case-sensitive」と表現します。

インターネットで利用されるウェブサーバーのプラットフォームは、Apache(アパッチ)IIS(アイアイエス)でほぼ占められています。

Apacheは、UNIX(ユニックス)Linuxで使われるウェブサーバー製品です(Windows移植版もあり)。

UNIXやLinuxは、大文字と小文字のファイルやディレクトリ(フォルダ)は、同じ名前であっても別物として取り扱います。

一方、IIS(正式名称は、Internet Information Services)はMicorsoftのWindowsで稼動するウェブサーバー製品です。

Windowsは、ご存知のとおりファイルやフォルダの大文字・小文字を区別しません。

個人で利用するOSとして、Windowsを使っている人がほとんどでしょうから、大文字か小文字かを意識することはめったにないでしょう。

しかし、Googleなどのサーチエンジン企業は、Windows(IIS)は使っていないはずです(MSは、自社のIISだけではなくApacheも使っているらしい)。

そして、おそらく使っているOSは大文字と小文字を区別するでしょう(IISも大文字と小文字を区別するように設定変更できます)。

また、WWW(World Wide Web)で利用される技術の標準化をすすめる団体の「W3C」でも、大文字と小文字を区別するように推奨しています。

URLs in general are case-sensitive (with the exception of machine names). There may be URLs, or parts of URLs, where case doesn’t matter, but identifying these may not be easy. Users should always consider that URLs are case-sensitive.

“一般的にURLは大文字と小文字を区別する(機械の名前は例外)。大文字・小文字が問題にならないURLやURLの一部があるが、違いを識別するのは困難である。ユーザーは、大文字・小文字を常に意識すべきである”

僕はHTML初心者の頃(今でも、ぜんぜん上級者ではないw)、画像の拡張子が大文字の「.JPG」になっているのに、HTMLコードで小文字の「.jpg」を指定していて、ファイル名やパスは合っているのに表示されなくて、途方にくれた記憶があります。(あなたもありませんか?)

えっと、グダグダと蛇足をたくさん書きましたが、この記事で伝えたかったことを整理します。

URLの大文字・小文字は名前が同じであっても、別物として区別されます。
たとえば、index.html、Index.html、INDEX.html、index.HTMLはすべて違うファイルとして認識されます。

検索エンジンにとっては、すべて異なるウェブページです。

ファイル名・ディレクトリ名の大文字・小文字は、必ず統一しましょう。
一般的には、小文字でそろえる場合が多いです。