みなさんこんにちは。
気付けば今日から2月ですね。
1月は基本的にリライト作業に専念していたので、新たな記事を投稿することがほとんどできませんでした。
投稿してもインデックスされないですし…
リライトって、みなさんも普段からされていると思いますが今僕が直面しているのは、なぜかGoogleからクロールしてもらえない問題なんです。
今回は、去年から継続的に起きているインデックスされない問題の近況を報告していきたいと思います。
カバレッジにおける除外の爆発的量産
ブログをやっているとGoogleサーチコンソールを扱うと思うのですが、問題が表面化したのは去年の11月頃からカバレッジの除外が少しずつ増え始め、極めつけは1月12日に急激に増えたことなんです。
それまでは除外も29とか言う数字でしたが、1月12日のカバレッジを見ると一気に130まで跳ね上がっています。
中身を確認すると
- 検出-インデックス未登録 121
- クロール済みーインデックス未登録 25
クロール済みインデックス未登録は低品質な記事とか色んな理由でGoogle的にはクロールしたけどインデックスしませんでした。リライト頑張ってね!ってことですよね?
一方、検出-インデックス未登録はクロールすらしていない訳なんです。
クロールしていない…だ…と?
何が原因でクロールされないのかすら分かりません。
問題の1月12日に何があった?
爆発的に除外が量産された前後に何があったのか思い出してみると、前日に一向に更新されないサイトマップを削除して新たなサイトマップを送信したこと。
削除したのは
「sitemap.xml」「sitemap.xml?page=1」
以前、どこかのブログではてなブログには、上記のサイトマップで良いと書いてあったのでGoogleサーチコンソールを導入した当初からこれで運用していました。
しかし、カバレッジの最終読み込み日時が全く更新されないことから(2021年1月にブログ開始⇨4月頃から更新されず)これではいけないと思いネットで調べたところ
「sitemap.xml?page=1」以前はそれで良かったみたいだけれども今は違うとの記事がチラホラあり削除することに。さらに「sitemap.xml」をいったん削除してから再送信しました。
更なる追いサイトマップ
藁をもつかむ勢いでネットを見ていると、有益な情報を発見!
「sitemap_index.xml」と「sitemap_periodical.xml?year=[yyyy]&month[mm]」をサイトマップに追加するとインデックスできました!と言う記事を発見。
早速上記サイトマップを追加しました。
- 「sitemap.xml」
- 「sitemap_index.xml」
- 「sitemap_periodical.xml?year=[yyyy]&month[mm]」
ここで、僕の無知がさく裂します。
「sitemap_periodical.xml?year=[yyyy]&month[mm]」のyyyyとmmに数字を入れてブログを開始した2021年1月~2022年1月分全ての月を手打ちでサイトマップに送信してしまったのです!
結果的に凄い量のサイトマップが…(笑)
この状態で1月を過ごしましたが全く反応なしで、数字的には最終読み込みは更新されていますが、一向にカバレッジのインデックス除外に変化はありません。
見つめなおすサイトマップ
そんなことで一向に除外が減らず、しかもクロールは該当なしのオンパレード(泣)
このページが12ページ続きます…
こうなると何とかしてクロールしてもらうためにリライト作業をしますが、結局クロールしてくれないんでしょ?ってなりますよね。
もちろん、リライト後や記事を投稿した後には「公開 URLをテスト」してからの「インデックス登録をリクエスト」は毎回していました。
1月も終わることから、2月は普通にクロールに来てもらいたいなぁと思い1月31日の深夜に再サイトマップの構築を決断!
有益な情報を求めネットを徘徊しました。
遂に本当のサイトマップに出会えたかも
とあるブログの記事なのでもし上手くいかなかったら、そのブロガーさんに迷惑をかけるのでサイト名は控えますが有益な情報にたどり着きました。
それは
- 「sitemap_index.xml」
- 「feed」
上記2つです。
なぜ、この2つを採用したかと言うとサイトマップにおいては「同じ内容の意味をもつサイトマップを重複して送信してしまうとサーバーに負荷がかかってしまう原因にもなる」とGoogleが言っているので、もしそれが原因でクロールされないのならば重複したサイトマップは削除しないといけないという結論にたどり着いたからです。
当初採用していた「sitemap.xml」と「sitemap.xml?page=1」は見た目は違いますが中身が同じなので「sitemap_index.xml」のみを採用することに。
また、大量に手打ちで送信していた「sitemap_periodical.xml?year=[yyyy]&month[mm]」は「sitemap_index.xml」内に同じものが生成されていることから削除することに。
理由は先ほど書いたように、同じ内容の意味を持つサイトマップが大量に送信されるとサーバーに負荷がかかるから。
つまり、僕は「sitemap.xml」「sitemap_index.xml」「sitemap_periodical.xml?year=[yyyy]&month[mm]」を採用していた頃は、同じ内容のサイトマップを大量に送信し続けていたことになります。
これが1月12日から始まる大量の除外(サーバーに負荷がかかってクロールしてくれない)が始まる原因な気がしてなりません。ってかこれ以外に原因が分かりません(泣)
さいごに
はてなブログのヘルプに更新フィードについて書かれているのですが、それを参考にすると残るサイトマップは「feed」ということになります。
以上のことから、これから暫くは
- 「sitemap_index.xml」
- 「feed」
この2つで様子を見ていこうと思います。