swatanabe’s diary

ラノベ創作、ゲーム、アニメ、仕事の話など。仕事はwebメディアの仕組み作り・アライアンスなど。

canonical(カノニカル)によるURL正規化について|seo備忘録

URL正規化の際に使われる "canonical"(カノニカル)タグについてのメモ。

 

 

URL正規化とは

同じ(ような)内容のページが複数存在する場合、Googleなどの検索エンジンに「これが正しいURLです」と伝えることで、リンクポピュラリティの分散を防ぐこと。伝えないとすべて別ページと判断され、パクリコンテンツと認識されてしまい評価が下がる。

 

リンクポピュラリティとは

外部リンクの量・質に基づくサイトの評価。以前に存在していたGoogleのページランクなどが代表的。量とは、外部リンクしているサイトなどの数。質とは、外部リンクしているサイトの人気度。両者の掛け合わせがリンクポピュラリティとなる。

 

canonical(カノニカル)とは

URL正規化の方法のひとつ。正規のページ(検索エンジンに正しいページと伝えたいページ)ではなく、重複しているほうのページの<head>属性に記述する。

 

正規URL:https://www.swatanabe.com

重複URL:https://www.swatanabe.com/index.html

 

この場合、重複URLのページの<head>属性に、次のように記述する。

<head>

 <link rel=”canonical” href=”http://www.swatanabe.com” />

</head>

SEO HACKSによれば、検索エンジンにできるだけ早く読みこんでもらうために、なるべく<head>属性の上部に記述すると良いらしい。

また "canonical" は、別サイトからも有効である。

 

正規URL:https://www.swatanabe.com/canonical

重複URL:https://www.cachiku.com/canonical

 

重複URLのページの<head>属性に "canonical" タグを埋めることで、上のURLに正規化できる。

 

caonnical(カノニカル)のよくある間違い設定

Googleのウェブマスター向け公式ブログによれば、以下のような誤りが多い。

 

複数ページのコンテンツの2ページ目以降を1ページ目に正規化する

https://www.swatanabe.com/canonical?page=1

https://www.swatanabe.com/canonical?page=2

後者の<head>属性に "canonical" タグを埋め、前者に正規化しようとする。これらは重複コンテンツではないため、2ページ目以降のコンテンツが、すべて検索エンジンに無視される。

 

ページネーションを排したコンテンツ(上記URLの内容を1つにまとめたコンテンツ)を用意して、そこに正規化しようとするのは問題ない。

重複URL:https://www.swatanabe.com/canonical?page=1

重複URL:https://www.swatanabe.com/canonical?page=2

正規URL:https://www.swatanabe.com/canonical-all(1と2の内容をまとめたもの)

このとき、重複URLのページそれぞれに、

<head>

 <link rel=”canonical” href=”http://www.swatanabe.com/canonical-all” />

</head>

とする。

 

相対URLを記述している

絶対URLでないと意味がない。早い話、正規のページを開いたときのURLをそのままコピペしてきなさいということ。

 

必要ないのに使っている

たまにあるらしい。ソースコードをコピペして、元ページの<head>属性に "canonical" が入っていたのに気づかなかったなどだろうか。

 

カテゴリページから特集ページへの "canonical"(カノニカル)を指定する

車カテゴリ、バイクカテゴリなど、複数のカテゴリページを用意しており、トップページで各カテゴリの人気記事を紹介しているサイトがある場合。

このときトップの紹介部分と、その紹介された記事は、部分的に重複している。

じゃあ、紹介された記事に正規化したいからと、カテゴリページに "canonical" を指定してしまうと、カテゴリページが検索結果に表示されなくなる。

このときは、

  • なにも指定しない
  • カテゴリページに、自身のページを "canonical" で指定する

が良いという。

 

自分が重複ページだと思っていないケースに注意

たとえばECサイトで、商品が色違いのケース。サイズもスペックも同じで色だけが違う場合、ページ内の情報はほぼ同じ=重複コンテンツだと、検索エンジンに判断される可能性が高い。

だが、本人からすると「別の商品」という認識のため、意外と重複ページであることを見落としがち。

ほかにこのケースとしては、内容が同じPC向けページとSP向けページ(媒体が違うため気づきにくい)などがある。なお、レスポンシブならURLが変わらないため、重複していても対応は必要ない(そもそも重複ではなく同じが形を変えているだけ)

 

自己参照canonical(カノニカル)について

自身のページを "canonical" で指定するケースは、ほかにもある。

たとえば、メルマガなどでコンテンツを紹介するとき、トラッキング用のパラメータを付与するケースなど。

正規URL:https://www.swatanabe.com/canonical

重複URL:https://www.swatanabe.com/canonical?utm_source=mail&utm_media=

このとき、正規URLにあらかじめ自身のURL(正規URL)を "canonical" で指定しておくと、検索エンジンに正しく伝わる。

 

重複ページの探し方

そもそもどうやって重複ページを探すのか。

かつてサーチコンソールに存在した「HTML改善」を使う。

 

support.google.com

このブログを見ると、

 

f:id:pewyd:20190129045809p:plain

 

メタデータの「重複するメタデータ」と「タイトルタグ」の2箇所に問題があると、重複コンテンツの可能性がある。

 

本ブログでは、canonicalの効果が出るまでに1ヵ月かかった

本ブログでは、以下の記事にcanonicalをかけている。

swatanabe.hatenablog.com

 

効果のほどは以下を参照。

 

f:id:pewyd:20190308060722p:plain

(GRC。それにしても登録ワード数が少ない)

 

たしか1月の終わりくらいにcanonicalをかけ、2月下旬から順位が一気に上昇(グラフはサイトスコアのものだが)。効果が出るまでには所要1ヵ月(なお、これが早いのか遅いのかはわからない)

 

参考にしたページ

www.seohacks.net

webmaster-ja.googleblog.com

www.sem-r.com

www.suzukikenichi.com