2011-06-28 31 views
4

私のサイトの各ブログ投稿 - http://www.correlated.org - は、パーマリンクされた独自のURLでアーカイブされています。Googleでアーカイブページのコンテンツの重複を避けるには?

アーカイブされた投稿だけでなく、その前に公開された10件の投稿も表示したいので、ブログがどのような種類のコンテンツを提供しているかを知ることができます。

私の懸念は、Googleや他の検索エンジンは、各投稿が複数のページに表示されるため、他の投稿が重複コンテンツとみなされることです。

私の別のブログで - http://coding.pressbin.com - 私は以前の投稿をAJAX呼び出しとして読み込むことで回避しようとしましたが、もっと簡単な方法があるのだろうかと思っています。

特定のセクションのにインデックスを付けるべきではないことを検索エンジンに知らせる方法はありますか?

もしそうでなければ、私がやろうとしていることをするAJAX呼び出しより簡単な方法がありますか?

+0

開始ページとアーカイブページの記事を展開するサイトで同じ問題が発生しています。私たちはコンテンツを展開したときにhashbangsを使わず、history.pushStateを使用します – snobojohan

+0

可能な複製:http://stackoverflow.com/questions/3207211/is-there-a-way-to-make-robots-ignore-certain-text –

+0

正確にはあなたが探しているものではありませんが、他のすべての記事を投稿するのではなく、タイトルと短い抜粋とそれらへのリンクを投稿するだけであれば、ユーザーや検索エンジンにとってはもっと分かりやすいかもしれません。 –

答えて

5

警告:これは野生でテストされていませんが、Googleウェブマスターセントラルブログとschema.orgのドキュメントの私の読書に基づいて動作するはずです。とにかく...

これはmicrodataを使用してコンテンツを構成するのに適しているようです。

<div itemscope itemtype="http://schema.org/Article" class="item first"> 
     <h3 itemprop="name">August 13's correlation</h3>   
     <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p> 
     <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p> 
     <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p> 
    </div> 

ノートページ上の各記事を定義するためのにitemprop itemscopeた項目タイプの使用を:これはそうのように、タイプArticleRich Snippetとしてコンテンツをマークアップが含まれます。 、

一般的に正規の参照

さて、グーグル、ヤフーとビングによってサポートされているschema.org、によると、検索エンジンは、上記itemprop="url"で説明正規のURLを尊重すべきですリンクは要素を使用して指定されます。たとえば、 のHTMLは、 ライの書籍「キャッチャー」のWikipediaページにリンクしています。

<div itemscope itemtype="http://schema.org/Book"> 
    <span itemprop="name">The Catcher in the Rye</span>— 
    by <span itemprop="author">J.D. Salinger</a> 
    Here is the book's <a itemprop="url" 

のhref = "http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye">ウィキペディア ページ。

このようにマークアップされたときに、Googleはに正しく帰応じてのSERPsでの正規のURLや重量、それをどの属するコンテンツのどの部分ができるはずです。

コンテンツをマークアップしたら、Rich Snippets testing toolを使用してテストできます。プロダクションに使用する前に、自分のページに関するGoogleのコンテンツを確認できます。


p.s. 最も重要なのは重複コンテンツのペナルティを避けるためにできることは、あなたのパーマリンクページのタイトルを修正することです。現在、彼らはすべて 'Correlated - 驚くべき相関を発見'と読んでランキングに大ヒットをもたらすでしょう。

+0

Iteressting。正規のitempropで試してみる – snobojohan

+0

追記 - >相関/相関の重複のために彼らは "ヒット"しますか? – Kieran

+0

@Kieran - タイトルはすべてのパーマリンクページで同じなのでヒットします。タイトルは各ページごとに一意でなければなりません。重複したタイトルは次のとおりです:http://www.correlated.org/153、http://www.correlated.org/153 – Ciaran

0

私は恐れますが、あなたのウェブページの特定のものがインデックスに登録されてはならないことを検索エンジンに伝えることはできません(HTMLソースのdivなど)。これを解決するには、検索エンジンでインデックスを作成しないコンテンツにIframeを使用することです。そのため、適切なタグでrobot.textファイルを使用し、Iframeにリンクされた特定のファイルへのアクセスを拒否します。

0

ウェブページの一部を無視するようにGoogleに指示することはできませんが、検索エンジンが検索できないようにそのコンテンツを配信することはできます。そのコンテンツをに配置するか、JavaScript経由で配信することができます。

私はこれらの2つのアプローチがハックアップしているので嫌いです。あなたの最良の賭けは、すべてのコンテンツがとにかく複製されているので、検索エンジンからそれらのページを完全にブロックすることです。これはいくつかの方法で実現できます:

  1. robots.txtを使用してアーカイブをブロックします。 inのアーカイブが自分のディレクトリにある場合、ディレクトリ全体を簡単にブロックすることができます。個々のファイルをブロックし、ワイルドカードを使用してパターンに一致させることもできます。

  2. <META NAME="ROBOTS" CONTENT="noindex">タグを使用して、各ページのインデックスをブロックします。

  3. X-Robots-Tag: noindex HTTPヘッダーを使用すると、各ページの検索エンジンによるインデックス登録をブロックできます。これは、 `タグを使用するのと同じですが、これは.htaccessファイルでそれを使用し、それをディレクトリ全体に適用できるので実装が簡単です。

関連する問題