2016-04-13 28 views
0

私は自分のブログに非常に基本的な検索オプションを作成しました。トピックやキーワードごとに結果を生成していますが、私が探している記事はリンクを追加する必要がありますもし私の検索が基本的に外部のウェブサイトであるそれらのリンクを通過することができれば、例えば私が誰か他の人のブログを参照してより多くの情報を検索してから検索することが可能です。そして、私はGCSEに行きたくありません。 ありがとうございます。それは大きな助けになるでしょう。blog_websiteの検索エンジン(リンク内検索)

もう一度おねがいします。

+0

あなたのQを編集して、1つの長い実行文として読み込まないようにしてください。また、頭字語のGCSEは何ですか?私は頭字語を以前見たことがありません。 – Clomp

答えて

0

はい、リンクから外部のウェブサイトをクロールするためのボットを書くことは可能です。私は1つを作った。それは100K +ウェブサイトのURLをクロールしました。そう、はい、あなたのブログからのリンクをクロールできる1つを作ることは可能です。検索エンジンを作成するには

、あなたは彼らがどのように動作するかに関するいくつかの内部を知る必要があります...このような

検索ボット作品:

  1. クローラは、ページをフェッチします。この手順は、curlを使用するので、非常に簡単です。
  2. パーサーは、HTMLを分割してページからデータを抽出することができます。これには2つのサブコンポーネントがあります。このサブコンポーネントは2つあります。

    a。 &をキャプチャしたいページから任意のデータを抽出し、そのデータをデータベースに保存します。

    b。 &のリンクを抽出して、それらをクロールキューに戻します。 (他人の不正な形式のURLがたくさん起こっている、それをクラッシュしない限りますので、頻繁にそれを修正する準備ができて。)...これは無限ループを作成しますので、あなたのボットはクロールを停止することはありません

  3. インデクサは、検索インデックスを作成しますウェブページのコンテンツにキーワードをマップします。これには2つのサブコンポーネントがあり、それは...

    a。 Forward Indexを作成し、各文書をその文書の内部にあるキーワードにマップします。

    doc1 | bird, aviary, robin, dove, blue jay, cardinal 
    doc2 | birds, bird watching, binoculars 
    doc3 | cats, eat, birds 
    doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs 
    doc5 | dog, shows, look, fun 
    

    b。フォワードインデックスからインデックスを逆にするInverted Indexを作成します。これにより、ユーザはキーワード&で検索することができ、検索スクリプトは、ユーザが閲覧したい文書を示唆する&を検索します。

    1. 検索フォームユーザーにHTMLの入力ボックスを示していますので、同じように...

      bird | doc1, doc2 
      cat | doc3, doc4 
      dog | doc4, doc5 
      

    検索は、このような作業はフォーム。

  4. 検索スクリプトは、反転インデックスを検索して、検索エンジンの結果ページに表示するドキュメントリンクを検索します。
  5. S earchがE ngine R esults P年齢(はい、SERPは検索エンジンの検索結果ページの実際の業界の頭字語です)。検索結果リンクの一覧が表示されます。 &は、Googleの、MicrosoftのBingやYahooのエンジンのように見える必要はありません。

例:ブログの検索エンジンを構築する

"bird" returns links to "doc1, doc2" 
"cat" returns links to "doc3, doc4" 
"dog" returns links to "doc4, doc5" 

幸運:

が探し!

+0

お返事ありがとうございます、私はそれに取り組んで、間違いなくより多くの疑問に戻ってくる:) –