2016-05-10 7 views
0

ウェブサイトをクロールしてインデックスを作成し、優先順位をつけてから、REST経由で検索クエリを許可するものでなければなりません。または同様のものを返し、XMLやJSONなどを返します。これは、Windows Serverインスタンス上で実行する必要があります。OpenSearchServerの検索結果でサムネイルを取得する

私は起動してhttp://www.opensearchserver.com/を実行していますが、そのトリックを行うようですが、私の人生では、結果にサムネイル画像を取得する方法はありませんか?私はドキュメントを検索し、私ができることすべてを読んだが、これを行う方法(または私の頭の中でそれをどうやって得るか)を見つけることができない。

私は標準的なWebページをクロールしていますが、それらはすべてサムネイルのメタデータを持っています。これは何らかの理由で解析され、JSON結果に含まれるはずです。

すべてのポインタは非常に参考になります、ありがとう!

答えて

0

私はこれを理解しました。他の誰かが苦労している場合は、ここで私がやったのです。答えはドキュメントにありますが、それはちょうどで、それはではありません。

読む:http://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - それは方法

が含まれていますが、「ウェブクローラー」インデックスを設定すると仮定します。スキーマ/フィールドに

<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg"> 

行く:あなたはこのようなメタサムネイルを使用していると仮定すると、

。インデックスなしの新しいフィールド「サムネイル」を追加し、はい、ベクトルなし、アナライザーのテキスト、空白のコピーを追加します。それを保存します。

今すぐスキーマ/パーサーリストに行き、HTMLパーサーを編集してください。 'field mapping'に行き、htmlのサムネイルの新しい正規表現を追加するようになりました。 'htmlSource'から一致する正規表現を使用してサムネイル 'にマップします。 (ただし作品)

私の不完全な正規表現は次のとおりです。

htmlSource - >にリンク:サムネイル - >によって捕獲:今、これを保存し、/マニュアルクロールをクロールするために行く

(?s)<meta name="thumbnail" content="(.*?)"> 

、入力します。 urlにサムネイルが表示されているかどうかを確認し、次にそのフィールドが読み込まれたときに下のリストに表示されるかどうかを確認します。正規表現をチェックしないで、実際にHTML Parserの変更を保存したことを確認してください。

検索結果に親指を取得するには、単にJSONにフィールド名を追加するには、クエリを使用して送信します

"returnedFields": [ " 
    "url", 
    "thumbnail" 
], 
関連する問題