1

私は電子図書館のプロジェクトに取り組んでいます(アラビア語の書籍の場合)。ユーザーが自分の書籍をシステムライブラリにインポートし、自分のライブラリに対して検索を実行できるようにするプログラム。システムは、ユーザが後で更新する基本ライブラリ(書籍のセット)を用いてユーザに配信される。アラビア語のテキストファイルの検索と索引付け

検索の問題を処理するために、私は基本検索キーワードのDBに初期テーブルを持っていると考えました。すべての検索キーワードは、図書館の書籍内の場所を指しています。

ユーザーが新しい書籍をライブラリにインポートするときに問題が発生します。 2つのステップがあります。 最初に、システムにすでに登録されているキーワードを新しい書籍と比較して検索し、書籍にそのキーワードが含まれているかどうかを調べ、そこにシステムを追加します。 第2の問題は、主要な障害であり、新しい本の新しい検索キーワードを特定することです。

私はかなり悪くて素朴であると思うアイデアは、新しい本をトークンに分割してから、以前にライブラリで見つかったすべての本に対して各トークンを検索することです。

このように、システム全体の2番目の問題または別のアイデアを解決するための助け(ツール、ライブラリまたはDBオプション)またはアイデアがあれば、私は感謝します。実際に多くのソリューションを読んで検索しようとしましたが、無駄でした。

どうもありがとう、

答えて

1

あなたはLucene.netをしたいです。アラビア語のアナライザーを使用する必要があります。

+0

最初にお返事いただきありがとうございます。二番目に私は理解できない点がある。 Luceneについて私が知っていることは、私が間違っていれば正解です.Luceneは、指定された検索トークンで特定のドキュメントまたはファイルを使ってテキスト検索を実行できるライブラリです。 アラビア語のアナライザーについて、私は本当に検索のために使用されているものを得ていませんでした。 Luceneとの使用はどうなりますか? 〜6000件の文書に対してテキスト検索を行っても、過負荷にならないでしょうか? もう一度、ありがとうございます。 –

+0

Luceneはドキュメントの_index_を作成します。それは検索されるインデックスです。検索はトークンに限定されず、フレーズを検索したり、他の種類の検索を行うことができます。分析器は、索引付けする単語を見つける。言語に最適な結果を得るには、アナライザーは言語用に設計されている必要があります。例えば、英語のために設計された分析器は、アラビア語の異なる形を同じ語として認識しない。リンク**ゲスト**には、Luceneの仕組みの概要が掲載されています。 –

関連する問題