2009-07-18 10 views
4

.docファイルをアップロードする必要があるアプリケーションがあります。これらの文書はインデックスとなり、文書全体を検索可能にすべきである。これは、IISとSqlServerを使用してWordがインストールされていないWindows Server上で実行されますが、SqlServerの全文索引付けに縛られることはありません。.docファイルのインデックスと検索方法

私はLucene.Netを索引付けの部分に使用することを考えていましたが、.docファイルからテキストを取り出す最良の方法が何であるか不思議でした。おそらくストリーム全体を読み込み、regExを使って普通の文字を引っ張ってテキストを抽出することができますが、それは重くてエラーになりやすいようです。

有望なiFiltersの使用に関する記事を見ましたが、これは私がよく知っているものではないので、私はそこに置くと思っていました。

P.S.重要な場合、これらの.docファイルには差し込み印刷フィールドがあり、現在の.doc形式の代替方法はありません。

答えて

3

外部プログラムを必要としない解決策としては、iFilterソリューションが(たとえ外部プログラムとしてカウントしていても)そうすることができます。

ここでそれを行うことができる方法についての簡単なCodePlexの記事とコードは次のとおりです。それは、Apacheを必要とするよう

1

私たちのPHPベースのアプリケーションでは、常にこのような外部プログラムを使用しました:doc2txt。その後、テキストを取り出してデータベースに保存しました。 Googleで「doc2txt」を検索すると、まったく同じことをする多くの異なるプログラムが見つかります。あなたに一番合ったものを選んでください。

関連する問題