.docファイルをアップロードする必要があるアプリケーションがあります。これらの文書はインデックスとなり、文書全体を検索可能にすべきである。これは、IISとSqlServerを使用してWordがインストールされていないWindows Server上で実行されますが、SqlServerの全文索引付けに縛られることはありません。.docファイルのインデックスと検索方法
私はLucene.Netを索引付けの部分に使用することを考えていましたが、.docファイルからテキストを取り出す最良の方法が何であるか不思議でした。おそらくストリーム全体を読み込み、regExを使って普通の文字を引っ張ってテキストを抽出することができますが、それは重くてエラーになりやすいようです。
有望なiFiltersの使用に関する記事を見ましたが、これは私がよく知っているものではないので、私はそこに置くと思っていました。
P.S.重要な場合、これらの.docファイルには差し込み印刷フィールドがあり、現在の.doc形式の代替方法はありません。
http://www.codeproject.com/KB/cs/IFilter.aspxが見えます。私たちはIISを実行しています。 – Jared
別々に実行し、そのAPIを使用して通信できます。 –