c#

2010-11-23 5 views
3

文書から純粋な文字列を取得する文書から純粋な文字列を取得して、画像や表または図形をすべて削除するにはどうすればよいですか?これらの文書の単語リストを操作して作成します。だから私はC#を使って文書のテキスト部分だけが必要ですc#

+4

本当に文書の形式に依存します。たとえば、.docxなどで作業したいと思っていますか? – cwap

+0

はいオフィスワード形式またはpdfで作業したい – gencay

+0

+1 Guzel soru :) –

答えて

0

各文書の特定のフォーマットをサポートする必要があります。すべての文書形式を読む一般的な方法はありません。
たとえば、Microsoft Office Wordのドキュメントファイルは、OpenOfficeドキュメントファイルではなく、独自のライブラリによって解釈される必要があります。

1

おそらくIFiltersを調べる必要があります。ほとんどの検索インデクサーは、Windows上のドキュメントからプレーンテキストにアクセスする方法です。 Here's a tutorial and sample projectソースコードを使用して、OfficeドキュメントやPDFなどからテキストを抽出することができます。

正しいIFilterがマシンにインストールされていることを確認するだけです。マイクロソフトではa free set of filters for Office Documentsを提供しています。 Adobeもフィルタを提供しますが、完全なゴミです。可能であれば、FoxIt IFilterを試してみてください。はるかに優れています。

+0

注:Foxit IFilterはサーバーインストールの場合は699ドルですが、他のものはすべて無料です。 –

+0

ボーナス回答:Palm OSデータベースからプレーンテキストを抽出する場合は、そのためのフィルタがあります:http://bloggit.livejournal.com/9467.html –