2012-05-12 9 views
2

2つのドキュメントのテキストを読み込んで比較することで、2つのドキュメント間で何らかのテキストがコピーされたかどうかを判断できるアプリケーションを作成したいと考えています。私は誰もこれをやろうとしたことがあり、それを処理する最善の方法は何かを知りたかったのです。機械学習と自然言語処理が関係している場合:どのレベルですか?ドキュメント比較ソフトウェアの作成

+0

'md5_file()'を試しましたか? – Karo

+0

多くの人がこれを試しました。 turnitin.comは単なる一例にすぎません。 – emory

+0

2件の文書のテキストを比較して盗作を確認したかった – Goodman

答えて

1

は良いスタートのためhttp://en.wikipedia.org/wiki/W-shinglingを試しセット論的概念に純粋に依存している技術があります。

+0

ありがとうございました。私はそれをチェックしている。 – Goodman

関連する問題