リファレンステーブルへのファジーマッチング

私はICD10コードを取得するために、非標準的な医療診断記述をICD10リファレンステーブルの記述に一致させようとしています。あいまいなマッチングになります。リファレンステーブルへのファジーマッチング

「TRANSIENT ISCHEMIC ATTACK」を「Transient脳虚血発作、不特定」（ICD10コードG45.9）と一致させたいと思います。（ICD10コードR11.2）に記載されているように、「吐き気がある」、「吐き気がある」、「吐き気を伴う吐き気、不特定」

Rまたはpythonを使用してこのタイプのファジーマッチングを行うにはどうすればよいでしょうか？

Rでstringdistパッケージを調べて、さまざまな '文字列距離'の測定値が混在しています。私はバッグ・オブ・ワード・テクニックも検討していますが、私の状況でそれを使用する際にどのように使用するのか分かりません。テキストの文章よりも小さな文字列を比較しています。

おかげ

2016-04-28 san134

この質問に対する回答は役に立ちますか？ http://stackoverflow.com/questions/36921346/r-whichrows-have-longest-partial-string-match-between-two-vectors – Zelazny7

達成しようとしていることの例を挙げることはできますか？私はあなたが持っているカラム数とあなたが望む結果が不明です。 –

私はfuzzy match Pythonを検索してfuzzywuzzyました。私はそれを使った経験がありませんが、そうするかもしれません。

"ファジィ文字列はボスのように一致します。Levenshtein Distanceを使用して、シンプルなパッケージでシーケンス間の相違を計算するのに役立ちます。"

あなたの質問は、あなたの問題に関連するかもしれない答えを持っているthis one、に似ています。具体的には、どれくらいの強さのマッチが得られるかの概念は有用であろう。

また、stackoverflow（fuzzy-comparison）にタグがあり、これは手がかりを増やす可能性があります。

2016-04-28 18:18:33

答えて