2016-04-08 3 views
1

私は、ボットフレームワークを使用してFAQを実装するために取るべきアプローチに苦労しています。私はLUISの使用を検討しましたが、すべての質問に対してインテントを作成しなければならないことがわかりました。これらの数が多い場合(100など)、より良いアプローチがあるかどうか疑問に思っていましたか?Bot FrameworkでFAQを実装するにはどうすればよいですか?

答えて

1

すべての質問に対してインテントを作成する必要はないと思われますが、その情報デザインは受け入れられません。あなたがしなければならないことは、あなたが持っている質問の種類を分類することであり、その分類はあなたの意図でなければなりません。

私はほとんど同じことをやっているので、私の場合、「What is ..」で始まる質問に対しては、「定義」というインテントを作成しました。私はLUISを定義するために必要なすべての質問を練習しようとします。

FAQで作業しているので、有益な情報セットです。基本的にすべてのFAQを使用して発言として提出し、適切なインテントで分類することができます。

+0

はい、インテントの数を大幅に減らす必要があります。ありがとうございます。 –

+1

私は彼が根本的に正しいので、ローマ人の答えに積み重ねます。 「FAQ」のような単一の意図を作成し、LUISエンティティをトレーニングしてユーザの質問を抽出するだけです。そこから、最も関連性の高い定義を見つけるために標準的な検索手法を使用します。大量のFAQがある場合は、Luceneのような検索エンジンを使って答えを検索することができます。 –

2

あなたがしているのは、FAQを返すだけであれば、LUISが必要なことは明らかではありません。検索技術を使用してください。 Luceneのような検索エンジンを使うこともできますし、単純なことであれば、数百のFAQしかないかもしれません。ユーザーのクエリの単語数に基づいて答えを選ぶ独自のランカーを書くことでしょう。

非常に簡単なランキングアルゴリズムは、ユーザーの発言をトークンに分解し、次にドキュメント内の各トークンを検索することです。スコアは、文書内で一致するトークンの数を数え、カバレッジスコアを計算することによって生成されます。カバレッジは、基本的には、ユーザークエリの用語のうち、ドキュメントと一致するものの割合です。

カバレッジを計算するにはいくつかの方法がありますが、ここではかなり簡単な方法があります。一致したトークンの長さをすべて追加し、それを検索対象の文書/フィールドの合計長で除算します。それで、「アジアからの犬を見せて」という質問があり、「アジアの犬」というタイトルの文書があるとします。ユーザーの発言には、「dogs」と「asia」という2つのトークンがあります。それらは合計長さが8でタイトルの長さは10です。したがって、タイトルフィールドのカバレッジスコアが0.8になります。

ドキュメントを検索する際にも同じ基本的な手法を使用できますが、用語の一致回数を考慮する必要があります。基本的には、「出現」が5回、「アジア」が10回出現した文書では、1回の出現で文書をランク付けする必要があります。

& TF-IDFのサポートのようなランキングアルゴリズムに追加できることはたくさんありますが、その時点で検索エンジンを使用するだけです。

関連する問題