fast_alignのような単語アライメントツールを使用すると、文章の数が増えるほど精度は向上しますか？

私はfast_align https://github.com/clab/fast_alignを使用して、1000のドイツ語の文章と1000の英語の翻訳の間の単語のアライメントを取得しています。これまでのところ、品質はあまり良くありません。fast_alignのような単語アライメントツールを使用すると、文章の数が増えるほど精度は向上しますか？

プロセスの文章をもっとスローすると、fast_alignはより正確になりますか？ OPUSのデータを100k整列した文章ペアで取り上げ、最後に1000文を追加してfast_alignにフィードします。それは助けになるだろうか？これが理にかなっているかどうかについての情報は見つけられないようです。

2017-08-01 ivan_bilan

あなたが持っているデータセットは何ですか、ドメインとコンテンツタイプは何ですか？目標は何ですか？ –

[免責事項：私は、アライメントについて何もの隣に知っているとfast_alignを使用していない]

はい。

これを自分自身に証明することもできますし、データセットからデータを削除して精度/スケールカーブをプロットして、より小さいスケールでそれを試すこともできます。

つまり、1000はすでに不合理に低いです、これらの目的のために1000≈≈0で、私はそれが動作するとは思わないでしょう。

もっと理想的には、10K、100K、1Mを試すことです。他の人の結果と比べると、Wikipediaや研究ワークショップのデータなど、いくつかの標準コーパスがあります。

重要なデータとは非常に異なるデータを追加すると、結果が混在する可能性がありますが、この場合はデータを傷つけることはほとんどありません。特定のドメイン、データセット、または目標について言及すると、提案に役立つ可能性があります。

2017-08-08 07:36:50

答えて