私はfast_align https://github.com/clab/fast_alignを使用して、1000のドイツ語の文章と1000の英語の翻訳の間の単語のアライメントを取得しています。これまでのところ、品質はあまり良くありません。fast_alignのような単語アライメントツールを使用すると、文章の数が増えるほど精度は向上しますか?
プロセスの文章をもっとスローすると、fast_alignはより正確になりますか? OPUSのデータを100k整列した文章ペアで取り上げ、最後に1000文を追加してfast_alignにフィードします。それは助けになるだろうか?これが理にかなっているかどうかについての情報は見つけられないようです。
あなたが持っているデータセットは何ですか、ドメインとコンテンツタイプは何ですか?目標は何ですか? –