テキスト(特にInstagramのコメント)が英語以外であるかどうかを検出する最も正確な方法は何ですか?私はテキストが英語以外であるかどうかの検出
などのPython、PHP、として、$ sudo pip2 install guess_language
>>> from guess_language import guessLanguage
>>> guessLanguage('la vita e bella')
'UNKNOWN'
>>> guessLanguage('today is a good day')
'UNKNOWN'
>>> guessLanguage('ボウリング・フォー・コロンバイン(字幕版)')
'ja'
任意の高レベルの言語を使用して幸せと
$ sudo apt-get install php5.6-mbstring
if(strlen($comment->text) == mb_strlen($comment->text, 'utf-8')) {
echo '- '.$comment->text."\n";
}
と私は英語ではありません英語の文字で多くのものを得る: 例:
- Khoda be khanevadehashon sabr bede tahamol konan
- Akhey...
- Eshghi
- K
- :-)
- Ey khodaa
- ...
- @samaneaghazamani1990 vaaaaay khoda chejoori payam dadan?
- :(
- Elahiiiii
- May Allah please with them and grant higher rank of jannah salutes to the bravehearts @taraneh_alidoosti @fanpagemostafazamani
- Elaaaahiii
- Roohetoon shad.
- :'(
- Roheshon shad!! Yadeshon gerami!!
- .:'(
- :-(
- Oooo
- Awli
私は、大量のデータを取り扱っておりますようGoogle翻訳のようなものを使用する必要はありません。
更新:
$ sudo pip2 install langdetect
>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("today is a good day.")
'so'
>>> detect("la vita e bella!")
'it'
>>> detect("khoobi? khoshi?")
'so'
>>> detect("wow")
'pl'
>>> detect("what a day")
'en'
>>> detect("yay!")
'so'
ん 'ので、' 未知を参照してください?私はtoday is a good day
がen
と考えられることを期待していました!
トリグラムは通常、かなり短いテキストでも十分です。 – pvg
参照:https://pypi.python.org/pypi/langdetect/1.0.1 –
@JuanTアップデートをご覧ください! –