2011-08-16 8 views
13

私は英語で書かれた文章や言葉を別の言語のスクリプトに翻訳するPHPスクリプトを書くことに興味があります(私は言語にとらわれない提案を歓迎します)。私はphoenetically(すなわち耳で)書かれた英語を見ているので、私は同じ単語の別のスペルを扱わなければならないだろう。PHPでのインテリジェントな音訳

標準的には(例えば、中国では、あなたがなど、簡体ウェイド持つ)ローマ字表記のために存在しないものとする

誰もが私が始めることができる場所に何かアドバイスはありますか?

EDIT:これは純粋に教育的目的のために行っていますが、私は当初IMメッセージのコーパスで見つかった異ったスペルの間の関係を理解するために、言語のローマ字化された形式)、あなたはある種の機械学習ツールを必要とします。しかし、正しい軌道に乗っているかどうかを知りたいのですが、この作業をするために次に調べるべきことを見つけ出すための助けが必要です(たとえば、どの機械学習ツールを調べるべきですか?) 。

+0

- など(通常は、独自のスクリプトで書かれた)外国語のバリアントスペル」 「eheree」対「ehery」、または「ei」対「ey」である。私はそれほど大したことではないことを理解しています:私は、与えられたコーパス(例えばIMメッセージやローマ字のローマ字で書かれたFacebookの更新など)に対して少しの統計分析が必要な解決策を望んでいました。 – arkate

答えて

2

私は少なくとも日本語で知っています。

あなたはもちろん、この

array(
    'oo' => 'おう', 
    'oh' => 'おう', 
    'ou' => 'おう' 
) 

のようなマッチング配列を作成するような何かを行うことができますので、上の継続、そしてそれは「TSU」であるべきときに、「SU」と一致していないことを確認すること。

これはもちろん出発点に過ぎません。

機械学習は、おそらく中国で最も実用的である...しかし、ここでひらがなにラフなスタートだ:あまりにも肉取得せずにhttps://gist.github.com/1154969

+0

私はこれらの行に沿って何かを探していた。ここで欠落しているのは、おそらくこれらの関連付けをおそらく機械学習技術によって生成する方法だけです。 – arkate

3

Derick RethansでTransliteration PHP Extensionをお試しください:

この拡張機能を使用すると、ラテン文字に(中国語、キリル文字、ギリシャ語などなど) 非ラテン文字のテキストを翻することができます。 拡張子には、 の大文字と小文字のラテン語、キリル文字、ギリシャ語のフィルタも含まれており、 ノルウェー語の「æ」などの合字を「ae」に変換し、句読点やスペーシングを正規化するなどの特殊な字形を実行します。

あなたが探しているもので既に始まったようです。 (あなたは英語→ラテン語を扱ってはいけませんが、少なくともこれは他の言語のスクリプトを扱っています:))

+0

それは良いツールです、そして、それを私に指摘してくれてありがとう。しかし、私は自分自身を(純粋に教育目的のために)作り上げる方法を理解することにもっと興味を持っていました。質問に明白でない場合は謝罪します:( – arkate

+2

私はこのライブラリを入手してコードを見てみることをお勧めします。(私のために)学習する最善の方法:それを解決し、繰り返す。 –

関連する問題