2017-02-03 4 views
1

私は、Unicode Standardで定義されている絵文字コードポイントの正式なリストを探していますが、いくつかの矛盾したソースがあります。emoji-data.txtによれば偶数は絵文字です。 unicode.orgの他の出典は、そのリストのサブセットのみを絵文字にすることを提案しています。例えば、the emoji chartemoji test fileです。 Unicodeテクニカルレポート#51内のセクションもWhich Characters are Emojiと呼ばれていますが、実際には私の質問には答えられません。少なくとも、私はそれを見ることはできません。Unicode標準の絵文字の正しいリストは何ですか?

どのユニコードコードポイントが絵文字ですか?

+0

'emoji-data.txt'は正しいです。 1️⃣、2️⃣、3️⃣などが絵文字であるとお考えですか? –

+0

@一二三私が言ったように、それらは絵文字の表や絵文字のテストファイルにも言及されていません。 –

答えて

3

すべての絵文字グリフが単一のUnicodeコードポイントから作成されるわけではありません。一部の文字は、「絵文字シーケンス」に結合されたときにのみ絵文字の外観を持ちます。これにより、コードポイントだけで絵文字を数えにくくなります。これはSection 3 in UTR #51を伝えようとされているものですが、いくつかの例で改善されることがあります。

  • U+0031は1ですが、U+FE0F U+20E3と組み合わせ絵文字外観を呈する:1️⃣(またはU+FE0E U+20E3でプレーンな外観:1︎⃣) 。
  • U+1F170ですが、U+FE0F:combinedと組み合わせると絵文字が表示されます。
  • U+2620は☠︎ですが、U+FE0F:combinedと組み合わせると絵文字のように見えます。
  • (一般的には、U+FE0Fvariation sequenceは、別々のコード・ポイントとしてそれらをエンコードすることなく、対応する絵文字配列に多くの既存の文字を回すために使用された。)は、それらが形成する場合
  • 地域インジケータシンボルのみ絵文字として表示国/地域コード:U+1F1E6 U+1F1F6、ただしU+1F1E6 U+1F1F5ではありません。

emoji-data.txtファイルには、Emoji=Yes文字プロパティを持つすべての文字がリストされます。これらは、完全なシーケンスではなくても、少なくとも絵文字シーケンスを開始できるすべての基本文字(1、、、、、など)です。 emoji-test.txtファイルには、完全な絵文字シーケンスがすべてリストされます。

+0

意味があります。ありがとう。 –

関連する問題