すべての絵文字グリフが単一のUnicodeコードポイントから作成されるわけではありません。一部の文字は、「絵文字シーケンス」に結合されたときにのみ絵文字の外観を持ちます。これにより、コードポイントだけで絵文字を数えにくくなります。これはSection 3 in UTR #51を伝えようとされているものですが、いくつかの例で改善されることがあります。
U+0031
は1ですが、U+FE0F U+20E3
と組み合わせ絵文字外観を呈する:1️⃣(またはU+FE0E U+20E3
でプレーンな外観:1︎⃣) 。
U+1F170
ですが、U+FE0F
:combinedと組み合わせると絵文字が表示されます。
U+2620
は☠︎ですが、U+FE0F
:combinedと組み合わせると絵文字のように見えます。
- (一般的には、
U+FE0F
variation sequenceは、別々のコード・ポイントとしてそれらをエンコードすることなく、対応する絵文字配列に多くの既存の文字を回すために使用された。)は、それらが形成する場合
- 地域インジケータシンボルのみ絵文字として表示国/地域コード:
U+1F1E6 U+1F1F6
、ただしU+1F1E6 U+1F1F5
ではありません。
emoji-data.txt
ファイルには、Emoji=Yes
文字プロパティを持つすべての文字がリストされます。これらは、完全なシーケンスではなくても、少なくとも絵文字シーケンスを開始できるすべての基本文字(1、、、、、など)です。 emoji-test.txt
ファイルには、完全な絵文字シーケンスがすべてリストされます。
'emoji-data.txt'は正しいです。 1️⃣、2️⃣、3️⃣などが絵文字であるとお考えですか? –
@一二三私が言ったように、それらは絵文字の表や絵文字のテストファイルにも言及されていません。 –