冒頭のコードの挙動

Character.isEmoji('');
                   ↓
Character.isEmoji(\uD83E\uDD27);

コンパイラが文字リテラルをコードユニットに置き換える
この絵文字の場合、2つのコードユニットになってしまう
→ 言語仕様違反によりコンパイルエラーになる

文字リテラルはUTF-16コードユニットのみを表すことができ、つまり\u0000から\uffffまでの値に限定されます。（JLS 3.10.4. Character Literals より）

文字	(よみ)	コードポイント	コードユニット
𩸽	ほっけ	U+29E3D	\uD867 \uDE3D
𩹉	トビウオ	U+29E49	\uD867 \uDE49
🄐	カッコエー	U+1F100	\uD83C \uDD10

	文字	説明	コードポイント
1	0	(数字の)ゼロ	U+0030
2	?	はてな	U+003F
3	※	米印	U+203B
4	♫	音符	U+266B

	文字	説明	コードポイント	isEmoji
1	0	(数字の)ゼロ	U+0030	true
2	?	はてな	U+003F	false
3	※	米印	U+203B	false
4	♫	音符	U+266B	false

Index	String	Codepoints
0		U+1F34B, U+200D, U+1F7E9
1	が	U+304B, U+3099
2		U+0033, U+FE0F, U+20E3
3	個	U+500B
4	!	U+0021

実装	単位	数
人間	書記素クラスタの数	1
PostgreSQL の length 関数	コードポイントの数	3
Java の String.length() メソッド	コードユニットの数	5
Go の len 関数	UTF-8 のバイト数	11

Javaで絵文字を正しく扱おう

今日のお話

Java Puzzlers

正解

バージョンによって挙動が異なる

絵文字によって結果が異なる

1つ目の罠

「サロゲートペア」

おさらい：Unicode とは？

おさらい：UTF-16 とは？

冒頭のコードの挙動

正しい処理

ありがちな間違い

サロゲートペアではない絵文字

補足：絵文字に限らない

2つ目の罠

「絵文字シーケンス」

Java Puzzlers

Java Puzzlers

なぜ？

なぜ 0 は Emoji と定義？

のコードポイント

Q. なぜこんな設計？

絵文字の傾向

シーケンスの罠

書記素クラスタ単位で扱うには？

サンプルコード

実行結果

3つ目の罠

「文字数」

絵文字の文字数

どれを文字数とすべき？

Java で実装するには

まとめ

Javaで絵文字を正しく扱おう

補足：絵文字以外のシーケンス

補足：絵文字の判定メソッド

isEmoji

isEmojiPresentation

isEmojiModifier

isEmojiModifierBase

isEmojiComponent

isExtendedPictographic

絵文字の判定方法

完璧な絵文字の判定方法は？

参考資料

参考資料

著作権表記

JJUG CCC のアンケート