異字体？ - がるの健忘録

大本ネタはこちら。
http://moriyoshi.hatenablog.com/entry/2017/03/13/011005
ここで「異体字セレクタ」ってのをはじめて知って、ちょろっと調べものをしたので、備忘録的に。
UnicodeっつかUTF-8で「１文字づつ」に分割するごにょごにょを書きたいかもなぁ、とか、ちょろっと妄想をしていたので。

とりあえず。

(二点しんにょう U+8FBB + VS18) ⇔「辻??」(一点しんにょう U+8FBB + VS17)

……ふお？
U+8FBB はわかるんだが、 + VS18、って、なにかしらん？
が、startライン。

http://itpro.nikkeibp.co.jp/article/COLUMN/20110124/356398/?rt=nocnt
見ると、「E9 82 8A F3 A0 84 80」とか「E9 82 8A F3 A0 84 81」とか。

念の為に、UTF-8のエンコーディング方法を確認。
https://ja.wikipedia.org/wiki/UTF-8
………ぶも？
5バイト長とか6バイト長とかある？？？
一端より道して調べもの。…いやもしあるんなら。MySQLのutf8mb4が、些か、怖いやもしれぬので。

https://ja.wikipedia.org/wiki/Unicode%E4%B8%80%E8%A6%A7%E8%A1%A8
http://www.unicode.org/roadmaps/

ふむ。第16面でも「U+F0000 〜 U+10FFFF」なのねん。
これだと十分に４バイトで入る。…5バイト長とか6バイト長は「将来に向けての布石」なのかしらん？
とりあえず「当面の厄介」は消えたぽいので、「5バイト長とか6バイト長」の調査は一端ここで打ち切り。

もどして…とりあえず、ビット列に分解して、有効な値を取り出してみる。

E9 82 8A F3 A0 84 80
1110 1001 1000 0010 1000 1010 1111 0011 1010 0000 1000 0100 1000 0000

E9 82 8A F3 A0 84 81
1110 1001 1000 0010 1000 1010 1111 0011 1010 0000 1000 0100 1000 0001

使う子だけ、はじき出す…とりあえず先頭は多分３バイトのはず。
1110 yyyy 10yx xxxx 10xx xxxx
1110 1001 1000 0010 1000 1010 1111 0011 1010 0000 1000 0100 1000 0000
1110 1001 1000 0010 1000 1010 1111 0011 1010 0000 1000 0100 1000 0001

どっちも
1001000010001010
908A

うん確かに「邊」の字だ。
てことは手前３バイトは文字なんだ…後ろの４バイトを解析してみませう。
先頭が11110なんで、UTF-8的には「４バイト文字」のはず。

1111 0yyy 10yy xxxx 10xx xxxx 10xx xxxx
1111 0011 1010 0000 1000 0100 1000 0000
1111 0011 1010 0000 1000 0100 1000 0001

011100000000100000000
011100000000100000001

E0100
E0101

一覧を見てみる…
https://ja.wikipedia.org/wiki/Unicode%E4%B8%80%E8%A6%A7_E0000-E0FFF
「VS17」とか「VS18」とか。

あぁ！！
単純に、ここらへん(おそらく、E0100〜E01E0F)までは「異字体(IVS：Ideographic Variation Sequence)だよ！！」って取決めなのか！！
うん、腑に落ちた。

ってことは「１文字を切り出す」時に、もし後ろにこの子がいたら「前の字とセットで」持っておいてあげる必要があるんだなぁ。
PHPの実装とかどうなってるんだろ？
まぁその辺はまた後日、気になったら調べてみませうｗ