UTF-8の文字コード表
UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。
perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。
- 1バイト文字
- 2バイト文字
- 3バイト文字
- E3 80 80 ~ 全角ひらがな・カタカナ
- EF BC 80 ~ 全角英数字、半角カナ...ページの下のほう
(2016-04-09 追記) やや雑学寄りですが、Unicodeがどんな風にUTF-8に割当てられているかのページを作成しました。
このページの最終更新日、2009-11-17でした。その頃はスルーしてたUnicodeの追加面が一般に使われているっぽい昨今、4バイト文字のページも作りたいところですね。
ところで、文字のバイト列はどのようにして出力できたのでしょうか?
というお問い合わせをいただいたことがあります。
単に、unicode仕様の範囲内で1バイトずつ増やしながらループをまわして、1文字ずつ出力しただけです。
# 3バイト文字列なので、3重のループです。 foreach my $i (0xE0..0xEF) { foreach my $j (0x80..0xBF) { foreach my $k (0x80..0xBF) { # バイト列をUnicode(U)でパック print pack( 'U*', $i, $j, $k ); } } }
ご参考になれば幸いです。
最終更新日:2016/04/09
[ ページ先頭へ ]