HOME備忘帳

UTF-8文字コード表

UTF-8の文字コード表なのです。 いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。

perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。

先日、メールで

ところで、文字のバイト列はどのようにして出力できたのでしょうか?

というお問い合わせをいただいたので、こちらにも掲載しておきます。

単に、unicode仕様の範囲内で1バイトずつ増やしながらループをまわして、1文字ずつ出力しただけですよ。

# 3バイト文字列なので、3重のループです。
foreach my $i (0xE0..0xEF) {
    foreach my $j (0x80..0xBF) {
        foreach my $k (0x80..0xBF) {
            # バイト列をUnicode(U)でパック
            print pack( 'U*', $i, $j, $k );
        }
    }
}

実際に出力に使ったプログラムには、上記のロジックの中にHTMLを吐くための汚いコードがいっぱい挟まってます。 一回出力できればいいやと殴り書きしたもので、とてもお見せできるようなソースコードではありません...。(^^;

蛇足ながら、古いバージョンのperlには、「U」が無かったような気がします。

具体的にどのバージョンからかは把握していませんが、perl5.8.8のpackのチュートリアルには利用できる記載がありましたので、それ以降なら確実では。

Perldoc.jpのpackチュートリアル (Unicodeの章)

perlでなくても、何かしらのスクリプトでやれば同じような結果が得られるんじゃないでしょうか。

ご参考になれば幸いです。

最終更新日:2009/11/17

[ ページ先頭へ ]