address Logo

ASCII 文字コード

目次

コンピュータの中では文字は数字によって表されている。この数字を「文字コード」という。文字と数字の対応表を文字コード表と言う。次に示すのはアメリカ合衆国の工業規格で定められている文字コード表である。この文字コード表(ASCII) では 7bit を使って文字をコード化する。

ascii

出典: 岡本茂、大島邦夫、塚本勝久「パソコン用語辞典」(技術評論社, 1999)

受講者からのメール

文字コード表の見方

charcode-A

文字 A の文字コードは 16進数の 41 である。(2進数の 01000001)
この意味は、「もしも 01000001 が文字を表すのであれば、A ですよ」

文字セット

ASCII 文字コード表に現れる文字を ASCII 文字と呼ぶ。

図形文字

ASCII 文字コード表では、普通の意味での文字(形を持った文字=図形文字)は次の図の赤で囲った部分である。

ascii-printable

制御文字

次の赤で囲った部分は形を持たない文字で、制御などの特殊な目的で使用されるために、制御文字と呼ばれる。

ascii-ctrl

空白

「SP」は空白文字である。(制御文字あるいは図形文字とみなすこともある)

標準化の重要性

文字とコードとの対応付けは、様々に考えられるであろう。実際、コンピュータを作成する会社ごとに採用される文字コードが異なっていたのである。それはとても困ることなのだ。一方の会社のコンピュータで作成した英語の文書が他方の会社のコンピュータで読むと文字が化け化けになる! もちろんネットワークによる通信はできない!
そこで、せめて通信を行う場合には統一された文字コードを使いましょうと言うことになった。このへんの事情は、青森の人と沖縄の人が会話をするときには標準語を使用せざるを得ない事と似ています。

キーボードと関係

キーボードは ASCII 文字を打ち込めるように作成されている。

ascii-keyboard

もっともこの写真は日本で普通に使用されているキーボードではない。キーの配置が異なり、ASCII キーボードと呼ばれている。

制御文字の打ち込み方。

キー操作 コード
control+@ 00
control+A 01
... ...
control+Z 1A
control+[ 1B
... ...
control+_ 1F
space 20
tab 09
esc 1B
return
enter
0D
del 7F

注: 「control+」は、control キーを押しながら、「+」に続く図形文字を打つ操作を意味します。

改行の扱い

次の文章は「不思議な国のアリス」の一節である。英文の構成要素には図形文字の他に、空白文字と改行文字が含まれる。ここでは改行文字の扱いを問題にする。

ALICE was beginning to get very tired of sitting
by her sister on the bank, and of having nothing
to do: once or twice she had peeped into the book
her sister was reading, but it had no pictures or
conversations in it, "and what is the use of a
book," thought Alice, "without pictures or conversation?"

以下は、UNIX 上のこの文章が実際にどのようにコード化されているかを調べている。(16進数で表示されている)

000000: 41 4c 49 43 45 20 77 61    73 20 62 65 67 69 6e 6e
000010: 69 6e 67 20 74 6f 20 67    65 74 20 76 65 72 79 20
000020: 74 69 72 65 64 20 6f 66    20 73 69 74 74 69 6e 67
000030: 0a 62 79 20 68 65 72 20    73 69 73 74 65 72 20 6f
000040: 6e 20 74 68 65 20 62 61    6e 6b 2c 20 61 6e 64 20
000050: 6f 66 20 68 61 76 69 6e    67 20 6e 6f 74 68 69 6e
000060: 67 0a 74 6f 20 64 6f 3a    20 6f 6e 63 65 20 6f 72
000070: 20 74 77 69 63 65 20 73    68 65 20 68 61 64 20 70
000080: 65 65 70 65 64 20 69 6e    74 6f 20 74 68 65 20 62
000090: 6f 6f 6b 0a 68 65 72 20    73 69 73 74 65 72 20 77
0000a0: 61 73 20 72 65 61 64 69    6e 67 2c 20 62 75 74 20
0000b0: 69 74 20 68 61 64 20 6e    6f 20 70 69 63 74 75 72
0000c0: 65 73 20 6f 72 0a 63 6f    6e 76 65 72 73 61 74 69
0000d0: 6f 6e 73 20 69 6e 20 69    74 2c 20 22 61 6e 64 20
0000e0: 77 68 61 74 20 69 73 20    74 68 65 20 75 73 65 20
0000f0: 6f 66 20 61 0a 62 6f 6f    6b 2c 22 20 74 68 6f 75
000100: 67 68 74 20 41 6c 69 63    65 2c 20 22 77 69 74 68
000110: 6f 75 74 20 70 69 63 74    75 72 65 73 20 6f 72 20
000120: 63 6f 6e 76 65 72 73 61    74 69 6f 6e 3f 22 0a

読者は改行が LF(文字コード 0a) で表されていることに気づくであろう。
改行の扱いは OS ごとに異なっている。この事はテキストファイルを OS を超えて交換する場合のトラブルの原因になっている。(困りますね…)
例えば UNIX のテキストを Windows で見ると

nl1

本当は次のようになってほしい

nl2

OS による改行の扱いの違いは次のようになっている。

OS名 改行
Windows系 CR LF
UNIX系 LF
Macintosh(注) CR

皆さんは何が合理的な規則だと思いますか?

注: OS X 以降からは UNIX 方式が採用されている。現在は移行期であるために時々バグが見られる。