![]() |
![]() |
コンピュータの中では文字は数字によって表されている。この数字を「文字コード」という。文字と数字の対応表を文字コード表と言う。次に示すのはアメリカ合衆国の工業規格で定められている文字コード表である。この文字コード表(ASCII) では 7bit を使って文字をコード化する。
出典: 岡本茂、大島邦夫、塚本勝久「パソコン用語辞典」(技術評論社, 1999)
文字 A の文字コードは 16進数の 41 である。(2進数の 01000001)
この意味は、「もしも 01000001 が文字を表すのであれば、A ですよ」
ASCII 文字コード表に現れる文字を ASCII 文字と呼ぶ。
ASCII 文字コード表では、普通の意味での文字(形を持った文字=図形文字)は次の図の赤で囲った部分である。
次の赤で囲った部分は形を持たない文字で、制御などの特殊な目的で使用されるために、制御文字と呼ばれる。
「SP」は空白文字である。(制御文字あるいは図形文字とみなすこともある)
文字とコードとの対応付けは、様々に考えられるであろう。実際、コンピュータを作成する会社ごとに採用される文字コードが異なっていたのである。それはとても困ることなのだ。一方の会社のコンピュータで作成した英語の文書が他方の会社のコンピュータで読むと文字が化け化けになる! もちろんネットワークによる通信はできない!
そこで、せめて通信を行う場合には統一された文字コードを使いましょうと言うことになった。このへんの事情は、青森の人と沖縄の人が会話をするときには標準語を使用せざるを得ない事と似ています。
キーボードは ASCII 文字を打ち込めるように作成されている。
もっともこの写真は日本で普通に使用されているキーボードではない。キーの配置が異なり、ASCII キーボードと呼ばれている。
キー操作 | コード |
---|---|
control+@ | 00 |
control+A | 01 |
... | ... |
control+Z | 1A |
control+[ | 1B |
... | ... |
control+_ | 1F |
space | 20 |
tab | 09 |
esc | 1B |
return enter |
0D |
del | 7F |
注: 「control+」は、control キーを押しながら、「+」に続く図形文字を打つ操作を意味します。
次の文章は「不思議な国のアリス」の一節である。英文の構成要素には図形文字の他に、空白文字と改行文字が含まれる。ここでは改行文字の扱いを問題にする。
ALICE was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, "and what is the use of a book," thought Alice, "without pictures or conversation?"
以下は、UNIX 上のこの文章が実際にどのようにコード化されているかを調べている。(16進数で表示されている)
000000: 41 4c 49 43 45 20 77 61 73 20 62 65 67 69 6e 6e 000010: 69 6e 67 20 74 6f 20 67 65 74 20 76 65 72 79 20 000020: 74 69 72 65 64 20 6f 66 20 73 69 74 74 69 6e 67 000030: 0a 62 79 20 68 65 72 20 73 69 73 74 65 72 20 6f 000040: 6e 20 74 68 65 20 62 61 6e 6b 2c 20 61 6e 64 20 000050: 6f 66 20 68 61 76 69 6e 67 20 6e 6f 74 68 69 6e 000060: 67 0a 74 6f 20 64 6f 3a 20 6f 6e 63 65 20 6f 72 000070: 20 74 77 69 63 65 20 73 68 65 20 68 61 64 20 70 000080: 65 65 70 65 64 20 69 6e 74 6f 20 74 68 65 20 62 000090: 6f 6f 6b 0a 68 65 72 20 73 69 73 74 65 72 20 77 0000a0: 61 73 20 72 65 61 64 69 6e 67 2c 20 62 75 74 20 0000b0: 69 74 20 68 61 64 20 6e 6f 20 70 69 63 74 75 72 0000c0: 65 73 20 6f 72 0a 63 6f 6e 76 65 72 73 61 74 69 0000d0: 6f 6e 73 20 69 6e 20 69 74 2c 20 22 61 6e 64 20 0000e0: 77 68 61 74 20 69 73 20 74 68 65 20 75 73 65 20 0000f0: 6f 66 20 61 0a 62 6f 6f 6b 2c 22 20 74 68 6f 75 000100: 67 68 74 20 41 6c 69 63 65 2c 20 22 77 69 74 68 000110: 6f 75 74 20 70 69 63 74 75 72 65 73 20 6f 72 20 000120: 63 6f 6e 76 65 72 73 61 74 69 6f 6e 3f 22 0a
読者は改行が LF(文字コード 0a) で表されていることに気づくであろう。
改行の扱いは OS ごとに異なっている。この事はテキストファイルを OS を超えて交換する場合のトラブルの原因になっている。(困りますね…)
例えば UNIX のテキストを Windows で見ると
本当は次のようになってほしい
OS による改行の扱いの違いは次のようになっている。
OS名 | 改行 |
---|---|
Windows系 | CR LF |
UNIX系 | LF |
Macintosh(注) | CR |
皆さんは何が合理的な規則だと思いますか?