HTML Unicode (UTF-8) リファレンス

❮ 前章へ 次章へ ❯

Unicode コンソーシアム

Unicode コンソーシアムは、Unicode の標準を開発しています。目標は、標準 Unicode 変換フォーマット(UTF)で、 既存の文字セットを置き換えることです

Unicode 標準は、成功をおさめ HTML、XML、Java、JavaScript、Eメール、ASP、PHP 等で実装されています。 Unicode 標準は、多くのオペレーティング・システムやすべての最新ブラウザでサポートされています。

Unicode コンソーシアムは、ISO、W3C、ECMA などの大手規格開発機関と協力しています。


Unicode 文字セット

Unicode は異なった文字セットで実装されています。最も一般的に使用されているエンコーディングは、次の UTF-8 と UTF-16 です:

文字セット 説明
UTF-8 UTF8 の文字の長さは 1 〜 4 バイトになります。UTF-8 は、Unicode 標準のあらゆる文字を表すことができます。 UTF-8は、ASCII とは後方互換性があります。 UTF-8 は、電子メールや Web ページに好適なエンコーディングです
UTF-16 16-bit Unicode 変換形式は、全体の Unicode レパートリーをコード化することのできる Unicode 可変長文字エンコーディングです。 UTF-16は、Microsoft Windows、Java や .NET などの主要なオペレーティングシステムや環境で使用されています。

チップ:Unicode の最初の 128 文字(ASCII に 1 対 1 で対応)は、ASCII と同じバイナリ値を持つ 1 つの 8 進数 を使用してエンコードされ、有効な ASCII テキストは、有効 UTF-8-encoded Unicodeにもなります。

HTML4 は、UTF-8 をサポートし、HTML 5 は、UTF-8 と UTF-16 の両方をサポートします!


HTML5 の標準:Unicode UTF-8

ISO-8859 の文字セットのサイズが制限され、多言語環境での互換性がなかったので、Unicode コンソーシアムは、Unicode 標準を開発しました。

Unicode 標準は、(ほぼ)世界のすべての文字、約物(句読点など)、記号をカバーしています。

は、プラットフォームや言語に依存しない、処理やストレージ、テキストの持ち運びを可能にします。

HTML-5 のデフォルトの文字エンコーディングは UTF-8 です。

HTML5 の web ページが UTF-8 とは異なる文字セットを使用する場合、次のように <meta> タグに指定する必要があります:

<meta charset="ISO-8859-1">

Unicode と UTF-8 の違い

Unicode は、文字セットです。UTF-8 は、エンコーディングです。

Unicode は、ユニークな 10 進数(コードポイント)を持つ文字のリストです。A = 65, B = 66, C = 67, ....

次の 10 進数のリストは、文字列 "hello" を表します:104 101 108 108 111

エンコーディングは、これらの数値をコンピュータに格納するためにどのようにバイナリ数値に変換するかの方法に関するものです:

UTF-8 は、次のように "hello" を格納するするために(バイナリに)エンコーディングします: :01101000 01100101 01101100 01101100 01101111

エンコーディング は、数字をバイナリに変換します。 文字セットは、文字を数字に変換します。


HTML5 UTF-8 文字コード

下は、HTML5 でサポートされている UTF-8 文字コードの一部のリストです:

文字コード 10 進数 16 進数
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF


« 前章へ
次章へ ❯