Unicode コンソーシアムは、Unicode の標準を開発しています。目標は、標準 Unicode 変換フォーマット(UTF)で、 既存の文字セットを置き換えることです
Unicode 標準は、成功をおさめ HTML、XML、Java、JavaScript、Eメール、ASP、PHP 等で実装されています。 Unicode 標準は、多くのオペレーティング・システムやすべての最新ブラウザでサポートされています。
Unicode コンソーシアムは、ISO、W3C、ECMA などの大手規格開発機関と協力しています。
Unicode は異なった文字セットで実装されています。最も一般的に使用されているエンコーディングは、次の UTF-8 と UTF-16 です:
文字セット | 説明 |
---|---|
UTF-8 | UTF8 の文字の長さは 1 〜 4 バイトになります。UTF-8 は、Unicode 標準のあらゆる文字を表すことができます。 UTF-8は、ASCII とは後方互換性があります。 UTF-8 は、電子メールや Web ページに好適なエンコーディングです |
UTF-16 | 16-bit Unicode 変換形式は、全体の Unicode レパートリーをコード化することのできる Unicode 可変長文字エンコーディングです。 UTF-16は、Microsoft Windows、Java や .NET などの主要なオペレーティングシステムや環境で使用されています。 |
チップ:Unicode の最初の 128 文字(ASCII に 1 対 1 で対応)は、ASCII と同じバイナリ値を持つ 1 つの 8 進数 を使用してエンコードされ、有効な ASCII テキストは、有効 UTF-8-encoded Unicodeにもなります。
HTML4 は、UTF-8 をサポートし、HTML 5 は、UTF-8 と UTF-16 の両方をサポートします!
ISO-8859 の文字セットのサイズが制限され、多言語環境での互換性がなかったので、Unicode コンソーシアムは、Unicode 標準を開発しました。
Unicode 標準は、(ほぼ)世界のすべての文字、約物(句読点など)、記号をカバーしています。
は、プラットフォームや言語に依存しない、処理やストレージ、テキストの持ち運びを可能にします。
HTML-5 のデフォルトの文字エンコーディングは UTF-8 です。
HTML5 の web ページが UTF-8 とは異なる文字セットを使用する場合、次のように <meta> タグに指定する必要があります:
<meta charset="ISO-8859-1">
Unicode は、文字セットです。UTF-8 は、エンコーディングです。
Unicode は、ユニークな 10 進数(コードポイント)を持つ文字のリストです。A = 65, B = 66, C = 67, ....
次の 10 進数のリストは、文字列 "hello" を表します:104 101 108 108 111
エンコーディングは、これらの数値をコンピュータに格納するためにどのようにバイナリ数値に変換するかの方法に関するものです:
UTF-8 は、次のように "hello" を格納するするために(バイナリに)エンコーディングします: :01101000 01100101 01101100 01101100 01101111
エンコーディング は、数字をバイナリに変換します。 文字セットは、文字を数字に変換します。
下は、HTML5 でサポートされている UTF-8 文字コードの一部のリストです:
文字コード | 10 進数 | 16 進数 |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |