¿Qué un carácter está codificando?

Febrero 27, 2007

Diseño
Un carácter es la unidad más pequeña de la escritura que es capaz de transportar la información. Es un concepto abstracto: un carácter no tiene un aspecto visual. El “latín mayúsculo A” es un diverso carácter del “latín minúsculo” y del “cirílico mayúsculo A” y de la “alfa griega mayúscula”.

Una representación visual de un carácter se conoce como glyph. Cierto sistema de glyphs se llama una fuente. El “latín mayúsculo A”, el “cirílico mayúsculo A” y la “alfa griega mayúscula” pueden tener glyphs idénticos, pero son diversos caracteres. Al mismo tiempo, los glyphs para el “latín mayúsculo A” pueden parecer muy diferentes en nuevo itálico romano de las épocas, de la papada Sans y de Poetica del chancery, pero todavía representan el mismo carácter.

1560_encodingtable

El sistema de caracteres disponibles se llama un repertorio del carácter. La localización (índice) de un carácter dado dentro de un repertorio se conoce como su posición de código, o punto de código.

El método numéricamente de representar un punto de código dentro de un repertorio dado se llama la codificación del carácter. Desafortunadamente, el término “juego de caracteres”, o el “charset”, se ha utilizado para los repertorios y para las codificaciones, así que es el mejor evitarlo en conjunto.

Las codificaciones se expresan normalmente en términos de octetos. Un octeto es un grupo de ocho dígitos binarios, es decir, ocho unos y ceros. Un octeto puede expresar una gama numérica entre 0 y 255, o entre 0×00 y 0xFF, a la notación del hexadecimal del uso.

Una breve historia

Las computadoras tempranas no tenían una codificación estandardizada del carácter, pero ésta no importó mucho, porque las computadoras podrían comunicarse raramente el uno con el otro detrás entonces. Cuando la comunicación entre computadoras llegó a ser posible, la necesidad de codificar estándares llegó a ser evidente. Un repertorio/una codificación tempranos del campo común era EBCDIC, otro era el código ASCII, a.k.a. el ASCII. La versión de los E.E.U.U., US-ASCII, se ha estandardizado como ISO 646.

El ASCII utiliza solamente siete pedacitos (unos y los ceros), que los medios él pueden representar 128 números: 0 a 127, inclusivo. La gama 0-31 es reservada para los caracteres de control C0 y 127 es reservados para DEL (cancelación), que deja un total de 95 caracteres imprimibles. Ése es bastante para el alfabeto inglés en mayúsculo y minúscula, más dígitos y una cierta (y, obviamente, algún menos común) puntuación común. Pero no es bastante para admitir los caracteres acentuados y las marcas diacríticas necesarios para muchas idiomas europeas, aún menos ninguna escritura que no utilice las letras latinas. Las versiones nacionales mutuamente incompatibles del ASCII eran corrientes, pero no trabajan para el intercambio de información internacional.

Las 8859 series de la ISO eran una tentativa de proporcionar los alternativas para las idiomas con excepción de inglés. Es un sobreconjunto del ASCII, es decir, los primeros 128 puntos de código están iguales en el ASCII y todas las versiones de ISO 8859. Pero la ISO 8859 utiliza ocho pedacitos y puede representar así 256 caracteres (0-255). Por lo tanto a veces, incorrectamente, se llama “ASCII 8-bit”. La gama a partir del 128 a 159 (0×80 a 0×9F) es reservada para los caracteres de control C1.

La versión más común para las idiomas occidentales es ISO 8859-1, a.k.a. ISO Latin-1. Contiene un número de versiones acentuadas de vocales, más varios caracteres especiales. Ahora ha sido substituida por ISO 8859-15, para acomodar la muestra del euro (€).

El ASCII y series de la ISO las 8859 son repertorios y codificaciones del carácter. Los puntos de código se extienden a partir de la 0 a 127 para el ASCII y a partir la 0 a 255 para ISO 8859. La codificación es una una por simple, puesto que un octeto puede expresar comfortablemente la gama entera. El “latín mayúsculo A” tiene punto de código 65 (0×41) y se codifica como 65 (01000001).

Microsoft, nunca conocido para seguir a algún otro estándar cuando puede crear sus el propios, también ha creado un número de repertorios/de codificaciones del carácter. Éstos fueron llamados “código paginan” en el DOS, y CP850 era la página del código usada para las idiomas occidentales.

Una de los repertorios/de las codificaciones mas comunes de Microsoft se conoce como Windows-1252. Mientras que muy es similar a ISO 8859-1, no es idéntica. La gama reservada para los caracteres de control C1 en las codificaciones de la ISO es utilizada por Microsoft para proporcionar ciertos caracteres prácticos que no estén disponibles en la serie de la ISO, tal como comillas y rociadas typographically correctas.

Para las idiomas que no utilizan las letras latinas, los repertorios/las codificaciones especializados similares fueron ideados. El problema era que no había repertorio/codificación que no se podría utilizar para las combinaciones de tales idiomas.

Entry Filed under: Uncategorized. .


Calendar

Febrero 2007
L M X J V S D
     
 1234
567891011
12131415161718
19202122232425
262728  

Most Recent Posts