¿Qué un carácter está codificando?
Diseño
Un carácter es la unidad más pequeña de la escritura que es capaz de transportar la información. Es un concepto abstracto: un carácter no tiene un aspecto visual. El “latín mayúsculo A” es un diverso carácter del “latín minúsculo” y del “cirílico mayúsculo A” y de la “alfa griega mayúscula”.
Una representación visual de un carácter se conoce como glyph. Cierto sistema de glyphs se llama una fuente. El “latín mayúsculo A”, el “cirílico mayúsculo A” y la “alfa griega mayúscula” pueden tener glyphs idénticos, pero son diversos caracteres. Al mismo tiempo, los glyphs para el “latín mayúsculo A” pueden parecer muy diferentes en nuevo itálico romano de las épocas, de la papada Sans y de Poetica del chancery, pero todavía representan el mismo carácter.
1560_encodingtable
El sistema de caracteres disponibles se llama un repertorio del carácter. La localización (índice) de un carácter dado dentro de un repertorio se conoce como su posición de código, o punto de código.
El método numéricamente de representar un punto de código dentro de un repertorio dado se llama la codificación del carácter. Desafortunadamente, el término “juego de caracteres”, o el “charset”, se ha utilizado para los repertorios y para las codificaciones, así que es el mejor evitarlo en conjunto.
Las codificaciones se expresan normalmente en términos de octetos. Un octeto es un grupo de ocho dígitos binarios, es decir, ocho unos y ceros. Un octeto puede expresar una gama numérica entre 0 y 255, o entre 0×00 y 0xFF, a la notación del hexadecimal del uso.
Una breve historia
Las computadoras tempranas no tenían una codificación estandardizada del carácter, pero ésta no importó mucho, porque las computadoras podrían comunicarse raramente el uno con el otro detrás entonces. Cuando la comunicación entre computadoras llegó a ser posible, la necesidad de codificar estándares llegó a ser evidente. Un repertorio/una codificación tempranos del campo común era EBCDIC, otro era el código ASCII, a.k.a. el ASCII. La versión de los E.E.U.U., US-ASCII, se ha estandardizado como ISO 646.
El ASCII utiliza solamente siete pedacitos (unos y los ceros), que los medios él pueden representar 128 números: 0 a 127, inclusivo. La gama 0-31 es reservada para los caracteres de control C0 y 127 es reservados para DEL (cancelación), que deja un total de 95 caracteres imprimibles. Ése es bastante para el alfabeto inglés en mayúsculo y minúscula, más dígitos y una cierta (y, obviamente, algún menos común) puntuación común. Pero no es bastante para admitir los caracteres acentuados y las marcas diacríticas necesarios para muchas idiomas europeas, aún menos ninguna escritura que no utilice las letras latinas. Las versiones nacionales mutuamente incompatibles del ASCII eran corrientes, pero no trabajan para el intercambio de información internacional.
Las 8859 series de la ISO eran una tentativa de proporcionar los alternativas para las idiomas con excepción de inglés. Es un sobreconjunto del ASCII, es decir, los primeros 128 puntos de código están iguales en el ASCII y todas las versiones de ISO 8859. Pero la ISO 8859 utiliza ocho pedacitos y puede representar así 256 caracteres (0-255). Por lo tanto a veces, incorrectamente, se llama “ASCII 8-bit”. La gama a partir del 128 a 159 (0×80 a 0×9F) es reservada para los caracteres de control C1.
La versión más común para las idiomas occidentales es ISO 8859-1, a.k.a. ISO Latin-1. Contiene un número de versiones acentuadas de vocales, más varios caracteres especiales. Ahora ha sido substituida por ISO 8859-15, para acomodar la muestra del euro (€).
El ASCII y series de la ISO las 8859 son repertorios y codificaciones del carácter. Los puntos de código se extienden a partir de la 0 a 127 para el ASCII y a partir la 0 a 255 para ISO 8859. La codificación es una una por simple, puesto que un octeto puede expresar comfortablemente la gama entera. El “latín mayúsculo A” tiene punto de código 65 (0×41) y se codifica como 65 (01000001).
Microsoft, nunca conocido para seguir a algún otro estándar cuando puede crear sus el propios, también ha creado un número de repertorios/de codificaciones del carácter. Éstos fueron llamados “código paginan” en el DOS, y CP850 era la página del código usada para las idiomas occidentales.
Una de los repertorios/de las codificaciones mas comunes de Microsoft se conoce como Windows-1252. Mientras que muy es similar a ISO 8859-1, no es idéntica. La gama reservada para los caracteres de control C1 en las codificaciones de la ISO es utilizada por Microsoft para proporcionar ciertos caracteres prácticos que no estén disponibles en la serie de la ISO, tal como comillas y rociadas typographically correctas.
Para las idiomas que no utilizan las letras latinas, los repertorios/las codificaciones especializados similares fueron ideados. El problema era que no había repertorio/codificación que no se podría utilizar para las combinaciones de tales idiomas.
Add comment Febrero 27, 2007
Diseño
Diseño
Rubi Diseño
Diseño
¿Qué afecta la opción?
Un número de parámetros se deben tomar en la consideración antes de que elijamos una forma de codificación, incluyendo:
* ¿Qué caracteres son yo que va a utilizar?
* ¿En qué codificaciones puede mi redactor ahorrar archivos?
* ¿Qué codificaciones son apoyadas por los varios componentes en mi cadena que publica?
* ¿Qué codificaciones son apoyadas por los browsers de los visitantes?
Consideremos cada uno de estas ediciones alternadamente.
Gama del carácter
El primer parámetro que necesitamos considerar es la gama de caracteres vamos a necesitar. Obviamente, un sitio que se escribe en una sola lengua utiliza una gama más limitada de caracteres que un sitio multilingüe — especialmente uno que mezcla las letras latinas con cirílico, griego, hebreo, árabe, chino, y así sucesivamente.
Si deseamos utilizar las comillas typographically correctas, las rociadas y la otra puntuación especial, las codificaciones “normales” faltan. Esto es también verdad si necesitamos símbolos matemáticos u otros especiales.
Capacidades del editor de textos
Algunos autores prefieren utilizar editores de textos regulares como la libreta o Vim; otros tienen gusto de una herramienta del WYSIWYG del punto-y-tecleo como Dreamweaver; algunos utilizan un sistema de gerencia contento sofisticado (CMS). Sin importar preferencia personal, nuestra opción de redactores afecta nuestra opción de la codificación. Algunos redactores pueden ahorrar solamente en uno que codifica, e incluso no te dirán cuál uno. Otros pueden ahorrar en docenas de diversas codificaciones, pero te requieren saber qué satisfará tus necesidades.
Otros componentes
Una cadena que publica consiste en más que un redactor. Hay siempre un web server (servidor del HTTP) en el extremo lejano de la cadena, pero puede haber otros componentes mientras tanto: bases de datos, programación o idiomas scripting, armazones, servidores del uso, motores del servlet y más.
Cada uno de estos componentes puede afectar tu opción de la codificación. La base de datos puede almacenar quizá solamente datos en una codificación particular, o quizás la lengua scripting que estás utilizando no puede manejar ciertas codificaciones.
No es posible enumerar las capacidades de todos los diversos redactores, bases de datos, y así sucesivamente en este artículo, porque hay simplemente demasiados de ellos. Necesitas mirar la documentación para tus componentes antes de elegir la codificación para utilizar.
Ayuda del Browser
Algunas codificaciones — como US-ASCII, la ISO 8859 series y UTF-8 — se apoyan extensamente. Otros no son. Es probablemente la mejor evitar las codificaciones más esotéricas, especialmente en un sitio que se piense para una audiencia internacional.
Add comment Febrero 27, 2007
Hello world!
Welcome to WordPress.com. This is your first post. Edit or delete it and start blogging!
1 comment Febrero 27, 2007