Generado con IA · Tema 1

Representación y comunicación de la información.

Informática Comunidad Valenciana 5.688 palabras
Descargar:
Este tema lo ha redactado la IA de OposicionesIA, sin retoques. Es una muestra de la calidad y el formato que obtienes al generar tus propios temas dentro de la plataforma.

TEMA 1. REPRESENTACIÓN Y COMUNICACIÓN DE LA INFORMACIÓN

INDICE

  1. Introducción
  2. El concepto de información y su representación digital
  3. Sistemas de numeración y conversiones
  4. Representación de números enteros
  5. Representación de números reales: coma flotante IEEE 754
  6. Representación decimal codificada en binario (BCD)
  7. Representación de la información alfanumérica: códigos de caracteres
  8. Códigos detectores y correctores de error
  9. Magnitudes de información y unidades de medida
  10. Fundamentos de teoría de la información
  11. Comunicación y transmisión de datos
  12. Compresión de la información
  13. Aplicación didáctica y relación con el currículo
  14. Conclusión
  15. Bibliografía y referencias

1. INTRODUCCION

Toda la informática descansa sobre una idea aparentemente simple pero de enorme alcance: cualquier información que un ser humano sea capaz de concebir —un número, una letra, una imagen, un sonido, una orden de programa— puede reducirse a una secuencia de símbolos discretos y, en última instancia, a combinaciones de dos estados físicos distinguibles. Esa reducción es lo que llamamos representación digital de la información, y constituye el cimiento sobre el que se edifican todos los demás temas del temario: sin una representación rigurosa no hay aritmética en el procesador, no hay almacenamiento, no hay redes ni multimedia.

La elección del sistema binario no es arbitraria ni meramente histórica. Un dispositivo electrónico distingue con muchísima mayor fiabilidad la presencia o ausencia de tensión (dos estados) que diez niveles de tensión distintos. La inmunidad al ruido, la regeneración perfecta de la señal y la sencillez del álgebra de Boole asociada hacen del bit la unidad natural de la información en los computadores. A partir de él, todo es cuestión de codificación: establecer convenios que asocien biunívocamente las entidades del mundo (números, caracteres, muestras de señal) con secuencias de bits.

Este tema aborda esa tarea de codificación en sus dos grandes vertientes. La primera es la representación: cómo expresar números enteros y reales, caracteres y símbolos mediante bits, garantizando que las operaciones aritméticas y lógicas sean correctas y eficientes. La segunda es la comunicación: cómo transmitir esas secuencias de bits de un punto a otro, qué leyes teóricas (Shannon) gobiernan la capacidad de un canal, cómo protegerse de los errores que la transmisión y el almacenamiento introducen, y cómo comprimir la información para ocupar menos espacio o ancho de banda. Ambas vertientes comparten un mismo aparato conceptual —la teoría de la información— que cierra el tema y le da unidad.

El desarrollo que sigue combina el rigor matemático imprescindible (sistemas de numeración, complemento a dos, estándar IEEE 754, códigos de Hamming, entropía de Shannon) con la perspectiva del estándar industrial vigente en 2026 (Unicode, UTF-8, CRC-32, codificaciones de canal modernas), porque el profesorado de la familia de Informática y Comunicaciones debe transmitir no solo los fundamentos atemporales, sino también su materialización tecnológica actual.

2. EL CONCEPTO DE INFORMACION Y SU REPRESENTACION DIGITAL

Conviene distinguir tres planos que con frecuencia se confunden. El dato es el símbolo o conjunto de símbolos en bruto (una secuencia de bits, un número). La información es el dato dotado de significado dentro de un contexto y un convenio de interpretación. El conocimiento es la información integrada en un sistema que permite inferir y decidir. La informática opera directamente sobre datos, pero su finalidad es procesar información; de ahí la importancia capital del código que media entre ambos.

Un código o codificación es una correspondencia entre un conjunto de objetos (el conjunto fuente: letras del alfabeto, números, instrucciones) y un conjunto de secuencias de símbolos del alfabeto del código (en informática, el alfabeto binario {0,1}). Para que una codificación sea útil debe ser, como mínimo, unívoca (cada objeto tiene una representación) y normalmente biunívoca y decodificable (la secuencia recibida permite reconstruir sin ambigüedad la secuencia de objetos original).

La información se representa de forma digital cuando se expresa mediante un número finito de valores discretos, frente a la representación analógica, que emplea magnitudes continuas. La señal analógica reproduce de manera continua la magnitud física que representa; la digital la cuantifica en niveles. La superioridad práctica de lo digital reside en tres propiedades: la robustez frente al ruido (basta distinguir entre dos niveles bien separados), la regeneración sin degradación (una señal digital puede copiarse indefinidamente sin pérdida) y la uniformidad del tratamiento (texto, imagen y sonido, una vez digitalizados, son secuencias de bits que el mismo procesador manipula con las mismas operaciones).

El proceso que convierte una magnitud analógica en digital —la digitalización— consta de tres fases: muestreo (tomar valores de la señal a intervalos regulares, gobernado por el teorema de muestreo de Nyquist-Shannon, que exige una frecuencia de muestreo al menos doble de la máxima frecuencia de la señal), cuantificación (asignar a cada muestra uno de un número finito de niveles, lo que introduce el inevitable error de cuantificación) y codificación (expresar cada nivel como una palabra binaria). Este esquema, que aquí solo se enuncia porque se desarrolla en otros temas, ilustra que la representación digital de magnitudes del mundo real siempre conlleva un compromiso entre fidelidad y coste en bits.

3. SISTEMAS DE NUMERACION Y CONVERSIONES

Un sistema de numeración posicional en base b representa un número mediante una secuencia de dígitos, donde cada dígito está afectado por un peso que es una potencia de la base según su posición. Si los dígitos son d(n-1) … d1 d0 . d(-1) … d(-m), el valor es la suma de cada dígito multiplicado por la base elevada a su posición. La base determina cuántos dígitos distintos se emplean: diez en decimal (0-9), dos en binario (0,1), ocho en octal (0-7) y dieciséis en hexadecimal (0-9 y A-F).

El sistema binario es el natural del computador por las razones físicas ya expuestas. Sin embargo, las cadenas binarias resultan largas e ilegibles para el ser humano, de ahí la utilidad del octal y, sobre todo, del hexadecimal, cuyas bases (8 = 2³ y 16 = 2⁴) son potencias de dos. Esta relación permite convertir entre binario y estas bases agrupando bits sin necesidad de operaciones aritméticas: un dígito octal equivale a tres bits y uno hexadecimal a cuatro. El hexadecimal es hoy el estándar de facto para volcados de memoria, direcciones, colores web, códigos de operación y depuración, porque cada byte se expresa con exactamente dos dígitos.

3.1. Conversión de una base cualquiera a decimal

Se aplica directamente el teorema fundamental de la numeración: se multiplica cada dígito por la base elevada a su peso posicional y se suman los productos. Así, 1011 en binario equivale a 1·8 + 0·4 + 1·2 + 1·1 = 11 en decimal; y 2F en hexadecimal equivale a 2·16 + 15 = 47. La parte fraccionaria usa exponentes negativos: 0,101 en binario es 1·(1/2) + 0·(1/4) + 1·(1/8) = 0,625.

3.2. Conversión de decimal a una base cualquiera

La parte entera se convierte por divisiones sucesivas entre la base, tomando los restos en orden inverso al obtenido. Por ejemplo, 47 entre 2 da cocientes y restos sucesivos cuya lectura inversa produce 101111. La parte fraccionaria se convierte por multiplicaciones sucesivas por la base, tomando las partes enteras que van apareciendo en el orden en que surgen; el proceso puede no terminar (representación periódica), lo que anticipa el problema central de la coma flotante: muchos decimales finitos, como 0,1, no tienen representación binaria finita.

3.3. Conversiones entre binario, octal y hexadecimal

Por la relación entre potencias de dos, basta agrupar bits desde el punto decimal. Para octal se agrupan de tres en tres; para hexadecimal, de cuatro en cuatro, completando con ceros los grupos incompletos. Así 11011010 se agrupa como 1101 0010, que es DA en hexadecimal. El proceso inverso expande cada dígito a su grupo de bits. Esta correspondencia mecánica, sin cálculo aritmético, es lo que convierte al hexadecimal en la notación cómoda del informático.

4. REPRESENTACION DE NUMEROS ENTEROS

Los enteros sin signo se representan directamente en binario natural: con n bits se cubre el rango de 0 a 2ⁿ − 1. El reto aparece al incorporar el signo, pues el computador solo dispone de ceros y unos: hay que codificar también la negatividad. Existen cuatro convenios clásicos, de los cuales solo uno se ha impuesto en la práctica para la aritmética entera.

4.1. Signo-magnitud

Se reserva el bit más significativo para el signo (0 positivo, 1 negativo) y los restantes para la magnitud en binario natural. Es el convenio más intuitivo y el que sigue, internamente, la mantisa de la coma flotante. Sus inconvenientes son graves para la aritmética entera: existe doble representación del cero (+0 y −0) y la suma requiere comparar signos y magnitudes, complicando el circuito. Con n bits el rango es de −(2ⁿ⁻¹ − 1) a +(2ⁿ⁻¹ − 1).

4.2. Complemento a uno

El negativo de un número se obtiene invirtiendo todos sus bits (complemento bit a bit). La suma es más sencilla que en signo-magnitud, pero persiste la doble representación del cero y la suma exige el llamado acarreo circular (sumar al resultado el acarreo que sale del bit más significativo), lo que sigue complicando la unidad aritmético-lógica.

4.3. Complemento a dos

Es el convenio universalmente adoptado por los procesadores actuales. El negativo de un número se obtiene invirtiendo todos sus bits y sumando uno; equivalentemente, el valor del número se interpreta dando al bit más significativo un peso negativo, −2ⁿ⁻¹. Sus ventajas son decisivas: el cero tiene una única representación; la suma y la resta se realizan con el mismo circuito sumador, tratando los operandos negativos exactamente igual que los positivos, sin acarreo circular; y restar equivale a sumar el complemento a dos del sustraendo. Con n bits el rango es asimétrico, de −2ⁿ⁻¹ a +2ⁿ⁻¹ − 1: por ejemplo, con 8 bits, de −128 a +127. Conviene dominar dos consecuencias prácticas. La primera es el desbordamiento (overflow): se produce cuando al sumar dos operandos del mismo signo el resultado cambia de signo, situación que el procesador señala con un flag de desbordamiento. La segunda es la extensión de signo: para ampliar un número a más bits manteniendo su valor, hay que replicar el bit de signo en las posiciones añadidas, no rellenar con ceros.

4.4. Representación en exceso (sesgada)

Consiste en sumar a cada número una constante fija (el exceso o sesgo) de modo que el menor valor representable se codifique como cero y todos los códigos sean no negativos. Tiene la virtud de que el orden de los números coincide con el orden de sus códigos binarios sin signo, lo que facilita las comparaciones. No se usa para los enteros de propósito general, pero es esencial en la coma flotante, donde el exponente se almacena precisamente en exceso para que las comparaciones de magnitud entre reales puedan hacerse, en buena medida, como si fueran enteros sin signo.

5. REPRESENTACION DE NUMEROS REALES: COMA FLOTANTE IEEE 754

Para representar números con parte fraccionaria existe la coma fija, en la que el punto decimal ocupa una posición predeterminada. Es sencilla y se emplea en aplicaciones de control y en ciertos procesadores de señal, pero su rango dinámico es muy limitado: o bien representa números grandes con poca resolución, o pequeños con poco rango. La solución general es la coma flotante, inspirada en la notación científica: un número se expresa como un signo, una mantisa (los dígitos significativos) y un exponente que indica dónde va la coma. Al permitir que la coma "flote", se obtiene un enorme rango dinámico con un número fijo de bits.

5.1. El estándar IEEE 754

Antes de su normalización, cada fabricante empleaba su propio formato, lo que hacía irreproducibles los cálculos entre máquinas. El estándar IEEE 754, publicado en 1985 y revisado en 2008 y 2019, unificó la representación, las operaciones, los redondeos y el tratamiento de las excepciones, y es el que implementan hoy todas las unidades de coma flotante. Define varios formatos; los más usados son el de precisión simple (32 bits) y el de precisión doble (64 bits), a los que se añadieron formatos de media precisión (16 bits, muy usado en aprendizaje automático e gráficos) y cuádruple precisión (128 bits).

Cada número se descompone en tres campos: un bit de signo, un campo de exponente (8 bits en simple, 11 en doble) almacenado en exceso (sesgo 127 en simple, 1023 en doble), y un campo de mantisa o fracción (23 bits en simple, 52 en doble). El valor de un número normalizado es el signo aplicado a 1,M · 2^(E−sesgo), donde M es la fracción almacenada. La clave del formato es el bit implícito: como todo número normalizado en binario tiene un 1 a la izquierda de la coma, ese 1 no se almacena, lo que regala un bit de precisión gratis (la precisión efectiva es de 24 y 53 bits respectivamente).

5.2. Valores especiales y casos límite

El genio del estándar está en reservar los valores extremos del exponente para codificar situaciones especiales, de modo que el mismo hardware las trate de forma uniforme:

Exponente Mantisa Significado
Todo ceros Cero Cero (con signo: +0 y −0)
Todo ceros No nula Números desnormalizados (subnormales)
Todo unos Cero Infinito (+∞ o −∞)
Todo unos No nula NaN (Not a Number)
Resto Cualquiera Números normalizados

Los números desnormalizados (sin bit implícito y con exponente mínimo fijo) permiten representar magnitudes muy próximas a cero, logrando el llamado desbordamiento gradual (gradual underflow), que evita un salto brusco al cero. El infinito surge del desbordamiento o de dividir un número finito entre cero, y se propaga de forma coherente por las operaciones. El NaN representa resultados indefinidos como 0/0, ∞−∞ o la raíz de un negativo; tiene la propiedad de "contaminar" cualquier operación en la que intervenga, lo que facilita la detección de errores. Existen NaN silenciosos (quiet) y señalizadores (signaling).

5.3. Precisión, redondeo y consecuencias prácticas

La consecuencia más importante para el docente y el programador es que la aritmética de coma flotante no es exacta. Muchos decimales sencillos, como 0,1, no tienen representación binaria finita, por lo que se almacenan redondeados; de ahí que comparaciones del tipo 0,1 + 0,2 == 0,3 fallen en la mayoría de lenguajes. El estándar define varios modos de redondeo, siendo el predeterminado el redondeo al más cercano, con desempate al par, que minimiza el sesgo estadístico acumulado. La precisión simple ofrece unos 7 dígitos decimales significativos y la doble unos 15-16. Las buenas prácticas exigen, por tanto, comparar reales mediante una tolerancia (épsilon), preferir la doble precisión en cálculos sensibles y ser consciente de la pérdida de precisión por cancelación catastrófica al restar números muy próximos.

6. REPRESENTACION DECIMAL CODIFICADA EN BINARIO (BCD)

El código BCD (Binary Coded Decimal) representa cada dígito decimal (0-9) mediante su grupo de cuatro bits en binario natural, en lugar de convertir el número completo a binario. Así, 47 en BCD no es 101111, sino 0100 0111. Es un código no ponderado del número completo pero ponderado dígito a dígito (variante 8421, la más común). Existen variantes como el BCD empaquetado (dos dígitos por byte) y el desempaquetado (un dígito por byte).

Su principal ventaja es que evita los errores de redondeo decimal de la coma flotante binaria y simplifica la conversión a representaciones legibles, por lo que se emplea históricamente en calculadoras, displays de siete segmentos, relojes digitales y, muy señaladamente, en sistemas financieros y comerciales donde la exactitud decimal es legalmente exigible. Lenguajes y bases de datos ofrecen tipos decimal de precisión arbitraria basados en esta filosofía. Su inconveniente es el desperdicio de espacio (de las 16 combinaciones de 4 bits solo se usan 10) y la mayor complejidad de la aritmética, que requiere ajustes (corrección decimal) tras cada operación.

7. REPRESENTACION DE LA INFORMACION ALFANUMERICA: CODIGOS DE CARACTERES

Representar texto consiste en asignar a cada carácter (letra, dígito, signo de puntuación, símbolo) un número entero, su punto de código, y codificar ese número en bits. La historia de estos códigos es la historia de un problema creciente: cómo acomodar todos los sistemas de escritura del mundo de forma única y eficiente.

7.1. ASCII

El código ASCII (American Standard Code for Information Interchange), de 1963, emplea 7 bits y define 128 caracteres: los de control (0-31, como el salto de línea o el retorno de carro), los imprimibles (espacios, dígitos, mayúsculas, minúsculas y signos) y el de borrado. Su gran limitación es no contemplar caracteres acentuados, la eñe ni otros alfabetos, lo que lo hace insuficiente fuera del inglés. Conviene recordar su diseño ingenioso: la diferencia entre una mayúscula y su minúscula es un único bit, lo que facilita las conversiones.

7.2. ISO/IEC 8859

Para cubrir las lenguas europeas se aprovechó el octavo bit, ampliando a 256 caracteres. La familia ISO/IEC 8859 define varias páginas; la más relevante para el español es ISO-8859-1 (Latin-1), que incluye vocales acentuadas, la eñe y la diéresis. Una variante posterior, ISO-8859-15 (Latin-9), añadió el símbolo del euro. El problema estructural de estas codificaciones es que cada página cubre solo un grupo de lenguas, y un mismo byte significa caracteres distintos según la página activa, lo que provoca el conocido fenómeno de los textos ilegibles (mojibake) al confundir codificaciones.

7.3. Unicode y sus codificaciones UTF

Unicode resolvió de raíz el problema asignando un punto de código único a cada carácter de prácticamente todos los sistemas de escritura, vivos e históricos, además de símbolos técnicos y emojis. Su espacio abarca algo más de un millón de puntos de código (hasta U+10FFFF), organizados en planos. Unicode es independiente de la forma de almacenarlo: define qué número corresponde a cada carácter, pero la codificación en bytes la realizan los formatos UTF.

UTF-32 usa 4 bytes fijos por carácter: es simple de indexar pero muy ineficiente en espacio. UTF-16 usa 2 o 4 bytes (mediante los pares subrogados para los caracteres fuera del plano básico); es la representación interna de Java, .NET y JavaScript. UTF-8, hoy dominante en la web y en sistemas POSIX, es una codificación de longitud variable de 1 a 4 bytes con tres virtudes que explican su éxito: es retrocompatible con ASCII (los 128 caracteres ASCII se codifican igual, en un solo byte), es autosincronizable (se distingue el primer byte de un carácter de los de continuación, lo que permite recuperarse de errores y buscar sin ambigüedad) y es independiente del orden de bytes de la máquina, evitando el problema del endianness que sí afecta a UTF-16 y UTF-32 y obliga a marcas de orden de bytes (BOM). Por estas razones, UTF-8 es la codificación recomendada por defecto en el desarrollo actual y la que el profesorado debe enseñar como estándar.

8. CODIGOS DETECTORES Y CORRECTORES DE ERROR

Tanto la transmisión como el almacenamiento de información están sujetos a errores: ruido en el canal, interferencias, defectos del soporte. Los códigos de control de errores añaden redundancia controlada a los datos para detectar e incluso corregir esas alteraciones. La idea central es la distancia de Hamming entre dos palabras código: el número de bits en que difieren. Un código con distancia mínima d puede detectar hasta d−1 errores y corregir hasta la parte entera de (d−1)/2.

8.1. Control de paridad

Es el mecanismo más simple: se añade un bit de paridad que hace que el número total de unos sea par (paridad par) o impar (paridad impar). Detecta cualquier número impar de errores, pero no los corrige ni detecta los pares. La paridad cruzada (longitudinal y transversal sobre una matriz de bits) mejora la capacidad y permite localizar y corregir un error aislado, al señalar la fila y la columna afectadas.

8.2. Código de Hamming

Es un código corrector de errores que coloca bits de paridad en las posiciones que son potencia de dos, de modo que cada bit de control vigila un subconjunto bien elegido de bits de datos. Al recibir la palabra, se recalculan las paridades; el conjunto de discrepancias, leído como un número binario, indica directamente la posición del bit erróneo, que basta con invertir para corregirlo. El código Hamming clásico tiene distancia mínima 3 (corrige un error). Añadiendo un bit de paridad global se obtiene el SECDED (Single Error Correction, Double Error Detection), de distancia 4, que corrige un error y detecta dos: es la base de la memoria ECC empleada en servidores para corregir errores espontáneos provocados, por ejemplo, por radiación.

8.3. Comprobación de redundancia cíclica (CRC)

El CRC es la técnica de detección dominante en redes y almacenamiento por su gran eficacia frente a errores en ráfaga. Se basa en la aritmética de polinomios sobre el cuerpo binario: el mensaje se interpreta como un polinomio que se divide por un polinomio generador fijo, y el resto de esa división se anexa como secuencia de comprobación. El receptor repite la operación: si el resto no es nulo, hay error. Variantes como CRC-32 (usada en Ethernet, ZIP y PNG) detectan todos los errores simples y dobles, todo número impar de errores y todas las ráfagas de longitud menor o igual al grado del generador, con una probabilísima muy baja de error no detectado. No corrige, solo detecta, pero su coste de cálculo es bajísimo y se implementa con facilidad en hardware mediante registros de desplazamiento.

Para canales muy ruidosos se emplean códigos correctores más potentes, como los códigos Reed-Solomon (en CD, DVD, códigos QR y comunicaciones espaciales) o los modernos códigos LDPC y turbo (en Wi-Fi, 4G/5G y almacenamiento), que se aproximan al límite teórico de Shannon.

9. MAGNITUDES DE INFORMACION Y UNIDADES DE MEDIDA

La unidad elemental de información es el bit (binary digit), que representa la elección entre dos alternativas equiprobables. El agrupamiento estándar de 8 bits es el byte u octeto, que puede representar 256 valores distintos y es la unidad direccionable básica en la práctica totalidad de las arquitecturas. Sobre el byte se construyen los múltiplos para magnitudes mayores.

Aquí surge una confusión frecuente y normativamente relevante. Tradicionalmente, en informática los múltiplos se calculaban en potencias de 1024 (2¹⁰), de modo que un "kilobyte" eran 1024 bytes, un "megabyte" 1024 kilobytes, etcétera. Sin embargo, los prefijos del Sistema Internacional (kilo, mega, giga) significan potencias de 1000. Para resolver la ambigüedad, la norma IEC 60027-2 / IEC 80000-13 introdujo prefijos binarios específicos: kibi (Ki = 2¹⁰), mebi (Mi = 2²⁰), gibi (Gi = 2³⁰), tebi (Ti = 2⁴⁰), y así sucesivamente. Según esta norma, lo correcto es decir 1 KiB = 1024 bytes, reservando 1 kB para 1000 bytes.

Prefijo binario Símbolo Valor Prefijo SI Símbolo Valor
kibi Ki 2¹⁰ = 1024 kilo k 10³ = 1000
mebi Mi 2²⁰ mega M 10⁶
gibi Gi 2³⁰ giga G 10⁹
tebi Ti 2⁴⁰ tera T 10¹²
pebi Pi 2⁵⁰ peta P 10¹⁵

Esta distinción explica una discrepancia cotidiana: los fabricantes de discos miden la capacidad en potencias de 1000 (gigabytes SI), mientras los sistemas operativos suelen mostrarla en potencias de 1024 (gibibytes), por lo que un disco de "1 TB" aparece como unos 931 GiB. Conviene también distinguir las unidades de capacidad de almacenamiento (en bytes) de las de velocidad de transmisión (en bits por segundo, bps, y sus múltiplos kbps, Mbps, Gbps), error frecuente entre el alumnado.

10. FUNDAMENTOS DE TEORIA DE LA INFORMACION

En 1948, Claude Shannon publicó A Mathematical Theory of Communication, que fundó la teoría de la información y dio un significado matemático preciso a la cantidad de información. Su aportación fue medir la información en función de la incertidumbre o sorpresa: un suceso muy probable aporta poca información cuando ocurre; uno improbable aporta mucha. Formalmente, la información de un suceso de probabilidad p es el logaritmo en base dos de 1/p, medida en bits.

10.1. Entropía

La entropía de una fuente es la cantidad media de información por símbolo, es decir, la esperanza matemática de la información de sus símbolos. Es máxima cuando todos los símbolos son equiprobables (máxima incertidumbre) y nula cuando uno es seguro. La entropía marca el límite teórico inferior del número medio de bits necesario para codificar sin pérdida los símbolos de la fuente: ningún código sin pérdida puede comprimir, en promedio, por debajo de la entropía. Este es el primer teorema de Shannon (codificación de fuente) y el fundamento de toda la compresión sin pérdida.

10.2. Redundancia

La redundancia es la diferencia entre la longitud media real de una codificación y la entropía de la fuente; es decir, los bits "de sobra" respecto al mínimo teórico. La redundancia no siempre es indeseable: la compresión busca eliminarla para ahorrar espacio, pero los códigos correctores de errores la añaden deliberada y controladamente para ganar fiabilidad. Comprimir y proteger frente a errores son, en cierto sentido, operaciones opuestas sobre la redundancia, y todo sistema de comunicaciones busca su punto de equilibrio.

10.3. Capacidad de un canal

El segundo teorema de Shannon (codificación de canal) establece que todo canal con ruido tiene una capacidad máxima, expresada en bits por segundo, por debajo de la cual es posible transmitir con una probabilidad de error tan pequeña como se quiera, empleando códigos correctores adecuados; por encima de ella, la transmisión fiable es imposible. La fórmula de Shannon-Hartley relaciona esa capacidad con el ancho de banda del canal y la relación señal/ruido. Este resultado, profundamente contraintuitivo en su día, garantiza que el ruido no impide la comunicación perfecta, sino que solo limita su velocidad, y orienta el diseño de todos los sistemas de comunicación modernos hacia ese límite.

11. COMUNICACION Y TRANSMISION DE DATOS

La comunicación es el proceso de transferir información de un emisor a un receptor a través de un canal mediante un mensaje codificado. El modelo de Shannon-Weaver identifica los elementos esenciales: fuente, codificador/transmisor, canal (afectado por una fuente de ruido), receptor/decodificador y destino. Este esquema atemporal es el que subyace a toda la materia de redes.

La transmisión de datos es la materialización física de ese envío. Sin entrar en el detalle propio de otros temas, conviene fijar la terminología básica. Según el sentido del flujo, la transmisión puede ser símplex (un solo sentido), semidúplex (ambos sentidos, pero no simultáneos) o dúplex (ambos sentidos a la vez). Según la sincronización, serie (los bits viajan uno tras otro por una línea, lo habitual en distancias largas y en los buses modernos) o paralelo (varios bits simultáneos por líneas distintas, usado dentro del computador a corta distancia). Y según el referente temporal, síncrona (emisor y receptor comparten reloj) o asíncrona (cada carácter se enmarca con bits de inicio y parada).

La señal puede transmitirse en banda base (los pulsos digitales directamente sobre el medio) o mediante modulación de una portadora analógica, alterando su amplitud, frecuencia o fase para representar los bits, lo que permite adaptar la señal al medio y multiplexar varias comunicaciones. La velocidad de transmisión se mide en bits por segundo, que no debe confundirse con la velocidad de modulación en baudios (símbolos por segundo): cada símbolo puede transportar varios bits según el esquema de modulación. Todo este aparato práctico se rige, en última instancia, por el límite de capacidad de Shannon expuesto en el apartado anterior, lo que une de nuevo teoría y técnica.

12. COMPRESION DE LA INFORMACION

La compresión reduce el número de bits necesarios para representar una información, eliminando redundancia. Se distinguen dos grandes familias según la fidelidad del resultado.

12.1. Compresión sin pérdida

La compresión sin pérdida (lossless) permite reconstruir exactamente el dato original, sin perder un solo bit. Es obligatoria para texto, ejecutables, bases de datos y, en general, donde cualquier alteración sería inaceptable. Sus técnicas explotan la redundancia estadística y estructural. La codificación de entropía asigna códigos más cortos a los símbolos más frecuentes: el algoritmo de Huffman construye un código de longitud variable óptimo símbolo a símbolo, y la codificación aritmética y sus variantes modernas se aproximan aún más al límite de entropía de Shannon. La codificación por longitud de series (RLE) sustituye repeticiones por un par (valor, número de repeticiones). Los métodos de diccionario de la familia Lempel-Ziv (LZ77, LZ78, LZW) sustituyen secuencias repetidas por referencias a apariciones anteriores y son el corazón de formatos como ZIP, gzip, PNG y GIF. La eficacia de la compresión sin pérdida está acotada precisamente por la entropía: datos ya aleatorios o ya comprimidos no admiten más reducción.

12.2. Compresión con pérdida

La compresión con pérdida (lossy) descarta información que se considera poco perceptible o irrelevante para obtener tasas de reducción muy superiores. Solo es admisible en datos destinados a la percepción humana —imagen, audio y vídeo—, donde se aprovechan las limitaciones de la vista y el oído (modelos psicovisuales y psicoacústicos). El estándar JPEG comprime imágenes descartando las altas frecuencias mediante la transformada discreta del coseno y la cuantificación; MP3 y AAC eliminan los sonidos enmascarados por otros más intensos; y los códecs de vídeo (de la familia H.26x, como H.264/AVC y H.265/HEVC, junto a alternativas abiertas como AV1) combinan la compresión espacial de cada fotograma con la predicción temporal entre fotogramas. El compromiso fundamental de la compresión con pérdida es entre tasa de compresión y calidad percibida: a mayor compresión, mayor degradación, controlada por un parámetro de calidad.

13. APLICACION DIDACTICA Y RELACION CON EL CURRICULO

Los contenidos de este tema constituyen el fundamento transversal de toda la familia profesional de Informática y Comunicaciones y aparecen, con distinta profundidad, en numerosos módulos y materias del sistema educativo regulado por la LOE 2/2006 modificada por la LOMLOE 3/2020 y, en Formación Profesional, por la LOFP 3/2022 y su desarrollo en el RD 659/2023.

En la Educación Secundaria Obligatoria y el Bachillerato, la representación binaria de la información, las unidades de medida y la digitalización de texto, imagen y sonido se abordan en materias como Tecnología y Digitalización y Digitalización, donde el alumnado comprende por primera vez que todo dato es, en el fondo, una secuencia de bits, sirviendo de puente hacia la competencia digital.

En la Formación Profesional, el tema da soporte directo a varios módulos. En el CFGM de Sistemas Microinformáticos y Redes, los sistemas de numeración y las unidades de información son base del módulo de Montaje y Mantenimiento de Equipos y de Redes Locales (donde el control de errores y la transmisión cobran sentido). En los CFGS de Desarrollo de Aplicaciones Multiplataforma y Desarrollo de Aplicaciones Web, la representación de enteros y reales (complemento a dos, IEEE 754), los tipos de datos y las codificaciones de caracteres (UTF-8) son imprescindibles en Programación y Bases de Datos, donde los errores de redondeo o de codificación son una fuente habitual de fallos. En el CFGS de Administración de Sistemas Informáticos en Red, las unidades de capacidad, el direccionamiento hexadecimal y la integridad de datos (paridad, ECC, CRC) son nucleares en la gestión de sistemas y almacenamiento.

Desde el punto de vista metodológico, conviene un enfoque constructivista y práctico: partir de problemas reales (¿por qué 0,1 + 0,2 no da 0,3?, ¿por qué un texto se ve mal al cambiar de editor?, ¿por qué un disco de 1 TB muestra menos capacidad?) para introducir los conceptos por necesidad y no por imposición. El uso de herramientas de conversión, editores hexadecimales y pequeños programas que muestran la representación interna de los datos favorece el aprendizaje significativo, la atención a la diversidad y la evaluación por competencias mediante situaciones de aprendizaje contextualizadas, tal como prescribe el currículo vigente.

14. CONCLUSION

La representación y la comunicación de la información son los dos pilares sobre los que se sostiene la informática como disciplina. Hemos visto cómo el bit, unidad mínima, permite codificar números enteros mediante el complemento a dos —universal por la elegancia con que unifica suma y resta—, números reales mediante el estándar IEEE 754 —con su ingenioso tratamiento de ceros, infinitos y NaN, y su inevitable inexactitud—, y caracteres mediante una evolución que culmina en Unicode y su codificación UTF-8, hoy estándar de facto. Hemos analizado cómo proteger esa información de los errores con códigos detectores y correctores, desde la humilde paridad hasta el CRC y los códigos modernos que rozan el límite teórico, y cómo medirla y comprimirla a la luz de la teoría de la información de Shannon, cuyos teoremas fijan los límites infranqueables tanto de la compresión como de la transmisión fiable.

El hilo conductor es siempre el mismo: toda la potencia del computador y de las redes nace de convenios de codificación rigurosos y de leyes matemáticas precisas. Comprender estos fundamentos no es un ejercicio académico, sino la condición para diagnosticar errores reales, elegir representaciones adecuadas y enseñar con solvencia una materia que, pese a la vertiginosa evolución de la tecnología, conserva intactos sus principios. Para el futuro docente de la especialidad de Informática, dominar este tema es disponer del lenguaje común con el que se construyen todos los demás.

15. BIBLIOGRAFIA Y REFERENCIAS

(a) Referencias técnicas y estándares

  • Tanenbaum, A. S. y Austin, T. (2013). Organización de computadoras: un enfoque estructurado. Pearson.
  • Stallings, W. (2016). Organización y arquitectura de computadores. Pearson.
  • Hennessy, J. L. y Patterson, D. A. (2019). Arquitectura de computadores: un enfoque cuantitativo. Morgan Kaufmann.
  • Stallings, W. (2014). Comunicaciones y redes de computadores. Pearson.
  • Cover, T. M. y Thomas, J. A. (2006). Elements of Information Theory. Wiley.
  • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
  • Sayood, K. (2017). Introduction to Data Compression. Morgan Kaufmann.
  • IEEE (2019). IEEE Standard for Floating-Point Arithmetic (IEEE 754-2019). IEEE.
  • The Unicode Consortium. The Unicode Standard. Recurso en línea: https://www.unicode.org
  • ISO/IEC 80000-13:2008. Quantities and units — Part 13: Information science and technology. ISO.
  • Internet Engineering Task Force. RFC 3629: UTF-8, a transformation format of ISO 10646. https://www.rfc-editor.org

(b) Referencias normativas

  • Ley Orgánica 2/2006, de 3 de mayo, de Educación (LOE), modificada por la Ley Orgánica 3/2020, de 29 de diciembre (LOMLOE).
  • Ley Orgánica 3/2022, de 31 de marzo, de ordenación e integración de la Formación Profesional (LOFP).
  • Real Decreto 659/2023, de 18 de julio, por el que se desarrolla la ordenación del Sistema de Formación Profesional.
  • Reales Decretos de los títulos de la familia profesional Informática y Comunicaciones (CFGM Sistemas Microinformáticos y Redes; CFGS Desarrollo de Aplicaciones Multiplataforma, Desarrollo de Aplicaciones Web y Administración de Sistemas Informáticos en Red).
  • Orden de 1 de febrero de 1996 por la que se aprueban los temarios que han de regir en los procedimientos de ingreso a los Cuerpos de Profesores (especialidad de Informática).
  • Normativa de la Generalitat Valenciana de desarrollo curricular de la ESO, el Bachillerato y la Formación Profesional. Portal de la Conselleria de Educación: https://ceice.gva.es

ORIENTACIONES PARA EL ESTUDIO

  • Practique las conversiones entre bases y el complemento a dos hasta automatizarlas: en el examen escrito ahorran tiempo y demuestran solvencia; no fíe estos cálculos a la improvisación.
  • Memorice la estructura de los campos de IEEE 754 (signo, exponente en exceso, mantisa con bit implícito) y sepa explicar con un ejemplo por qué 0,1 no es exacto; es una pregunta recurrente del tribunal.
  • Distinga con claridad los tres ejes que suelen confundirse: detección frente a corrección de errores, compresión con frente a sin pérdida, y prefijos binarios (kibi) frente a SI (kilo).
  • Vincule siempre la parte teórica (entropía y capacidad de Shannon) con sus consecuencias prácticas (límites de la compresión y de la transmisión): el tribunal valora la madurez conceptual, no la mera enumeración.
  • Reserve entre seis y ocho minutos finales para el epígrafe de aplicación didáctica y la conclusión; un tema técnico impecable sin conexión curricular pierde puntos en una oposición docente.
  • Prepare un esquema-resumen de una página con las definiciones y fórmulas clave para repasar las vísperas y para estructurar mentalmente la exposición ante el tribunal.

Genera tus temas como este

Crea temas desarrollados de tu especialidad y comunidad, con el tono y la longitud que prefieras, y conviértelos en esquemas y flashcards.