Technorati Tags: fraude, almacenamiento, hoja de papel
Hace ya unos días de esta noticia: Más de 256 GB almacenados… ¡en una hoja de papel!. Después de leer la descripción del supuesto método para realizar tal proeza, pensé «manda cojones las chorradas que dice la gente, estos del 20 Minutos». Pero no, resulta que se lo han colado a Techworld.com, a The Register e incluso a Barrapunto y menéame.
Se supone que se almacenan los datos en figuras geométricas de diversos colores y luego se decodifica usando un «escáner especial». Ya empezamos con las cosas esotéricas y especiales.
Después de leer una explicación de por qué es un timo, no quedé demasiado satisfecho, sobre todo por eso de «usando una cámara de 15 Mpx no nos da para capturarlo todo», porque se puede usar la misma cámara de 15 Mpx por sectores, pero no es el tema de todo esto.
Resulta que con la tecnología actual, los colores se representan con varios puntos mezcla de los 4 colores básicos de toda impresora. Bien, supongamos una impresora que a todo color nos da una resolución de 600 puntos por pulgada (lineales) y que es capaz de imprimir con muchísima calidad, diferenciando claramente hasta 16 bits (65536 colores), y que además somos capaces de distinguir al escanear esos 65536 colores sin problemas. Mejor nos olvidamos de los 24 y los 32 bits.
Con todas estas suposiciones, nos encontramos que cada pulgada lineal permite almacenar 600 símbolos que representan cada uno 16 bits, es decir, que cada línea de 1 pulgada de longitud almacena 9600 bits (1200 bytes). Cada pulgada cuadrada almacena por tanto 720.000 bytes, que al pasarlo a un papel A-4 de dimensiones 297mm x 210mm (8,268 x 11,693 pulgadas cuadradas) nos da la friolera de:
600 x 600 x 16 x 8,268 x 11,693 = 69607961,28 bytes = 66,3833 MB
De acuerdo, hemos supuesto una resolución no demasiado alta, 600 ppp, pero es que suponiendo una resolución de 4800 ppp en las dos coordenadas y 32 bits de color nos salen unos 8 GB. Y por lo que leo en Can you get 256GB on an A4 sheet? No way!, lo normal es usar una resolución de 300 ppp para imprimir revistas.
Por si fuera poco, usando esos 4800 ppp, 32 bits de color y un papel de 1 metro cuadrado, nos da 133 GB. Sencillamente, no cuela.
Siguiendo con el tema de la resolución, veamos lo que ocurre en un lector de CD, por no mencionar el DVD que tiene muchísima más capacidad. Los datos en un CD se almacenan en hendiduras hechas sobre la superficie del CD, separadas cierta distancia y con cierta anchura. Estas hendiduras tienen un ancho de 0,6 micras (6 x 10^-7 metros) y la separación entre pistas es de 1,6 micras. Para poder hacer una lectura en una estructura así es necesario un láser, y si queremos ver cuál es el equivalente en ppp para un escáner y una impresora que saque los datos, sería de unos 17900 ppp.
Hasta el momento no se ha considerado otro problema importantísimo en todo medio de almacenamiento: la fiabilidad.
Para que un medio de almacenamiento sea fiable debe cumplir una serie de características, y es que la información sea recuperable en cierto margen de tiempo. ¿Y qué problema hay con esto? Por el momento he considerado que no se utilizan mecanismos de detección y corrección de errores, como los conocidos CRC, que introducen bastante sobrecarga, reduciendo la capacidad de almacenamiento efectivo.
Y un problema extra es la degradación del papel y de las tintas con el tiempo. Si en ocasiones se nos puede fastidiar una foto o una hoja puede volverse amarilla con el paso del tiempo, esto no deja de ocurrir en este caso, y si queremos diferenciar entre tantos colores, que son muy cercanos, el invento se nos va a paseo. Se ha inventado el sistema de almacenamiento masivo variante en el tiempo. Pues vaya una cosa inútil.
Por cierto, que usar figuras geométricas determinadas es mucho menos eficiente que usar todos los puntos posibles del papel.
Aunque la capacidad real de almacenar información en una hoja de papel sea infinita, es imposible extraerla toda, ni siquiera una fracción pequeña como 200 GB, por las limitaciones evidentes de nuestra tecnología.
Sin haber leído toda la documentación adicional, estoy de acuerdo en que es absolutamente inviable.
En primer lugar están las resoluciones. Es cierto que algunas impresoras dicen tener 4800 ppp, pero en realidad están hablando de cantidad gotas. Es imposible colocar una matriz de 4800×4800 gotas perfectamente ordenadas en una pulgada. Lo mas gordo que he visto han sido 1200x1200ppp (Reales), y eso en monocromo.
En segundo lugar estáría el problema del escaneado, donde volvemos otra vez al límite práctico de los 1200×1200 ppp.
Después está, por supuesto, la relación señal/ruido del «canal». Los errores al imprimir, al escanear, porosidad del papel, etc… Probablemente no sería descabellado hablar de una resolución máxima final de 300ppp.
16 bit de profundidad de color me parece una salvajada. No tanto por la degradación del papel y las tintas, sino por el ajuste al imprimir y leer. Ni de coña distinguen 65000 colores sin equivocarse. Dejémoslo en 32 colores (5 bit).
Sobre la corrección de error, habría que emplear códigos correctores de errores. No me gusta la idea de emplear hashes porque solo indicarían que la información está mal, sin posibilidad, de recuperarla. Esto disminuiría la eficiencia del código cási a la mitad (4/7 para detectar error en 1 bit de cada 4).
Resumiendo. ((11,8 * 8,4) * (300*300) * 5) / (2 * 4/7) me dan unos 4,8 kilobytes.
Bastante menos que 250 GB por A4
Ligera cagadita con los paréntesis. 🙂 (El 4/7 va fuera). No obstante la cifra no varía en magnitud.
Totalmente de acuerdo en que 16 bits es demasiado para poder distinguirlos, por eso he hecho la suposición «a lo bestia», para que se vea que es tremendamente absurdo lo que se plantea con la tecnología actual.
Se comenta por ahí que cambiando la base tienes más cantidad de información, pero usar una base de varios millones es… ¿absurdo?
En fin, las consideraciones que haces acerca de los códigos de detección y corrección de errores reafirma lo dicho hasta ahora 🙂
Saluditos.
Vamos que es muy fácil metersela doblada a todos esos medios. Se nota que no tienen ningún asesor científico para detectar fraudes. O peor aún, resulta que la publicaron por ser sensacionalista… sin importarles o no la veracidad.
Uff… que miedo. :/