Estos días, asisto como inversor a las discusiones de los especialistas de EADTrust respecto al problema de la gestión de grandes volúmenes de datos.
Sus discusiones son de tipo técnico, mientras debaten sobre arquitecturas, herramientas, gestores de bases de datos, disponibilidad de sistemas de archivo en la nube, mecanismos de respaldo, tiempo de respuesta en archivo y recuperación, redundancia, alta disponibilidad, resistencia a fallos, direccionamiento, …
Yo aporto mi granito de arena por mi experiencia en sistemas informáticos de grandes entidades, como bancos y telcos y centros de autorización de medios de pago, pero comienzo a entender que algunos de los problemas a los que se enfrentan son de nuevo cuño.
Big data
En efecto, justamente por estas fechas, ha adquirido una relevancia especial el concepto de «Big Data«, una vez identificado por los analistas.
Los grandes volúmenes de datos se han gestionado tradicionalmente con la filosofía de disponibilidad priorizada. El criterio de prioridad consistía, en general, en disponer de los datos recientes de manera inmediata, mientras que los datos más antiguos se envían a un sistema de archivo secundario y terciario. En las grandes instalaciones, esto se traducía en sistemas robotizados que manejaban «containers» de datos, frecuentemente en sistemas magnéticos de almacenamiento secuencial (cintas o sistemas evolucionados de ellas). Y básicamente por el aspecto de los costes de los sistemas de acceso aleatorio que tradicionalmente han sido superiores a los de acceso secuencial.
Sin embargo, desde hace años, esto está cambiando y el coste del almacenamiento de acceso directo ha caido en picado. Ahora es más importante considerar la fiabilidad de los sistemas, y la probabilidad de que se produzcan fallos, con la consiguiente pérdida de la información. La velocidad de acceso adquiere una relevancia distinta, y la redundancia a través de sistemas RAID pasa a ser un requisito de los nuevos sistemas. El almacenamiento de estado sólido ha dejado de ser una promesa y forma parte de la panoplia de recursos de almacenamiento en contextos en los que prima la velocidad y la fiabilidad, si el coste tiene menos relevancia.
Pero cada vez se generan, se almacenan y se procesan más datos, y cada vez más datos tienen que estar disponibles para más personas y más dispositivos que acceden a ellos. Según palabras de Eric Schmidt, Director General de Google: “desde el origen del nacimiento del mundo hasta el año 2003, se generaron cinco exabytes de información. Ahora creamos cinco exabytes cada dos días”.
Recordemos que el exabyte es la unidad de medida de almacenamiento de información (cuyo símbolo es el EB), equivalente a 1018 bytes y que la secuencia de métricas de almacenamientos (de mil en mil o de 1024 en 1024 según se emplee la terminación «bibyte«) es la siguiente: kilobyte (kB) 103, megabyte (MB) 106, gigabyte (GB) 109, terabyte (TB) 1012, petabyte (PB) 1015, exabyte (EB) 1018, zettabyte (ZB) 1021, yottabyte (YB) 1024 .
Big Data y el Cartulario Electrónico
En los sistemas de gestión que manejan evidencias electrónicas, los retos son aún más exigentes. Los datos tienen que estar disponibles en los momentos claves, en los que se requiere su carácter de prueba, y esto puede implicar responsabilidades en muchos casos.
Un sistema como el gestionado por EADTrust, requiere muchos componentes: PKI que respalda la identidad de los diferentes módulos e intervinientes, sistemas generadores de sellado de tiempo sincronizados con el ROA que trabajan a alto rendimiento proporcionando sellos de tiempo a sistemas internos y externos, logs estructurados que permiten localizar las evidencias en caso de resolución de litigios, frecuentemente incorporados a actas de funcionamiento e informes periciales, servidores de firma centralizada generando firmas XAdES-XL y PAdES-LTV, HSM (Hardware Security Modules) que custodian las claves privadas, manejadores de metadatos y uno de los elementos clave: el cartulario electrónico.
El Cartulario Electrónico es un sistema de Custodia Digital Masiva de caracter probatorio.
El Cartulario Electrónico es el equivalente electrónico en un sistema privado del Protocolo Notarial, de los fedatarios públicos. Consiste en una colección ordenada de documentos electrónicos, localizables con varios criterios (especialmente el CSV, Código Seguro de Verificación) y que guarda información complementaria en metadatos estáticos y dinámicos que se refieren a aspectos como la endosabilidad, la obliteribilidad o la completitud (llamada, a veces, grapa electrónica).
El Cartulario Electrónico está formado por una Matriz Electrónica de documentos (sobre los que cabría entender que puede aplicarse el difuso concepto de «original«), y un mecanismo de índices que permite localizarlos y actuar sobre ellos para añadir capas, acceder a su contenido final o al de una de las versiones, hacer anotaciones, referenciar otros documentos o referenciar expedientes.
Filosóficamente, el cartulario debe guardar la información para siempre, salvo que por motivos legales deba de ser eliminada, y aun en ese caso, habrá que diferenciar si la eliminación es un borrado o el marcado de una imposibilidad de acceso. Contractualmente, sin embargo, la información se conserva solo durante el período requerido, cuando se presta como servicios de custodia digital para terceros.
Y ese es el reto que apasiona a los técnicos de EADTrust. Los volúmenes actuales de documentos y metadatos gestionados en el Cartulario Electrónico de EADTrust, permiten prever que durante los próximos cinco años la infraestructura desplegada no tendrá problema de gestión a ritmos normales de prestación de servicios. Pero ¿qué sucederá si los servicios de custodia digital, de publicación fehaciente o de notificaciones fehacientes deben manejar ritmos de transacción de decenas de millones o centenas de millones de documentos por año? Documentos de 100 Kb o de 10Mb, con versiones y enlaces entre ellos. Con planos, o documentos aministrativos, o contratos, o mensajes, o adjuntos, o libros, o actas,…
Y lo cierto es que algunos de los clientes con los que estamos hablando, podrían perfectamente generar esos volúmenes de operaciones.
Más referencias sobre Big Data