Subvenciones I+D
Desarrollo de almacenamiento compacto para plataformas de datos geoespaciales listos para el análisis
Referencia:
PID2024-155657OB-C22
Institución financiadora:
Ministerio de Ciencia, Innovación e Universidades. Convocatoria 2024 Generación de Conocimiento. Cofinanciado UE
Presupuesto:
104.700
Euros
Duración:
01-sep-2025 al 31-ago-2028
Investigadores principales:
Investigadores/as participantes:
Descripción:
En la última década, la proliferación de distintos tipos de sensores ha generado una enorme cantidad de datos de gran interés que requieren ser almacenados. Las plataformas de datos geoespaciales, en general, y las plataformas de datos listos para el análisis (Analysis Ready Data - ARD), en particular, pueden estar recibiendo datos que se generan de manera constante y sin cesar, tales como datos atmosféricos, datos de observaciones satelitales, mediciones de distintos parámetros procedentes de sensores en plantaciones, etc. El almacenamiento de estos datos plantea importantes problemas, donde la solución más sencilla consiste en eliminar datos pasados valiosos para poder hacer espacio para nuevos datos. La alternativa a ello pasa por recurrir a la compresión. La compresión clásica tiene un grave defecto: si tenemos un fichero de datos comprimido, es necesario descomprimir por completo este fichero para poder procesarlo. Esto supone un proceso muy costoso en tiempo y cálculo, lo que claramente va en contra de los principios de una plataforma ARD. Recientemente se han desarrollado sistemas de compresión que permiten descomprimir individualmente cualquier dato de un fichero comprimido, sin necesidad de descomprimir el resto. Estos sistemas de compresión se conocen como estructuras de datos compactas (Compact Data Structures, CDS). Estas estructuras permiten mantener los datos permanentemente comprimidos, ya que también permiten el acceso y consulta de los datos en su forma compacta. Es más, las CDS permiten un nuevo tipo de computación denominado computación en memoria (In-Memory Data management, IMD). En este tipo de computación los datos están siempre en memoria principal de modo que se evita el trasiego de datos entre memoria y disco. Esto acelera varios órdenes de magnitud el acceso a los datos y, por tanto, el tiempo de procesamiento de los datos disminuye de forma notable. Este subproyecto tiene como propósito general dotar a una gran plataforma de datos geoespaciales, y más en concreto, a una plataforma ARD, de un nuevo esquema de almacenamiento de datos siguiendo el paradigma de las CDS. Así, desarrollaremos avances en el almacenamiento comprimido de datos ráster y series temporales de datos ráster. A mayores, en este proyecto coordinado se va a explorar el uso de Discrete Global Grid Systems (DGGS) como elementos base para la representación de la superficie de la tierra, que implican ir un paso más allá del ráster tradicional, y para el cual todavía no existen estructuras de datos compactas. Mantener la mayor cantidad de datos históricos es clave para poder hacer análisis y predicciones, y con el desarrollo de CDS para esos datos dotaremos a las plataformas de datos geospaciales de una capacidad de almacenamiento significativamente mayor. Al mismo tiempo, gracias a una estrategia de computación in-memory, los pesados análisis de datos ráster también se verán agilizados. En resumen, los principales objetivos de este subproyecto consisten en desarrollar CDS y algoritmos de consulta sobre ellas para almacenar, comprimir e indexar eficientemente grandes colecciones de datos, permitiendo su procesamiento y consulta eficiente de forma comprimida, en diferentes escenarios: grandes colecciones de datos ráster, incluidos datos geoespaciales representados mediante DGGS, y series temporales de datos geoespaciales.





