Subvencións I+D
Desenvolvemento de almacenamento compacto para plataformas de datos xeoespaciais listos para a análise
Referencia:
PID2024-155657OB-C22
Institución financiadora:
Ministerio de Ciencia, Innovación e Universidades. Convocatoria 2024 Generación de Conocimiento. Cofinanciado UE
Orzamento:
104.700
Euros
Duración:
1-set-2025 ao 31-ago-2028
Investigadores/as principais:
Investigadores/as participantes:
Descrición:
Na última década, a proliferación de distintos tipos de sensores ten xerado unha enorme cantidade de datos de grande interese que requiren ser almacenados. As plataformas de datos xeoespaciais, en xeral, e as plataformas de datos listos para a análise (Analysis Ready Data - ARD), nomeadamente, poden estar recibindo datos que se xeran de xeito constante e sen cesar, tais como datos atmosféricos, datos de observacións satelitais, medicións de distintos parámetros procedentes de sensores en plantacións etc. O almacenamento destes datos prantexa importantes problemas, onde a solución máis sinxela consiste en eliminar datos pasados valiosos para poder facer espazo para novos datos. A alternativa a iso pasa por recorrer á compresión. A compresión clásica ten un grave defecto: se temos un ficheiro de datos comprimido, é necesario descomprimir por completo este ficheiro para poder procesalo. Isto supón un proceso moi custoso en tempo e cálculo, o que claramente vai en contra dos principios dunha plataforma ARD. Recentemente téñense desenvolto sistemas de compresión que permiten descomprimir individualmente calquera dato dun ficheiro comprimido, sen necesidade de descomprimir o resto. Estes sistemas de compresión coñécense como estruturas de datos compactas (Compact Data Structures, CDS). Estas estruturas permiten manter os datos permanentemente comprimidos, xa que tamén permiten o acceso e consulta dos datos na súa forma compacta. É máis, as CDS permiten un novo tipo de computación denominado computación en memoria (In-Memory Data management, IMD). Neste tipo de computación os datos están sempre en memoria principal de xeito que se evita o movemento de datos entre memoria e disco. Isto acelera varias ordes de magnitude o acceso aos datos e, polo tanto, o tempo de procesamento dos datos diminúe de forma notable. Este subproxecto ten como propósito xeral dotar a unha gran plataforma de datos xeoespaciais, e nomeadamente, a unha plataforma ARD, dun novo esquema de almacenamento de datos seguindo o paradigma das CDS. Así, desenvolveremos avances no almacenamento comprimido de datos ráster e series temporais de datos ráster. Ademais, neste proxecto coordinado vaise explorar o uso de Discrete Global Grid Systems (DGGS) como elementos base para a representación da superficie da terra, que implican ir un paso máis alá do ráster tradicional, e para o cal aínda non existen estruturas de datos compactas. Manter a maior cantidade de datos históricos é clave para poder facer análise e predicións, e co desenvolvemento de CDS para eses datos dotaremos ás plataformas de datos xeospaciais dunha capacidade de almacenamento significativamente maior. Ao mesmo tempo, grazas a unha estratexia de computación in-memory, as pesadas análises de datos ráster tamén se verán axilizadas. En resumo, os principais obxectivos deste subproxecto consisten en desenvolver CDS e algoritmos de consulta sobre elas para almacenar, comprimir e indexar eficientemente grandes coleccións de datos, permitindo o seu procesamento e consulta eficiente de forma comprimida, en diferentes escenarios: grandes coleccións de datos ráster, incluídos datos xeoespaciais representados mediante DGGS, e series temporais de datos xeoespaciais.





