Controllo qualità dei dati

Dati controllati sono la base di ogni progetto che studi aspetti climatici o ambientali. Per di più questi dati servono come input per raffigurazioni modellistiche, studi sulla variabilità climatica, mappe climatiche e analisi di valori estremi. Per l'analisi di eventi estremi, quali periodi con forti precipitazioni, periodi secchi o fenomeni simili, sono necessari dati ad alta risoluzione temporale, almeno a base giornaliera.

Il controllo dei dati giornalieri avviene con un'approccio multi-stage. Le serie storiche vengono sottoposte a un controllo di consistenza interno, temporale e climatologico. Dopo questo controllo i dati vengono esaminati attraverso il significato di ulteriori procedure di test spaziali e statistici. Per questo progetto il controllo dei dati è stato composto dall'acquisizione dati, digitalizzazione, correzione e infine omogeneizazzione dei parametri meteorologici, perlopiù disponibili su base giornaliera.

 

Per raggiungere una qualità uniforme, i dati rilevati e parzialmente digitalizzati sono stati sottoposti ad un processo di controllo multi-stage che è stato suddiviso in sei passaggi:

 

1. Precontrolli durante il rilevamento, la trasformazione e l'import dei dati. Consistono nel ritrovamento di cosìdetti "outlier", nel controllo di soglie e della consistenza temporale. Il primo passaggio è stato di "flaggare" valori sospetti, correggere la mancanza di valori nei dataset e corregere le deviazioni.

 

2. Controllo di completezza: Questo controllo analizza la completezza dei dati importati. Questo è un punto fondamentale per ulteriori passaggi nel progetto, come il calcolo della somma mensile dei dati di vari parametri, che dipendono da una serie completa. Le azioni correttive comprendono l'interpolazione dei valori e il "fagging" dei valori editati. Utili per questo controllo sono stati i valori originali delle striscie del termo-idrografo, di fogli climatici e immagini radar.

 

3. Controllo climatologico: Questo test determina se tutti i valori misurati si trovano in un intervallo limite climatologico. Questi intervalli dipendono dalla posizione geografica della stazione e dal momento di misurazione. Se un valore oltrepassa un massimo o rimane al di sotto di un minimo allora viene indicato come dato "discutibile". Se questo valore deve essere corretto o se può essere dichiarto valido, questo viene deciso da un esaminatore dopo un controllo successivo. Così viene assicurato che eventi atmosferici estremi non vengono alterati dal sistma di controllo.

 

4. Plausibilità - Controllo della consistenza interna: Qui vengono controllati vari parametri di una serie storica su relazioni logiche. Per esempio la differenza di due sensori della temperatura non deve superare un certo valore massimo. Dopo ripetuti controlli l'esaminatore decide come trattare il valore discutabile.

 

5. Controllo della consistenza spaziale: Valori giornalieri di una stazione sono stati comparati con i valori giornalieri di stazioni di referimento predefinite, il cui numero varia.

 

6. Controllo aggiuntivo, o POST-controllo: Per questo controllo sono stati sviluppati alcuni programmi, per esempio software per il controllo della neve o radiazione globale, sviluppati in-house. Durante l'applicazione di questi software, che si basa su algoritmi spaziali e statistici, sono stati individuati, "flaggati" e automaticamente o manualmente corretti tanti "otulier" e errori. Un algoritmo sviluppato nell'arco di questo progetto adesso è adesso un componente fisso nel controllo dei dati dello ZAMG.

 

 

Le difficolta più frequenti nel controllo dei dati sono dovuti a:

 

  • Digitalizzazione di vecchie serie climatiche a causa di errori nell'input dei dati
  • serie storiche disomogenee, per il cambiamento della posizione della stazione, p.e. alberi crescenti nei dintorni di un osservatorio meteorologico
  • guasti tecnici di sensori
  • anomalie sistematiche di sensori, a causa di condizioni ambientali, p.e. in inverno i sensori possono ghiacciare o essere coperti dalla neve, così che i dati sono mancanti fino a che la persona resposabile non verifica la stazione.

 

 

Per questo progetto sono state controllate complessivamente 1460 stazioni per il periodo dal 01.01.1981 fino al 31.12.2010. Soltanto per alcune stazioni di referimento, chiamate anche "stazioni chiave", sono stati verificati tutti i dati disponibili, per usarli poi nell'omogeneizzazione (vedi anche parte "omogeneizzazione dei dati").

In totale ~1,14% dei dati è stato considerato sospetto e ~1% dei dati (~584 millioni di valori) è stato corretto manualmente o automaticamente.

 

 

 

Fig.1: Record dati complessivo, dati sospetti (~1,14%), dati corretti (~1%)

 

 

Il diagramma sottostante mostra i parametri che sono stati corretti più frequentamente: precipitazione, temperatura minima, temperatura massima, temperatura media, neve, neve fresca e radiazione solare. Però attenione, non tutte le stazioni misuarno tutti i parametri.


Fig.2: Descrizione dei parametri: t: temperatura media giornaliera a 2m, t07/14/19: temperatura lle 07 MOZ/14 MOZ/19 MOZ, tmin: temperatura minima giornaliera a 2m, tmax: temperatura massima giornaliera a 2m,  tf: temperatura "umida" di bulbo bagnato, t5min: temperatura a 5cm sopra il suolo, rel: umidità relativa media giornaliera, rel07/14/19: umidità relativa a 07 MOZ/14 MOZ/19 MOZ, vap: vapore acqueo medio giornaliero, vap07/14/19: vapora acqueo alle 07 MOZ/14MOZ/19MOZ, p: pressione atmosferica alla stazione, clc: nuvolosità media giornaliera, glo: somma della radizione globale giornaliera, sund: ore di soleggiamento (0-24 MOZ),  rrr: precipitazioni (24h),  rrt: tipo di precipitazione,  snow: altezza neve totale, nsnow: altezza di neve fresca

 

 

La precipitazione è una delle sfide più grandi del controllo qualità dei dati che richiede molta esperienza nella correzione dei dati. Le precipitazioni si possono presentare come un fenomeno molto locale, come i temporali, o come un evento a grande scala che può durare per più giorni. Anche la topografia, specialmente il paesaggio montano con monti e vallate influenzano molto il processo di controllo dei dati e necessitano di tanta esperienza.

 

Alla fine i dati corretti e classificati sono stati utilizzati per i test di omogeneizzazione, per raffigurazioni cartografiche climatiche, così come per studi sulla variabiltà del clima e per analisi di valori estremi.

Joomla SEF URLs by Artio