Im Data Warehouse (DWH) von MeteoSchweiz werden alle Messdaten zusammengeführt, für die Anwender aufbereitet und in einheitlicher Form langfristig gespeichert. Der Aufbereitungsprozess beinhaltet u.a. die Aggregierung und Berechnung meteorologischer Grössen, die Qualitätskontrolle bestehend aus einer Vollständigkeits- und Plausibilitätsprüfung sowie die Homogenisierung langer Reihen mit dem Ziel für die Datennutzer verlässliche Messreihen zur Verfügung zu stellen.
Unter Aggregierung wird das Bestimmen einer Zeitreihe mit niedrigerer Frequenz als die Ausgangsdatenreihe verstanden. Für die Aggregierung werden Funktionen wie Mittel-, Summenbildung oder Extremwertsuche verwendet. Bei der zeitlichen Aggregierung werden beispielsweise Messwerte, die alle zehn Minuten erfasst werden, zu Stunden-, Tages-, Monats- und Jahreswerte aggregiert. Bei der räumlichen Aggregierung werden für ein definiertes Gebiet die Werte aus den darin liegenden Messstationen einbezogen und ein Gebietswert bestimmt.
Stunden- und Tageswerte werden aus den 10-Minuten Werten gerechnet.
Monatswerte werden aus den Tageswerten gerechnet.
Jahreswerte werden aus den Monatswerten gerechnet.
Stundenwerte (h-1):50 bis (h):40 (Bsp. Stundenwert von 14 UTC: 13:50 bis 14.40)
Tageswert aktueller Tag: 23:50 Vortag bis 23:40 aktueller Tag
Stundenwerte von (h-1):10 bis (h):00 (Bsp. Stundenwert von 14 UTC: 13:10 bis 14:00)
Tageswert aktueller Tag: 00:10 aktueller Tag bis 00:00 Folgetag
Unter Berechnung wird das Bestimmen einer abgeleiteten Grösse in der Frequenz der Ausgangsdaten verstanden. Für die Berechnung werden u.a. Funktionen für Druckreduktion, Differenzbildung, Bestimmung eines Verhältnisses oder Einheitenumrechnungen verwendet. Abgeleitete Grössen sind beispielsweise Luftdruck reduziert auf Meereshöhe, Föhnindex oder Wind in kn oder km/h.
Bei der Vollständigkeitsprüfung werden Messlücken detektiert. Kürzere zeitliche Lücken (bis 1h/6h) an einer Station werden mit einem Interpolationsverfahren auf Zehnminutenbasis automatisch gefüllt. Die zulässige Lückenlänge hängt dabei von der Messgrösse ab. Im Gegensatz zum Niederschlag können etwa beim Luftdruck längere Lücken automatisch geschlossen werden, da der Luftdruck räumlich und zeitlich weniger variiert als der Niederschlag. Die automatisch ergänzten Werte erhalten eine Markierung (Mutationsinformation), damit später nachvollziehbar bleibt, wie der Wert entstanden ist.
Grössere Lücken, die nicht automatisch interpoliert werden, können durch Kenntnis der Wettersituation und/oder anhand von Vergleichsstationen von Hand gefüllt werden. Dabei werden in der Regel Lücken bis 24h auf Zehnminutenbasis, Lücken > 1 Tag auf Tagesbasis und Lücken > 10 Tage auf Monatsbasis interpoliert. Auch die manuell interpolierten Lücken erhalten eine entsprechende Markierung.
Bei der Plausibilitätsprüfung durchlaufen die Messwerte regelbasierte und modellbasierte Tests. Werte, die einen oder mehrere Tests verletzen, werden markiert und als unplausibel oder zweifelhaft eingestuft. Unplausible Werte werden automatisch aus der Datenreihe eliminiert und falls möglich automatisch interpoliert. Die als zweifelhaft markierten Messwerte werden Folgetags durch eine Fachperson beurteilt und gegebenenfalls manuell korrigiert oder bestätigt (siehe manuelle Bearbeitung).
Diese Tests basieren auf statistischen Modellen, welche mit Hilfe der manuell bearbeiteten Datensätze trainiert werden und sowohl historische als auch aktuelle Daten oder prädiktive Vergleichsgrössen sowie Metadaten (z.B. Stationshöhe) einbeziehen können.
Bei den voll ausgerüsteten Stationen werden aktuell folgende Parameter manuell bearbeitet:
Bei den manuellen Stationen werden aktuell folgende Parameter bearbeitet:
Historisch wurden die Daten folgendermassen manuell bearbeitet:
Für ausgesuchte und sehr bedeutende Messreihen wird Monate bis Jahre nach der Messung eine Homogenisierung durchgeführt. Bei der Homogenisierung werden aus den Messreihen systematische Messfehler und Datensprünge, welche durch Stationsverschiebungen, Messgerätfehler oder Messgerätwechsel entstehen können, herausgerechnet und korrigiert. Homogenisierte Daten weisen das höchste Qualitätsniveau auf.