Inhaltsbereich

Datenaufbereitung

Im Data Warehouse von MeteoSchweiz werden Messdaten für die Anwender aufbereitet und laufend systematisch überprüft. Messlücken werden gefüllt, zusätzliche Grössen berechnet und Korrekturen vorgenommen. Diese Qualitätsprüfung läuft in verschiedenen Schritten ab.

Fussbereich

Top Bar Navigation

Alle Schweizer BundesbehördenAlle Schweizer Bundesbehörden

Im Data Warehouse (DWH) von MeteoSchweiz werden alle Messdaten zusammengeführt, für die Anwender aufbereitet und in einheitlicher Form langfristig gespeichert. Der Aufbereitungsprozess beinhaltet u.a. die Aggregierung und Berechnung meteorologischer Grössen, die Qualitätskontrolle bestehend aus einer Vollständigkeits- und Plausibilitätsprüfung sowie die Homogenisierung langer Reihen mit dem Ziel für die Datennutzer verlässliche Messreihen zur Verfügung zu stellen.

Aggregierung und Berechnung

Unter Aggregierung wird das Bestimmen einer Zeitreihe mit niedrigerer Frequenz als die Ausgangsdatenreihe verstanden. Für die Aggregierung werden Funktionen wie Mittel-, Summenbildung oder Extremwertsuche verwendet. Bei der zeitlichen Aggregierung werden beispielsweise Messwerte, die alle zehn Minuten erfasst werden, zu Stunden-, Tages-, Monats- und Jahreswerte aggregiert. Bei der räumlichen Aggregierung werden für ein definiertes Gebiet die Werte aus den darin liegenden Messstationen einbezogen und ein Gebietswert bestimmt.

Unter Berechnung wird das Bestimmen einer abgeleiteten Grösse in der Frequenz der Ausgangsdaten verstanden. Für die Berechnung werden u.a. Funktionen für Druckreduktion, Differenzbildung, Bestimmung eines Verhältnisses oder Einheitenumrechnungen verwendet. Abgeleitete Grössen sind beispielsweise Luftdruck reduziert auf Meereshöhe, Föhnindex oder Wind in kn oder km/h.

Vollständigkeitsprüfung

Bei der Vollständigkeitsprüfung werden Messlücken detektiert. Kürzere zeitliche Lücken (bis 1h/6h) an einer Station werden mit einem Interpolationsverfahren auf Zehnminutenbasis automatisch gefüllt. Die zulässige Lückenlänge hängt dabei von der Messgrösse ab. Im Gegensatz zum Niederschlag können etwa beim Luftdruck längere Lücken automatisch geschlossen werden, da der Luftdruck räumlich und zeitlich weniger variiert als der Niederschlag. Die automatisch ergänzten Werte erhalten eine Markierung, damit später nachvollziehbar bleibt, wie der Wert entstanden ist.

Grössere Lücken, die nicht automatisch interpoliert werden, können durch Kenntnis der Wettersituation und/oder anhand von Vergleichsstationen von Hand gefüllt werden. Dabei werden in der Regel Lücken bis 24h auf Zehnminutenbasis, Lücken > 1 Tag auf Tagesbasis und Lücken > 10 Tage auf Monatsbasis interpoliert. Auch die manuell interpolierten Lücken erhalten eine entsprechende Markierung.

Plausibilitätsprüfung

Bei der Plausibilitätsprüfung durchlaufen die Messwerte regelbasierte und modellbasierte Tests. Werte, die einen oder mehrere Tests verletzen, werden markiert und als unplausibel oder zweifelhaft eingestuft. Unplausible Werte werden automatisch aus der Datenreihe eliminiert und falls möglich automatisch interpoliert. Die als zweifelhaft markierten Messwerte werden Folgetags durch eine Fachperson beurteilt und gegebenenfalls manuell korrigiert oder bestätigt.

Regelbasierte Tests basieren auf logischen, mathematischen Regeln.

  • Harte Limitentests detektieren physikalisch unmögliche und damit unplausible Werte (z.B. Windgeschwindigkeit > 100 m/s).
  • Weiche Limitentests basieren auf stationsspezifischen Limiten und geben an, ob ein Wert klimatologisch zweifelhaft ist (z.B. Temperatur im Februar in Zürich > 25°).
  • Konsistenztests beinhalten Vergleiche mit redundanten Messungen, Vergleiche innerhalb des Messstandortes (z.B. eine Station meldet Niederschlag und gleichzeitig Sonnenschein) oder Vergleiche innerhalb der Messgrösse (z.B. mittlere Windgeschwindigkeit < Böenspitze).
  • Mit Variabilitätstests können beispielsweise eingefrorene Windgeber (z.B. Variabilität der Windgeschwindigkeit während 6 Stunden < 0.1 m/s) oder extreme Sprünge zwischen zwei Messwerten (Feuchtedifferenz zwischen zwei Zehnminutenwerten > 30%) detektiert werden.
  • Rekordwerttests schlagen an, wenn sich ein Messwert unter den fünf höchsten bzw. tiefsten je an einer Station gemessenen Messungen einreiht.

Modelbasierte Tests

Diese Tests basieren auf statistischen Modellen, welche mit Hilfe der manuell bearbeiteten Datensätze trainiert werden und sowohl historische als auch aktuelle Daten oder prädiktive Vergleichsgrössen sowie Metadaten (z.B. Stationshöhe) einbeziehen können.

Homogenisierung

Für ausgesuchte und sehr bedeutende Messreihen wird Monate bis Jahre nach der Messung eine Homogenisierung durchgeführt. Bei der Homogenisierung werden aus den Messreihen systematische Messfehler und Datensprünge, welche durch Stationsverschiebungen, Messgerätfehler oder Messgerätwechsel entstehen können, herausgerechnet und korrigiert. Homogenisierte Daten weisen das höchste Qualitätsniveau auf.