Ein Forschungs- und Forecasting-Laboratorium für den deutschen Strommarkt — wir übersetzen Wetter, Netzlast und Einspeisedaten in präzise Preisprognosen.
Unsere Pipeline verbindet ICON-D2-Wetterfelder, ENTSO-E-Transparenzdaten, SMARD-Marktstatistiken und das Marktstammdatenregister zu einem konsistenten 15-Minuten-Datensatz für den DA-Preis DE-LU. Das hier gezeigte Dossier dokumentiert die physikalische Ertragsrechnung für Photovoltaik im Q1 2026 — inklusive einer Hypothese über unbemerkte Klein-PV.
DA-Preis DE-LU. Der Day-Ahead-Preis der deutsch-luxemburgischen Gebotszone ist das Nadelöhr der Energiewende: er koppelt Wettergeschehen, konventionelle Verfügbarkeiten, Nachbarzonen und regulatorische Eingriffe in einen einzigen, viertelstundengenauen EUR/MWh-Zeitreihenwert.
Unsere Zielvariable smard_preis_de_lu besitzt 62 Eingabefeatures
aus vier unabhängigen Datenquellen — 31 weitere wurden
aus Gründen der Data-Leakage-Hygiene ausgeschlossen.
Das verwendete Train/Val/Test-Schema folgt strikt der Zeitachse: Training Jan–Okt 2025 (59,9k Zeilen), Validierung Nov–Dez 2025 (12,1k), Test Jan–Apr 2026 (21,1k). Kein Mischen — keine Preisinformationen fließen aus der Zukunft in die Vergangenheit.
Die hier gezeigten Analysen dienen der Qualitätssicherung des PV-Ertragsmodells, das als feature in die Preisprognose eingeht. Ein schlechtes PV-Signal erzeugt einen schlechten Preis.
Regional-Wettermodell des DWD, stündlich 40 Vorhersageschritte. 751 NetCDF-Files werden in einem 128×128-Zellenraster über Deutschland zu PV- und Wind-Erträgen aggregiert.
45+ Marktfeatures: Last, Residuallast, Day-Ahead-Preise, Forecast-Fehler, Lags (1/4/96), Rolling-Statistiken und Nachbarzonenpreise.
125 Spalten Markttransparenz. Erzeugung je Technologie, Verbrauch, Prognose-Qualität und Residuallast in CET/CEST — konvertiert auf gemeinsame UTC-Zeitachse.
Marktstammdatenregister als Kapazitäts-Layer: 10.640 PV-Zellen mit 130,8 GW, 3.841 Wind-Zellen mit 78,2 GW. Neigung, Azimut, Nabenhöhe, Anlagentyp sind je Zelle bekannt.
Spatial- und National-Join auf timestamp_utc, anschließend
ML-ready Parquet mit temporalem Split. 62 Features, 1
Zielvariable, 93k Beobachtungen.
Der Tagesgang des physikalischen Modells folgt SMARD fast perfekt. Der Offset von +1,2 GW wirkt additiv, nicht proportional zur Einstrahlung — ein Indikator für Kapazitäts- oder Ausrichtungs-Kalibrierung.
Die Delta-Variation zwischen sonnigen und trüben Tagen beträgt nur 0,45 GW. Wären unbemerkte Kleinanlagen dominant, müsste dieser Wert deutlich größer sein — das Phänomen existiert, erklärt aber nicht alles.
ENTSO-E-Last und SMARD-Verbrauch verlaufen nahezu deckungsgleich. Wäre Eigenverbrauch durch Klein-PV das dominante Phänomen, müsste ENTSO-E mittags deutlich unter SMARD liegen — der Gap bleibt subtil.
| Zielvariable | smard_preis_de_lu_DE-LU — EUR/MWh, 15-min UTC |
|---|---|
| Features | 62 ausgewählt aus 93 Spalten (31 excl. wegen Leakage) |
| Abdeckung | Jan 2025 – Apr 2026 — 93.092 Viertelstunden |
| Raster | 128 × 128 Zellen — 47,27–55,06 °N · 5,87–15,04 °E |
| PV-Kapazität | 130,8 GW — 10.640 aktive Rasterzellen (MaStR) |
| Wind-Kapazität | 78,2 GW — 3.841 Zellen, On- + Offshore |
| Wetter | ICON-D2 NetCDF — 751 Files · 236 GB · Hetzner SSHFS |
| Sprache / Stack | Python 3.12 — pandas · xarray · scikit-learn · LightGBM |
| Repo | 7-stufige Pipeline — capacity → entsoe → smard → yield → join → ml |
Gridpulseanalytic ist offen dokumentiert — jede Zahl hat eine Herkunft, jede Kurve eine Pipeline.
Das Projekt untersucht, wie weit sich die Black-Box-Prognosen kommerzieller Anbieter durch eine physik-informierte, öffentlich nachvollziehbare Feature-Konstruktion ersetzen lassen. Die vorgestellten Visualisierungen entstehen aus demselben Datensatz, der in das ML-Modell fließt — kein separater Auswertungsast, keine kosmetischen Transformationen.
Kommende Arbeitspakete: Kalibrierung der PV-Orientierung (fix_orientation_bias), MOS-Korrektur der Solareinstrahlung (mos_solar), Wind-Alpha-Shift Stufe 2 und die Erweiterung des Testfensters auf Q2 2026.