Snowflake – Das Data Warehouse für die Cloud

Ein System, das für sich in Anspruch nimmt, als komplettes SQL Data Warehouse speziell für die Anforderungen und Möglichkeiten der Cloud entwickelt worden zu sein. Ein riesiger Vorteil in der Welt von „Multi-Clouds“ ist, dass Snowflake sowohl im Amazon Web Services-Universum als auch in der Microsoft Azure Umgebung genutzt werden kann!All diese Entwicklungen versprechen vor allem bei den Kosten und der Performance, aber auch bei der Funktionalität Vorteile gegenüber klassischen Ansätzen.

Blick zurück im Zorn

BI-Projekte sind dynamisch. Wenn man jetzt schon wüsste, welche Anforderungen in zwei Jahren kommen, würde man höchstwahrscheinlich anders modellieren als mit dem aktuellen Wissensstand. Wir sind aber alle keine Hellseher und deswegen ist es müßig, im Nachhinein immer sich zu sagen: „Hätte ich damals gewusst…“.

Kumulation (YTD) in SQL

Ich hatte neulich die Herausforderung, in SQL Zahlen kumulieren zu müssen. Im Netz kursieren dazu viele verschiedene Ansätze, von denen die meisten aber nicht besonders elegant bzw. performant bei großen Zahlenmengen sind. Auch muss sichergestellt sein, dass z.B. bei fehlenden Perioden in der Ursprungstabelle trotzdem ein YTD-Wert angezeigt wird. D.h. wenn z.B. für Januar, Februar und April Werte vorliegen (März ist leer), dann muss der YTD-Wert trotzdem fortgeschrieben werden, sodass dann der Märzwert gleich dem Februarwert ist.

Maschinelles Lernen im Kaggle-Wettbewerb

Kaggle – Ein Erfahrungsbericht. The Home of Data Science. So der selbstgewählte Titel der sich immer größerer Beliebtheit erfreuenden Website. Was sich dahinter verbirgt, sind ausgesuchte Herausforderungen auf dem Gebiet des maschinellen Lernens und der statistischen Datenanalyse, ein intellektuelles Kräftemessen mit Datenanalysten aus der gesamten Welt und, schafft man es unter die Besten drei, auch…

Der Messi im Cube: „ProcessFull“ versus „ProcessUpdate“

Zwei der am häufigsten benutzten Verarbeitungs-Methoden von Dimensionen im Cube sind „ProcessFull“ und „ProcessUpdate“. Gerade letztere Methode wird dann benutzt, wenn der Cube mehrmals am Tag verarbeitet wird, weil z.B. verschiedene Datenquellen zu verschiedenen Zeitpunkte die Daten liefern. Während bei Benutzung von „ProcessFull“ eine Verarbeitung aller mit der Dimension verbundenen Measures notwendig ist, bleiben bei…