Maschinelles Lernen im Kaggle-Wettbewerb

Kaggle – Ein Erfahrungsbericht. The Home of Data Science. So der selbstgewählte Titel der sich immer größerer Beliebtheit erfreuenden Website. Was sich dahinter verbirgt, sind ausgesuchte Herausforderungen auf dem Gebiet des maschinellen Lernens und der statistischen Datenanalyse, ein intellektuelles Kräftemessen mit Datenanalysten aus der gesamten Welt und, schafft man es unter die Besten drei, auch einer saftigen finanziellen Belohnung.
Kaggle bietet großen wie kleinen Firmen die Möglichkeit, ihre Daten in einem Wettbewerb den Analysten der Kaggle-Community zur Verfügung zu stellen. Diese werden auf eine bestimmte Frage hin untersucht, die Ergebnisse werden automatisch evaluiert und in eine Rangliste, das Leaderboard, eingetragen, so dass der Teilnehmer jederzeit sehen kann, wie er im Vergleich mit den Anderen sich gerade schlägt. Dabei finden sich unter Kaggles Kunden so bekannte Namen wie Facebook, Microsoft und General Electric.

Der Messi im Cube: „ProcessFull“ versus „ProcessUpdate“

Zwei der am häufigsten benutzten Verarbeitungs-Methoden von Dimensionen im Cube sind „ProcessFull“ und „ProcessUpdate“. Gerade letztere Methode wird dann benutzt, wenn der Cube mehrmals am Tag verarbeitet wird, weil z.B. verschiedene Datenquellen zu verschiedenen Zeitpunkte die Daten liefern. Während bei Benutzung von „ProcessFull“ eine Verarbeitung aller mit der Dimension verbundenen Measures notwendig ist, bleiben bei

Dem Wohlstand auf der Spur, Statistik sei Dank

Am letzten Wochenende ist mir ein Artikel des Hamburger Abendblatts (29./30. November, Seite 12, „Der Wohlstand lebt im Norden“) in die Hände gefallen. Kurzum, es wurden die durchschnittlichen Pro-Kopf-Einkommen in 2010 der Stadtteile Hamburgs in einer Kartengrafik sehr anschaulich dargestellt. Dennoch ließ es mich etwas stutzen.

Ich selbst wohne in Hamburg (Eimsbüttel), ich kenne eine ganze Menge Menschen hier. Besonders aufgefallen ist mir der Stadtteil Nienstedten – ein beschauliches Städtchen unweit der Elbe. Ohne Frage wohnt hier der „besser Verdienende“. Laut dem Abendblatt und dem „Statistischen Amt für Hamburg“ liegt hier das durchschnittliche Jahreseinkommen pro Steuerpflichtigem bei 138.941€. Das kommt mir ganz schön viel vor. Insbesondere auch im Vergleich zum bekannteren Stadtteil Eppendorf, wo das Jahreseinkommen bei 61.052€ liegen soll.

Gehaelter-Hamburg

Vorwärts immer, rückwärts nimmer?

Die Anzahl der Neuerungen der Integration Services 2014 gegenüber 2012 ist bekanntermaßen recht überschaubar: “SQL Server 2014 Integration Services is unchanged from the previous release” lautet es unter What’s New (Integration Services). Entsprechend einfach gestaltet sich auch das Upgrade eines mit SSIS 2012 entwickelten Pakets auf SSIS 2014 – dieses geschieht quasi automatisch beim Hinzufügen eines 2012er Pakets zu einem 2014er Projekt.

Doch was, wenn der Weg auch mal zurück führen muss, wenn ein „Paketdowngrade“ von 2014 auf 2012 gewünscht ist? Wie so oft hält sich Microsoft hier an den legendären Ausspruch Erich Honeckers: „Vorwärts immer, rückwärts nimmer. (Stürmischer Beifall)“ lautet es in den Protokollen zu den Festansprachen zum 40. Jahrestag der DDR. Ein echtes Paketdowngrade wird von Hause aus nicht angeboten, ist aber über Umwege realisierbar!

DPD – neue Freiheit für den Kunden

In diesen Tagen startet die erste DPD-Kampagne aus der Feder von Kolle Rebbe. Alles dreht sich um das Thema „Freiheit“, denn mit dem neuen Service namens Predict gewinnen DPD-Kunden ein Stück Freiheit zurück. Ganz konkret: Dem Empfänger wird ein Zeitfenster von einer Stunde genannt, in der sein Paket zugestellt wird.

Pakete automatisiert aus dem SSIS Catalog extrahieren

Mit dem neuen Projektdeploymentmodell der Integration Services 2012, werden bei einem Deployment Projekte statt einzelner Pakete bereitgestellt. Diese landen dann auch nicht mehr wie beim Paketdeploymentmodell in der MSDB, sondern die SSIS Projekte (und damit auch deren Pakete) sind über eine separate Datenbank, dem SSIS Catalog (oder auch SSIDB genannt), erreichbar. Von dort können mittels gespeicherter Prozeduren neue Paketausführungen gestartet werden, was aber wenn man ein einzelnes Paket aus der SSISDB extrahieren möchte, beispielsweise um dieses zu analysieren oder separat zu speichern?

PDW lässt Datenschaufler lächeln

BigData ist in aller Munde, aber tatsächlich rockt das PDW. Microsofts Parallel Datawarehouse, kurz PDW, ist ein riesiges, unglaublich schnelles Datenloch.

Wir sind ja durchaus große Serverinfrastrukturen gewohnt. Aber seit wir in unseren Projekten mit dem PDW zu tun haben, sieht man unsere ETLer (das sind diejenigen, die die Daten in das PDW schaufeln) mit einem kaum zu unterbindenden Grinsen im Gesicht herumlaufen.

pdw-geht-viel-rein

Darstellung von Diagrammen im Report Viewer Webpart beim Zoomen

Nach dem Einspielen des Microsoft SQL Server 2008R2 Reporting Services-Add-In für Microsoft SharePoint rsSharePoint.msi (Version: 10.50.4000.0, vom: 27.07.2012, Download-URL: http://www.microsoft.com/de-de/download/details.aspx?id=622) kommt es zu Anzeigefehlern bei der Darstellung von Diagrammen im Report Viewer Webpart beim Zoomen ungleich 100% (Abbildung 2, Abbildung 3) im SharePoint Report Viewer Web Part.