Maschinelles Lernen im Kaggle-Wettbewerb

Kaggle – Ein Erfahrungsbericht. The Home of Data Science. So der selbstgewählte Titel der sich immer größerer Beliebtheit erfreuenden Website. Was sich dahinter verbirgt, sind ausgesuchte Herausforderungen auf dem Gebiet des maschinellen Lernens und der statistischen Datenanalyse, ein intellektuelles Kräftemessen mit Datenanalysten aus der gesamten Welt und, schafft man es unter die Besten drei, auch einer saftigen finanziellen Belohnung.
Kaggle bietet großen wie kleinen Firmen die Möglichkeit, ihre Daten in einem Wettbewerb den Analysten der Kaggle-Community zur Verfügung zu stellen. Diese werden auf eine bestimmte Frage hin untersucht, die Ergebnisse werden automatisch evaluiert und in eine Rangliste, das Leaderboard, eingetragen, so dass der Teilnehmer jederzeit sehen kann, wie er im Vergleich mit den Anderen sich gerade schlägt. Dabei finden sich unter Kaggles Kunden so bekannte Namen wie Facebook, Microsoft und General Electric.

Der Messi im Cube: „ProcessFull“ versus „ProcessUpdate“

Zwei der am häufigsten benutzten Verarbeitungs-Methoden von Dimensionen im Cube sind „ProcessFull“ und „ProcessUpdate“. Gerade letztere Methode wird dann benutzt, wenn der Cube mehrmals am Tag verarbeitet wird, weil z.B. verschiedene Datenquellen zu verschiedenen Zeitpunkte die Daten liefern. Während bei Benutzung von „ProcessFull“ eine Verarbeitung aller mit der Dimension verbundenen Measures notwendig ist, bleiben bei…

Dem Wohlstand auf der Spur, Statistik sei Dank

Am letzten Wochenende ist mir ein Artikel des Hamburger Abendblatts (29./30. November, Seite 12, „Der Wohlstand lebt im Norden“) in die Hände gefallen. Kurzum, es wurden die durchschnittlichen Pro-Kopf-Einkommen in 2010 der Stadtteile Hamburgs in einer Kartengrafik sehr anschaulich dargestellt. Dennoch ließ es mich etwas stutzen.

Ich selbst wohne in Hamburg (Eimsbüttel), ich kenne eine ganze Menge Menschen hier. Besonders aufgefallen ist mir der Stadtteil Nienstedten – ein beschauliches Städtchen unweit der Elbe. Ohne Frage wohnt hier der „besser Verdienende“. Laut dem Abendblatt und dem „Statistischen Amt für Hamburg“ liegt hier das durchschnittliche Jahreseinkommen pro Steuerpflichtigem bei 138.941€. Das kommt mir ganz schön viel vor. Insbesondere auch im Vergleich zum bekannteren Stadtteil Eppendorf, wo das Jahreseinkommen bei 61.052€ liegen soll.

Gehaelter-Hamburg

Vorwärts immer, rückwärts nimmer?

Die Anzahl der Neuerungen der Integration Services 2014 gegenüber 2012 ist bekanntermaßen recht überschaubar: “SQL Server 2014 Integration Services is unchanged from the previous release” lautet es unter What’s New (Integration Services). Entsprechend einfach gestaltet sich auch das Upgrade eines mit SSIS 2012 entwickelten Pakets auf SSIS 2014 – dieses geschieht quasi automatisch beim Hinzufügen eines 2012er Pakets zu einem 2014er Projekt.

Doch was, wenn der Weg auch mal zurück führen muss, wenn ein „Paketdowngrade“ von 2014 auf 2012 gewünscht ist? Wie so oft hält sich Microsoft hier an den legendären Ausspruch Erich Honeckers: „Vorwärts immer, rückwärts nimmer. (Stürmischer Beifall)“ lautet es in den Protokollen zu den Festansprachen zum 40. Jahrestag der DDR. Ein echtes Paketdowngrade wird von Hause aus nicht angeboten, ist aber über Umwege realisierbar!

Pakete automatisiert aus dem SSIS Catalog extrahieren

Mit dem neuen Projektdeploymentmodell der Integration Services 2012, werden bei einem Deployment Projekte statt einzelner Pakete bereitgestellt. Diese landen dann auch nicht mehr wie beim Paketdeploymentmodell in der MSDB, sondern die SSIS Projekte (und damit auch deren Pakete) sind über eine separate Datenbank, dem SSIS Catalog (oder auch SSIDB genannt), erreichbar. Von dort können mittels gespeicherter Prozeduren neue Paketausführungen gestartet werden, was aber wenn man ein einzelnes Paket aus der SSISDB extrahieren möchte, beispielsweise um dieses zu analysieren oder separat zu speichern?

PDW lässt Datenschaufler lächeln

BigData ist in aller Munde, aber tatsächlich rockt das PDW. Microsofts Parallel Datawarehouse, kurz PDW, ist ein riesiges, unglaublich schnelles Datenloch.

Wir sind ja durchaus große Serverinfrastrukturen gewohnt. Aber seit wir in unseren Projekten mit dem PDW zu tun haben, sieht man unsere ETLer (das sind diejenigen, die die Daten in das PDW schaufeln) mit einem kaum zu unterbindenden Grinsen im Gesicht herumlaufen.

pdw-geht-viel-rein

Darstellungsproblem von Diagrammen im SharePoint Report Viewer Web Part bei Zoomstufen ungleich 100%

Nach dem Einspielen des Microsoft SQL Server 2008R2 Reporting Services-Add-In für Microsoft SharePoint rsSharePoint.msi (Version: 10.50.4000.0, vom: 27.07.2012, Download-URL: http://www.microsoft.com/de-de/download/details.aspx?id=622) kommt es zu Anzeigefehlern bei der Diagrammdarstellung und Zoomstufen ungleich 100% (Abbildung 2, Abbildung 3) im SharePoint Report Viewer Web Part.

Logistik wird teurer – knallhartes Business oder unnötiger Aufschrei?

Globalisierung ist unumkehrbar – das bestätigen zumindest branchenübergreifend die von der Bundesvereinigung für Logistik (BVL) befragten Unternehmen im Hinblick auf das Jahr 2015. Ob bewusst wahrgenommen oder einfach nur erlebt, die Globalisierung ist der Megatrend in der Logistik, von dem sich bis 2015 78% der Industrieunternehmen und 65% der Handelsunternehmen unmittelbar beeinflusst sehen. Wer seine Logistikkosten zukünftig im Griff behalten möchte und dem sich abzeichnenden Trend nachhaltig entgegenwirken möchte , sollte rechtzeitig auf die Nutzung von Business Intelligence-Lösungen setzen.

Integration Services Fehler -1073741819

Neulich bin ich bei einem Kunden (SQL Server 2008 SP2) auf einen scheinbar nicht erklärbaren Fehler gestoßen.
Im Log des SQL Server Agents fand sich beim Versuch ein ETL-Paket auszuführen folgende Fehlermeldung:

Executed as user: DOMAINsqluser. The step did not generate any output.
The return value was unknown. The process exit code was -1073741819. The step failed.