SQLRally Amsterdam, dag 1

Vandaag en morgen vind in De Meervaart in Amsterdam de eerste Nederlandse SQLRally plaats. SQLRally is een event dat onder auspiciën van de PASS organisatie al enige tijd in Scandinavie wordt georganiseerd (eerder deze week vond het event in Stockholm plaats) en dit jaar voor het eerst in Nederland. En zo verzamelden zich vandaag ongeveer 200 SQL Server collega’s in Amsterdam. De organisatie heeft enorm haar best gedaan een breed scala aan gerenommeerde internationale sprekers op het podium te zetten, zoals Alberto Ferrari, Brent Ozar, Andreas Wolter, Jen Stirrup en nog heel veel anderen. O ja, mezelf niet te vergeten… Als ik van al die sprekers de vandaag meest inspirerende zou moeten kiezen, is dat de keynote spreker Rafal Lukawiecki. Naast zijn keynote over analytics in de cloud, ben ik vanmiddag nog naar een sessie van hem geweest over data mining. Wat mij daarin vooral trok, was de titel: “Predictive Analytics with Microsoft SQL Server Data Mining and R”. En dan vooral die laatste letter…

Ik hoor de laatste tijd wel vaker iets over R, ik wist al dat het iets met data mining te maken had, maar wat precies? Tijd voor een update. R is een taal (R-code) en een omgeving voor statistische analyse en visualisatie, geheel gratis en open source. Om met R te werken, kun je het beste gebruik maken van RStudio, een eveneens gratis en open source IDE, zeg maar Visual Studio voor R. De kracht van R zit hem in de open source community die actief zogenaamde packages ontwikkelt voor R, vergelijkbaar met custom assemblies, die je tegen R ‘aanplakt’ en die allerlei extra statistische of visualisatie functionaliteit beschikbaar stelt. Er zijn al meer dan 5.000 van deze packages te vinden. Een voorbeeld van zo’n package is er bijv. één die decision tree functionaliteit toevoegt. De packages zorgen ervoor dat R een data mining omgeving zonder grenzen is, waar je bij commerciële producten beperkt wordt door wat de leverancier je biedt.

Een demo van R geeft mij in eerste instantie de indruk dat je goed moet kunnen typen en goed moet weten wat er allemaal kan en beschikbaar is. Je programmeert namelijk in R-code in een soort command line interface zonder intellisense. RStudio heeft vervolgens vensters om geladen data te bekijken, in tabel- of grafische vorm. En dankzij de uitbreidbaarheid, zitten daar bijzonder mooie visualisaties bij. In een mum van tijd toont Rafal bijvoorbeeld aan dat de prijsinformatie in AdventureWorks compleet onzinnig is. Wanneer hij zinvolle prijsinformatie inlaadt uit een CSV-bestand, tovert hij in notime een hele duidelijke grafiek te voorschijn die de prijsontwikkeling van een product laat zien en de banden waarbinnen die prijzen zich begeven. Indrukwekkend, maar zoals gezegd, het komt op mij niet heel eenvoudig over. Een drempel dus, maar ook daar is iets voor in deze open source wereld: Rattle, een grafische user interface bovenop R die je op zijn minst moet helpen die drempel te overwinnen. Je hebt misschien niet de volledige mogelijkheden van R, maar wat je kunt, kan in ieder geval makkelijk(er).

Naast R, laat Rafal in deze presentatie ook SQL Server data mining zien. Hij legt uit dat hij R vooral initieel gebruikt om snel data te analyseren en te visualiseren en te zien wat de kwaliteit ervan is (zoals hij demonstreert met de prijsinformatie in AdventureWorks). Maar daarnaast is hij ook fan van SQL Server data mining, volgens hem krachtig, eenvoudig en met veel analytische visualisaties uit de doos. En niet te vergeten: goedkoop. Want om nou meteen 100k per gebruiker te betalen voor SAS Enterprise Miner

Mocht je geinteresseerd zijn geraakt in R, kijk dan eens op de website cran.r-project.org. Hier vind je de laatste downloads en meer informatie. Er is overigens ook een bedrijf die een commercieel product met ondersteuning aanbied bovenop R: Revolution Analytics.