Machine Learning

Machine Learning is de wetenschappelijke discipline die zich bezighoudt met het ontwikkelen van algoritmes waarmee computers kunnen leren en redeneren. Dit is mogelijk op basis van data, domeinkennis of een combinatie van beide. Op het gebied van Machine Learning zijn er verschillende mogelijkheden. De totstandkoming van het model is afhankelijk van het probleemtype, de beschikbare data en eventueel aanwezige domeinkennis. We onderscheiden grofweg de volgende twee soorten problemen: voorspellingsproblemen en redeneerproblemen.


Voorspellingsproblemen

Voorspellingsproblemen zijn van de vorm een gegeven de input, wat is de output?. Wanneer we spreken over een voorspellingsprobleem, moeten we op basis van input een output voorspellen. De output wordt voorspeld op basis van een model dat ontstaan is aan de hand van input en output uit het verleden. Ter illustratie van een voorspellingsprobleem een voorbeeld: het voorspellen van beurskoersen.

We beschikken over de data uit het verleden (input) maar kunnen zonder wiskundige modellen geen uitspraken doen over de beursstanden van morgen (output). De input bestaat in dit geval uit de beursstanden in combinatie met het weer en de actualiteiten van de afgelopen jaren. Door de aanwezige input te analyseren kunnen er patronen ontdekt worden in de data, bijvoorbeeld: het weer en files hebben invloed op de beursstanden. Op basis van de ontdekte relaties tussen de variabelen ontwikkelt Big4Data een wiskundig model. Het wiskundige model wordt vervolgens vertaald naar een praktische toepassing die beursstanden met een grotere mate van zekerheid kan voorspellen. Wanneer we spreken over een voorspellingsprobleem proberen we onderliggende mechanismen van een bepaald verschijnsel op te sporen. Met als gevolg dat in de toekomst betere voorspellingen gedaan kunnen worden. Voorspellingsproblemen bestaan niet alleen in het geval van beurskoersen. Er kan ook gedacht worden aan het voorspellen van consumentengedrag of natuurverschijnselen.

voorspellings_methodiek_visual

Redeneerproblemen

Redeneerproblemen zijn problemen van de vorm: ˜Gegeven de output, wat is de mogelijke input?. Bij redeneerproblemen is de output duidelijk en moet er op basis van data achterhaald worden wat de oorzaken kunnen zijn voor de output. We illustreren een redeneerprobleem aan de hand van het stellen van een medische diagnose op basis van een computersysteem.

De input voor het model wordt gevormd door data die in het verleden verzameld zijn (klachten in combinatie met diagnoses) en domeinkennis. Er bestaan verbanden tussen bepaalde symptomen en diagnoses. Deze worden in een model gevat dat vervolgens wordt vertaald naar een praktische toepassing. In het geval van een redeneerprobleem is de output bekend; de patiënt heeft koorts, een pijnlijke keel en maagklachten. De arts voert enkele tests uit en voert de symptomen in het programma in. Vervolgens redeneert het programma naar een diagnose. Het systeem is in het bijzonder geschikt om mogelijke alternatieven aan te dragen die een arts mogelijk over het hoofd zou kunnen zien. Een arts stelt in het geval van de symptomen misschien vast dat de patiënt griep heeft. Het systeem laat vervolgens zien dat er ook een mogelijkheid bestaat dat de patiënt is gebeten door een teek omdat deze symptomen ook onderdeel uitmaken van de ziekte van Lyme. Bovendien kan het redenerend systeem additionele testen suggereren die deze diagnose kunnen versterken dan wel verwerpen. Redeneerproblemen bestaan niet alleen in het geval van medische diagnostiek, hierbij kan ook gedacht worden aan het systeem dat Big4Data ontwikkelde voor Shell of voor het NFI.

redenerings_methodiek_visual

Bayesiaanse Netwerken

Veel redeneermodellen die Big4Data bouwt, zijn gebaseerd op de Bayesiaanse netwerk technologie. Een Bayesiaans netwerk is een datastructuur die gebruikt wordt om kansverdelingen te modelleren. Zo´n netwerk kan gezien worden als een schema waarin gebeurtenissen en de relaties daartussen beschreven worden.

Bayesiaanse netwerken zijn modellen waarin kansrekening wordt toegepast om met onzekerheden om te gaan. Deze onzekerheid wordt doorgaans veroorzaakt door incomplete data of incomplete kennis. De mate van zekerheid/onzekerheid wordt uitgelegd aan de hand van het stellen van een medische diagnose (het voorbeeld dat eerder aangehaald werd bij het redeneerprobleem). Er bestaan duizenden tests om een diagnose te stellen, maar het is onmogelijk om een patiënt aan duizenden medische tests te onderwerpen. De diagnose wordt gesteld op basis van de output van de meeste voor de hand liggende tests. De mate van onzekerheid wordt veroorzaakt door het ontbreken van de uitkomsten van de overige tests, vormt voor een kansrekening geen problemen.