De filosofie van het leren

De filosofie van het leren

n de zomer van 1956 kwam een aantal wetenschappers bijeen op het Dartmouth College in Hanover, New Hampshire. Hun doelstelling was het bestuderen van menselijke intelligentie met behulp van computers. De centrale hypothese luidde als volgt: ‘(…) that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.’ Op die conferentie, waar onder meer John McCarthy, Claude Shannon en Marvin Minsky aanwezig waren, werd de nieuwe discipline artificiële intelligentie (AI) geboren. Het is opvallend dat leren kennelijk al direct als een van de interessantste aspecten van menselijke intelligentie werd gezien. Een beter begrip van het fenomeen ‘leren’ stond vanaf het begin hoog op de agenda van de jonge wetenschap. 

Nu, vijftig jaar later, is de studie van het leren een van de succesnummers van de artificiële intelligentie. Er is een veelheid aan leertechnieken op de computer ontwikkeld. Datamining-technieken worden gebruikt voor marketing, voorraadbeheer, productieoptimalisatie en fraudedetectie in het bedrijfsleven. Biologisch geïnspireerde leermodellen zoals neurale netwerken en genetische algoritmen worden gebruikt om menselijke cognitie en de evolutie te simuleren. In disciplines als computervision en computational linguistics staan leertechnieken in het centrum van de belangstelling. 

Veel reden om gezapig achterover te leunen hebben de onderzoekers echter niet, want er is nog een waslijst van vragen die om antwoorden schreeuwen. Een van de grootste verlegenheden is het feit dat we nog steeds niet precies begrijpen wat leren is. De gereedschapskist van de machineleerder lijkt op een bij elkaar geraapt zooitje tangen, beitels en sleutels van verschillende makelij. Voor sommige jobs zijn ze geschikt, maar we begrijpen niet exact waarom, voor andere werken ze niet en we begrijpen ook niet precies waarom. Eén ding is zeker. Er komt nooit een alomvattende theorie die definieert en verklaart wat leren exact is. 

In dit artikel wil ik geen overzicht geven van alle machineleertechnieken die er bestaan. Daar zijn goede boeken over (Mitchell, 1997; Adriaans en Zantinge, 1996; Cornuéjols en Miclet, 2002). Het is veel leuker om een aantal fundamentele vragen over leren de revue te laten passeren. Dan ontstaat vanzelf een beeld van de problemen. Inmiddels begint het duidelijk te worden dat met het avontuur van de artificiële intelligentie een probleemgebied aangeboord is dat veel bredere repercussies heeft dan alleen het creëren van intelligente computers. Er ontwikkelt zich een nieuw vakgebied, de filosofie van de informatica (Floridi, 2004; Adriaans en Van Benthem, nog te verschijnen), waarin de centrale vragen van de filosofie opnieuw worden geformuleerd vanuit de perspectieven van de moderne inzichten uit de informatica. 

In het onderstaande schets ik een aantal van die ontwikkelingen vanuit de optiek van het leren. Eerst laat ik zien dat de vraag naar de essentie van het leren verknoopt is met fundamentele vragen uit de kennistheorie. Daarbij blijkt het probleem van de efficiëntie van het leren centraal te staan. Vervolgens laat ik zien op welke wijze deze raadselachtige efficiëntie van het menselijk leren in beeld komt vanuit recente inzichten in de complexiteitstheorie. Leren kan beschreven worden als compressie van datasets. Daarbij blijkt, uit een diepe analyse van het idee dat het universum opgevat kan worden als een computationeel proces, dat de natuur noodzakelijkerwijs optreedt als een coöperatieve leraar. Dit is een filosofisch inzicht dat de betekenis van het vakgebied artificiële intelligentie overstijgt. Tegelijkertijd helpen deze inzichten ons betere algoritmen te ontwerpen voor problemen uit het dagelijks leven. Met behulp van deze inzichten leren we computers om virussen te classificeren, muziek te analyseren (Cilibrasi en Vitanyi, 2005) en taal te leren (Adriaans, 2001). 

Een ongemakkelijk huwelijk tussen leren en weten: participatie versus constructie

In de geschiedenis van de filosofie is heel lang impliciet nagedacht over het fenomeen leren omdat het natuurlijk samenhangt met kennis, maar pas sinds circa 1700 staat de problematiek van het leren mede door de werken van Locke en Hume expliciet op de filosofische agenda. Een theorie over leren heeft op zijn minst repercussies op drie gebieden: 

1) De kennistheorie: hoe komen we aan onze kennis? 
2) De cognitie: hoe zit ons brein in elkaar? 
3) De wetenschapsmethodologie: hoe construeren we wetenschappelijke kennis? 

Kennis en leren hebben altijd een wat ongemakkelijke verhouding gehad en je zou over dit thema een heel stel boeken kunnen schrijven. Een heldere kijk op de reikwijdte van het probleem krijgen we als we een simpele logica van leren en weten proberen te ontwikkelen. Er staan dan twee axioma’s ter beschikking: 

Axioma 1) Het primaat van het weten: alles wat ik heb geleerd weet ik. 
Axioma 2) Het primaat van het leren: alles wat ik weet heb ik geleerd. 

Het eerste axioma lijkt voor de hand te liggen. Leren zou geen echt leren zijn als het niet ook tot kennis leidt. Toch ligt daar een addertje onder het gras. Leren heeft een temporeel aspect. Als we iets leren maken we een transformatie door van niet weten naar weten. Bij het simpel leren van een eindig aantal feiten is dat relatief onproblematisch. Als iemand mij vertelt dat Amsterdam de hoofdstad van Nederland is en ik wist dat niet, dan heb ik er wat bij geleerd. Daarbij geldt dat ik erop vertrouw dat mijn zegsman de waarheid spreekt. Mijn leraar moet betrouwbaar zijn. Zelfs als dat laatste het geval is dan wordt de zaak toch fundamenteel complexer als ik probeer een oneindig aantal feiten te leren in eindige tijd. Het is filosofen sinds Hume duidelijk dat zoiets logischerwijs niet kan. Je kunt bijvoorbeeld op basis van een eindig aantal observaties nooit een algemene wet leren. Ook al heb ik miljoenen witte zwanen gezien, dan nog mag ik niet de conclusie trekken dat de stelling ‘alle zwanen zijn wit’ waar is. Ik hoef maar een zwarte zwaan te zien en mijn natuurwet kan de prullenbak in (Popper, 1952). 

De conclusie lijkt zonneklaar. Logisch gezien is het niet mogelijk om een oneindige verzameling te leren op basis van een eindig aantal observaties. Ofwel, het leren van feiten is mogelijk, het leren van algemene wetten niet. Dat zou echter het einde van de wetenschap betekenen. Filosofen die het eerste axioma impliciet onderschrijven, vegen het probleem van het leren dan ook allemaal indirect onder tafel: leren is eigenlijk een soort herinneren van wat je al weet (Plato), leren kan alleen als de kennis eigenlijk al aangeboren is (Descartes, Chomsky) en wiskundige research is het ontdekken van wat er al is (Hilbert, Gödel). Bij acceptatie van axioma 1 is wetenschappelijke kennis alleen mogelijk als je, wat ik noem, een participatietheorie van de waarheidaanhangt. De kennis van het menselijke subject groeit wel, maar niet door leren. Op de een of andere manier participeert de menselijke geest in de waarheid en die participatie stelt de mens in staat juiste van onjuiste resultaten te scheiden. Het is duidelijk dat deze theorie als filosofie van het leren minder bevredigend is. Het probleem wordt onder het gazon geschoffeld.

Dan axioma 2, het primaat van het leren. Eigenlijk verdwijnt daarbij het weten van het toneel. Geleerde resultaten zijn vaak voorlopig, ze kunnen nog veranderen, ze hebben een statisch karakter. Leren leidt in de meeste gevallen slechts tot een hypothese die een bepaalde mate van waarschijnlijkheid heeft. Het lijkt echter geen goed idee om de afleiding ‘de hypothese P is erg waarschijnlijk dus ik weet P’ als valide te adopteren. Weten lijkt iets absoluuts te hebben. Als ik voor een rechtbank getuig dat ik weet dat Jan Piet heeft vermoord dan is dat heel wat anders dan wanneer ik verklaar dat het heel erg waarschijnlijk is dat Jan de dader is. Niettemin zijn we wel bereid iemand te veroordelen, ook al weten we niet helemaal zeker of hij schuldig is. ‘Beyond reasonable doubt’ noemt men dat in Angelsaksische kringen en dat is niet toevallig, want het sluit aan bij de overheersende filosofische traditie in dit taalgebied die in het voetspoor van Hume het tweede axioma veelal als uitgangspunt gekozen heeft. Wie dat doet komt uit op, wat ik noem, een constructietheorie van de waarheid. Wie een dergelijke waarheidstheorie aanhangt kan twee kanten op. Ofwel hij geeft toe dat kennis een statistisch fenomeen is, ofwel hij beperkt zich tot kennis die geconstrueerd kan worden uit elementaire observaties. Wie zich beperkt tot de tweede optie houdt weinig wetenschap over. Toch is deze positie in de filosofie van de wiskunde met verve verdedigd door onze landgenoot Brouwer en later door de vroege Wittgenstein. Sporen van de eerste oplossing zien we bij denkers als Aristoteles, Euclides, Locke, Hume en leden van de Wiener Kreis.

Het raadsel van de menselijke efficiëntie

Uit deze korte analyse blijkt dat je de geschiedenis van de filosofie zou kunnen herschrijven met leren als centraal thema. Lange tijd was er niet veel meer over te vertellen dan datgene wat hierboven is samengevat. Beide axioma’s leidden tot ongelukkige resultaten. Er viel niet goed te kiezen, waardoor er dus een echt probleem bestond. In de tweede helft van de twintigste eeuw is de theorievorming echter met sprongen vooruitgegaan, vooral doordat men de wiskundige modeltheorie op leren is gaan toepassen. De wiskunde van het leren begint bij de opvatting van het leren als een spel dat gespeeld wordt tussen een student en een leraar. Het speltheoretisch model van leren werd voor het eerst serieus geïntroduceerd in een artikel van Gold in Information and Control in 1967. Het probleem dat Gold bestudeerde was het leren van taal. De vorm van het spel is als volgt: 

1) Er is achtergrondkennis. De leraar en leerling spreken van tevoren een oneindige verzameling van mogelijke talen af waarvan er een geleerd moet worden. 
2) De leraar kiest uit die verzameling een taal die hij gaat onderwijzen.
3) Een zet van de leraar bestaat uit het geven van een voorbeeldzin uit de gekozen taal. De leraar moet wel te goeder trouw zijn. Hij is verplicht alle mogelijke voorbeelden minimaal een maal te geven. 
4) Een zet van de leerling bestaat uit het raden van de taal (hypothese) die de leraar gekozen heeft. 
5) Het spel gaat oneindig lang door. De leerling kan de taal leren (en wint) als hij op een gegeven moment zijn hypothese niet meer aan hoeft te passen. 

Wie de vertaling naar de praktijk wil maken mag de volgende interpretaties van het abstracte model hanteren: 

1) De kennistheorie: de student is de mens, de leraar zijn ervaring, de klasse van talen is de verzameling van mogelijke theorieën over de wereld. 
2) De cognitie: de student is het brein, de leraar de waarneming, de klasse van talen is het aantal mogelijke cognitieve concepten dat het brein kan leren. 
3) De wetenschapsmethodologie: de student is de wetenschapper, de leraar de natuur, de klasse van talen is het aantal mogelijke natuurwetten. 

Voor ons doel is het abstracte model echter rijk genoeg. Het verrassende van Golds paper was dat hij kon bewijzen dat onder deze condities, zelfs als het spel onbeperkt lang kon duren, de leerling bijna geen enkele interessante klasse van talen met absolute zekerheid kon leren. Dat geldt a fortiori voor de natuurlijke talen die wij als kind zonder al te veel moeite leren. Daarmee is een interessant probleem geboren dat tot op vandaag de dag niet goed is opgelost en eigenlijk alleen maar schrijnender is geworden. Men zou dit probleem het raadsel van de menselijke efficiëntie kunnen noemen. Al onze formele modellen van leertaken geven aan dat leren, vanuit wiskundig oogpunt, op zijn best erg moeilijk en vaak onmogelijk is.

De natuur als coöperatieve leraar

In de laatste veertig jaar is er een stortvloed van amendementen op Golds model geweest en de theorievorming is zeker nog niet afgerond (zie bijvoorbeeld Angluin, 1988). De research concentreert zich op een aantal gebieden: restrictie van de klasse van talen, de rol van de statistiek in het selecteren van de hypotheses en de houding van de leraar. In het oorspronkelijke model van Gold moet de leraar alleen maar betrouwbaar zijn. Hij geeft alle voorbeelden in een willekeurige volgorde. Men kan zich echter goed voorstellen dat de leraar de student een beetje helpt, bijvoorbeeld door eerst simpele voorbeelden te geven, of door de informatie-inhoud van de voorbeelden aan te passen aan de vorderingen van de leerling. We spreken dan van een coöperatieve leraar. In zijn eenvoudigste vorm is een coöperatieve leraar niets anders dan een waarschijnlijkheidsdistributie over de voorbeelden, waarbij simpele voorbeelden een hogere waarschijnlijkheid hebben dan complexe. Een student die leert onder leiding van een welwillende coöperatieve leraar heeft veel meer kans met behulp van statistiek de juiste hypothese te selecteren. Hier doemen de contouren op van een interessante oplossing voor het raadsel van de menselijke leerefficiëntie. Onze efficiëntie is wellicht geen verdienste van onszelf, maar een weerslag van de structuur van de wereld waarin wij leven. De natuur om ons heen is niet willekeurig maar functioneert als een welwillende leraar. Laten we dit de hypothese van het coöperatieve universum noemen: de natuur doseert de informatie die wij krijgen op een zodanige manier dat de hypotheses die wij over haar vormen een grote kans hebben juist te zijn. 

Het is duidelijk dat de hypothese van het coöperatieve universum grote filosofische consequenties heeft. A priori is er weinig reden om haar aan te nemen. Waarom zou de natuur die moeite doen? Waarom is ze niet willekeurig? Anderzijds slaat deze hypothese een interessante brug tussen de noties van waarheid als participatie en constructie die ik hierboven geïntroduceerd heb. Wij bouwen zelf onze theorieën (constructie), maar de informatie waarop wij onze theorieën baseren wordt door een welwillende leraar geselecteerd (participatie). Men zou de hypothese van het coöperatieve universum kunnen afdoen als pure metafysica, ware het niet dat ze op een interessante manier ondersteund wordt door recente inzichten uit de theoretische informatica en de fysica die als volgt zouden kunnen worden samengevat: 

1) Informatica: een computationeel proces is van nature een coöperatieve leraar, in die zin dat simpele berekeningen eerder klaar zijn dan complexe (Li en Vitantyi, 1992).
2) Fysica: de natuur kan als een computationeel proces worden opgevat (Lloyd en Ng, 2004). 

Deze twee inzichten samen nemend zou men de hypothese van het coöperatieve computationele universum kunnen formuleren:

Een universum waarin informatie kan worden opgeslagen en waarin kan worden gerekend, is noodzakelijkerwijs ook een universum waarvan de structuur efficiënt geleerd kan worden.

Deze hypothese, die voorlopig geheel voor mijn rekening komt, biedt interessante aanknopingspunten voor zowel filosofische als formeel theoretische reflectie. Een universum waarin gerekend kan worden moet aan de volgende voorwaarden voldoen:

1) Het moet stabiel genoeg zijn om informatie op te slaan. Structuren moeten een bepaalde stabiliteit hebben om gedurende een bepaalde tijd een vaste identiteit te hebben. 
2) Er moet voldoende vrije energie zijn om de informatie te bewerken. Er moeten reversibele processen bestaan om de omslag tussen verschillende stabiele toestanden te faciliteren: het flippen van bits. 

Gelukkig leven we in een universum dat exact aan deze voorwaarden voldoet. Dat kan ook niet anders, want in een universum dat niet aan deze eisen voldoet zouden geen intelligente wezens kunnen bestaan. Dit is een variant van het antropische principe (Hawking, 1988). De hypothese van het coöperatieve universum gaat echter verder omdat ze stelt dat een dergelijk universum makkelijk te leren is. Het is een verzameling willekeurige processen, maar het gaat noodzakelijkerwijs om processen van beperkte complexiteit. Artikelen over deze materie kenmerken zich in het algemeen door een hoge mate van onleesbaarheid. Toch zijn de theoretische resultaten zeer relevant voor een beter begrip van het fenomeen leren. Centrale noties in dit verband zijn de wiskundige concepties van de begrippen waarschijnlijkheid (Carnap, Kolmogorov, Chaitin, Solomonoff) en informatie (Turing, Shannon). De filosofische verwerking van deze inzichten is pas het laatste decennium op gang gekomen en nog lang niet afgerond (Floridi, 2004). 

De wiskunde van het leren: leren als datacompressie

Een belangrijke funderende discipline voor een theorie van het leren is de zogenaamde Kolmogorov-complexiteit (Li en Vitanyi, 1997). Deze theorie houdt zich bezig met het leren als compressie van datasets. De wiskundige theorie is te complex om hier weer te geven, maar een paar voorbeelden kunnen helpen. Stel u zet uw televisietoestel aan en u zapt tussen de kanalen waar het volgende op te zien is: ‘random ruis’, een plaatje van een bos en een testbeeld. Vanuit computationeel oogpunt is er het volgende aan de hand:

1) Random ruis: deze dataset heeft een hoge complexiteit en bevat daardoor in theoretische zin veel informatie. Omdat hij echter het resultaat is van een random-proces kan hij niet korter beschreven worden. Hij bevat daardoor ook geen betekenisvolle informatie. Er kan niets uit geleerd worden. 
2) Een plaatje van een bos: deze dataset heeft een hoge complexiteit, maar hij bevat ook structuur (vormen van bomen, takken en blaadjes herhalen zich). Hij kan daardoor gecomprimeerd worden tot een kortere beschrijving. We kunnen betekenisvolle informatie uit het plaatje extraheren (bijvoorbeeld het feit dat er tien bomen op te zien zijn). Kortom, uit deze dataset kunnen we heel wat leren. 
3) Een testbeeld: deze dataset oogt simpel. Hij kan makkelijk kort beschreven worden, dat wil zeggen: hij is makkelijk te comprimeren en bevat daardoor weinig betekenisvolle informatie. Er valt niet veel uit te leren.

Uit deze voorbeelden blijkt dat we de interessantste dingen kunnen leren uit datasets die structuur vertonen en tegelijk random elementen bevatten. Dit is exact het soort dataverzamelingen dat we verwachten in het coöperatief computationeel universum. De moderne leertheorie concentreert zich op de analyse van dit soort dataverzamelingen. Het gaat daarbij om het vinden van een optimale korte beschrijving van de dataset in termen van twee nieuwe datasets: 

1) Een structureel deel dat de regelmatigheden in de dataset beschrijft.
2) Een ad hoc deel dat de toevallige elementen in de dataset beschrijft. 

Een dergelijke beschrijving is leertechnisch adequaat als de lengte van de nieuwe tweedelige beschrijving (veel) korter is dan die van de oorspronkelijke dataset. Dit principe heet in de literatuur het Minimum Description Length Principle (MDL, Rissanen) of ook wel two-part code optimization(Vereshchagin en Vitanyi). Stel dat ons plaatje van het bos 1280 x 800 pixels groot is en 256 kleuren kent, dan is de file ongeveer 31 Mb groot. Zoveel bytes moeten we ook verzenden als we de inhoud van de file willen communiceren. Zodra we echter beschikken over een analyse van de betekenisvolle informatie in het plaatje kunnen we het samenvatten. Deze samenvattingen kunnen meer of minder generiek zijn:

Ad hocStructureel
een bos (1280 x 800 pixels)een algemene beschrijving van bossen
een verzameling van 10 bomen (1280 x 800 pixels)een algemene beschrijving van de structuur van een boom
een verzameling van 3 beuken, 4 wilgen en 3 eiken (1280 x 800 pixels)de beschrijving van de specifieke structuur van beuken eiken en wilgen
etc.etc.



Een belangrijk deel van het onderzoek rond de leertheorie concentreert zich op het vinden van algoritmen die een gegeven dataset kunnen splitsen in een willekeurig en een structureel deel. Veel wetenschappelijke problemen kunnen in termen van two-part code optimization geformuleerd worden. Ik geef een aantal voorbeelden:

DatasetAd hocStructureel
Beschrijving van ons zonnestelselBanen en grootte van de planetenWetten van Kepler
Reuters databaseStructuur en volgorde van de individuele zinnenGrammatica van het Engels
Een compositie van BachStructuur en volgorde van de thema’s en stijlkenmerkenThema en stijlkenmerken van Bach
Menselijk DNAStructuur en volgorde van regio’s die genen coderenStructuur van de genen



Het vinden van een dergelijke two-part code optimization is meestal geen gemakkelijke opgave. Men kan theoretisch bewijzen dat er geen universeel leeralgoritme voor zo’n taak bestaat. Voor sommige datasets zijn er goede algoritmen, voor andere niet. Zo kan men met behulp van genetisch programmeren gemakkelijk de wetten van Kepler afleiden uit de observaties van Tycho Brahe, maar een goed algoritme voor het leren van een grammatica uit een corpus is nog niet voorhanden (Adriaans en Van Zaanen). 

Conclusie

De theorievorming rond leren en inductie, die is ingezet in het kielzog van de studie van artificiële intelligentie, is op dit moment volop in beweging. De resultaten leiden niet alleen tot nuttige industriële toepassingen maar hebben ook repercussies voor de manier waarop we denken over fundamentele filosofische vragen aangaande de oorsprong van onze kennis, de werking van ons brein en de wetenschapsmethodologie. Een formele analyse van de wiskunde van het leren helpt ons te begrijpen waarop de menselijke efficiëntie bij het leren gebaseerd is. De mens kan complexe structuren als taal en natuurwetten alleen efficiënt leren als de onderliggende distributies ‘welwillend’ zijn. De hypothese van het coöperatieve computationele universum is een poging te verklaren waarom we in een wereld leven waarin efficiënt geleerd kan worden. 

Tot slot nog een tongue-in-cheekobservatie. Ons menselijk brein kan ongeveer 1014 bits aan informatie bevatten. De totale opslagcapaciteit van het universum is ongeveer 1092 bits (Lloyd & Ng, 2004). De oude filosofische ambitie van het doorgronden van het universum komt neer op de wens een compressie van het universum te vinden die ongeveer als volgt ligt: een structurele beschrijving van minder dan 1014 bits (de natuurwetten) en een ad hoc beschrijving van meer dan 1078 bits (de feitelijke structuur gegeven de natuurwetten). Er is maar één conclusie mogelijk: het universum is voor de mens alleen te begrijpen als het extreem comprimeerbaar is, of met andere woorden, als er bijna niets van enige betekenis gebeurt.

Leave a Reply

Your email address will not be published. Required fields are marked *