Waarom geeft internet nog geen antwoord op de echt belangrijke vragen?

Er wordt vaak gezegd dat alle antwoorden op bijna elke vraag op Internet te vinden is. Hoe komt het dan dat we nog steeds geen antwoorden kunnen vinden op vragen die bijna elk bedrijf of organisatie heeft?

Vragen als:

Wie zijn de belangrijkste personen of beïnvloeders in mijn industriesector?

Wie zijn mijn fans, of mijn critici?

Wat schrijft men in de verschillende landen over mijn organisatie, product, mijn mensen?

Wat zijn de belangrijke trends in mijn sector?

Welke evenementen domineren mijn bedrijfstak?

Waar zitten mijn fans, critici en beïnvloeders?

Wanneer en waar worden er discussies gevoerd over mijn merk, organisatie of product?

Wat we echt willen weten, is het antwoord op de vraag: Wie, Wat, Waar, Wanneer. Dus waar mensen op een bepaalde plaats in de wereld op een bepaald moment aan denken. Wij kunnen dat onmogelijk weten omdat het niet mogelijk is om alle gedachten die worden vastgelegd in blogs, tweets of posts op een dag aan te horen of te lezen. Daarvoor zitten er simpelweg te weinig uren in een dag. Bovendien is ons brein te licht. Wat we wel zouden kunnen proberen, is om een steekproef te nemen uit al deze gedachten, en van daaruit een soort van samenvatting te creëren. Hiervoor moeten we computers inschakelen die alle gedachten verzamelen en deze gedachten onderbrengen in categorieën. Je kunt je voorstellen dat we emoties gaan vatten in bepaalde categorieën. Dit is gelukkig al gedaan door linguïsten, oftewel wetenschappers die de taal bestuderen. Voor wat betreft emoties, i.e. gevoelens, zijn er 6 hoofd categorieën bedacht. Deze zijn: woede, spanning, vermoeidheid, verwarring, depressie en kracht. Meestal worden ze in het Engels aangegeven, omdat de wetenschap zich op momenteel met name concentreert op de Engelse taal. In het Engels zijn de categorieën als volgt: Anger, Tension, Fatigue, Confusion, Depression and Vigor. In de Engelse taal breng je emotie woorden onder in een van deze categorieën. Hierbij gaat het om woorden zoals happy, angry, shy, delightfull, embarresed, powerfull. Samengevat zijn het eigenlijk allemaal woorden waar je dingen voor kunt zetten als “I am feeling” of “I feel” of “We are feeling” of “We feel” of “makes me feel” etc. Daarnaast heb je nog zogenaamde “indicators”. Dit zijn woorden die de sterkte van een emotie aangeven, zoals “as a”, “really”, “a little bit” etc.

De grote uitdaging bij het ontwikkelen van een computerprogramma dat bovenstaande kan faciliteren, ligt in het feit dat je een systeem moet ontwerpen welke een stuk tekst kan analyseren op basis van al deze woorden. Een systeem dat vervolgens een uitspraak doet over de “emotional state” van de schrijver van dat stuk tekst. Helaas zijn wij mensen heel goed in het omzeilen van deze theorie, we noemen dat dan cynisme of sarcasme. Neem bijvoorbeeld de zin: “I feel like I have been ran over by a truck” Dit is dus een uitdrukking die je niet kunt vangen met vaste regels. Als ontwikkelaar dien je dus van een systeem voor “emotion finding” eigenlijk eerst een hele range van alle voorkomende uitzonderingen vast te leggen om een bepaalde mate van accuratesse te verkrijgen. Je begrijpt dat dit een grote uitdaging is, die eigenlijk nooit voor 100% zal lukken. Net wanneer je denkt: “Ik ben klaar”, dan is er wel weer een nieuwe uitdrukking in omloop die zeer snel door anderen wordt begrepen en overgenomen. Zeker als je teksten vertaald vanuit een vreemde taal naar het Engels, dan is het een gegeven dat bepaalde uitdrukkingen in een andere taal helemaal niet voorkomen.

“De verkoper heeft mij knollen voor citroenen verkocht” is goed te vertalen, maar wordt niet meer begrepen door iemand die deze vertaling leest!

Wat te doen? Omdat wetenschappers weten dat bovenstaand probleem niet makkelijk is op te lossen, grijpt men terug naar de wetenschap van de statistiek. Om een uitspraak te doen over een grote groep, oftewel “populatie”, moet je een steekproef nemen. Je bent dan wel niet meer 100% accuraat, maar doordat je, voor zeg 90% accuraat wilt zijn, kan je toe met een fractie toe van alle uitingen.

Dit principe wordt gehanteerd binnen het vakgebied van Sentiment analyse of opinionmining. Je analyseert op een bepaald moment een hele grote groep documenten die komen van een bepaalde plaats, geuit door een bepaalde groep mensen. Dan zal blijken dat er maar uit 8% van deze documenten een “emotional state” te halen is. Toch is dit ruim voldoende om een uitspraak te doen die geldig is voor de totale groep.

Maar ja, je bent er niet als je alleen maar weet hoe een bepaalde groep mensen zich voelt op een bepaald moment. Je wilt ook weten waarom zich zo voelen, waar ze het over hebben, en als ze het dan over iets hebben, hoe ze denken over dat “iets”. Zijn ze positief of negatief over dat “iets”?

Wil je echt een praktisch systeem bouwen, dan moet je niet alleen bepalen wat de emotionele toestand is van de schrijver (als die al iets loslaat daarover) maar je wilt ook weten waar hij over schrijft, en of hij positief of negatief over iets schrijft. De methode om dit te achterhalen blijft hetzelfde: eerst categorieën maken, dan woordenlijsten onder deze categorieën hangen, dan lijsten aanleggen met “indicators” om te bepalen wat de zwaarte is van de negativiteit of positiviteit.

Waar zijn we nu?

De wetenschap rondom het analyseren van teksten heeft de laatste jaren een grote vlucht genomen. Iedereen kan op zijn vingers natellen dat het geweldig zou zijn wanneer niet wijzelf, maar een computer de taak zou geven om duizenden documenten per dag te lezen, en ons dan, liefst op 1 A4tje, zou vertellen dat bijvoorbeeld, 65% van de mensen in Nederland die deze week schoenen willen gaan kopen voor 55% “warme gevoelens” hebben bij het merk “NIKE” waarvan zij vinden dat schoenen van NIKE voor 80% lekker zitten, voor 90% cool eruit zien en 35% een goede prijs/kwaliteitsverhouding hebben.

Helaas zijn er op dit moment nog geen systemen die precies dit kunnen. Toch worden er pogingen ondernomen, bijvoorbeeld door ByeleX dat via een dienst genaamd OpenDover ‘feiten’ haalt uit documenten. Het gaat om zaken als ‘In dit document vinden we een bedrijfsnaam: NIKE, Een persoonsnaam: Michael Jordan, Een Industry Term: Cool’, etc. Verder is de onderzoeksgroep van ByeleX al heel ver met het analyseren van documenten op sentimenten en gemoedstoestanden. Daarnaast heeft Byelex op basis van deze technologie een product ontwikkeld genaamd BuzzCovery, een systeem dat elke dag honderdduizenden blog posts, news items en Journals ophaalt van Internet, wereldwijd, en deze met behulp van voorgenoemde technologie rangschikt en doorzoekbaar maakt.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *