Tijd is geld. Maar informatie ook. En het internet herbergt een schat aan informatie. De vraag is alleen: hoe kunnen we de relevante informatie (lees: de informatie die ons rijk kan maken) hieruit halen?

De hoeveelheid informatie op het internet groeit exponentieel. Een gedeelte van deze informatie is beschikbaar in tekstformaat, zoals krantenartikelen, blogposts, webpagina’s of zelfs tweets en Facebook-pagina’s. Hierin bevindt zich een schat aan informatie waarbij de uitdaging is om alleen het relevante eruit te halen. Zeker in de wereld van beleggen is tijdige en correcte informatie zeer waardevol. Let wel, het gaat hier niet om voorkennis maar om publieke informatie die tijdig en juist geïnterpreteerd moet worden. Dat is zeker niet zo makkelijk als het klinkt!

Een kwestie van omvang
Allereerst speelt natuurlijk de omvang van de data mee. De huidige hoeveelheden aan data vallen alleen maar te doorzoeken door het gebruik van computers en software. Bij beleggen is tijd letterlijk geld; wie het snelst correct reageert op recente gebeurtenissen in het nieuws kan heel veel geld verdienen. Daarbij komt dat taal voor een mens in de regel goed te begrijpen is, maar dit voor computers een stuk moeilijker is. De tekst moet met behulp van algoritmes worden geanalyseerd om te zien wat de betekenis is.

De beurskoers van Apple
Hieronder staat de koers van Apple over de periode van januari tot en met augustus 2013. De koers was hier hevig in beweging. Bij iedere letter in de afbeelding was er sprake van financiële gebeurtenissen die van invloed waren op de koers. Zo kondigde Apple bij punt A aan dat de resultaten van het tweede kwartaal (Apple kent een gebroken boekjaar) beneden de verwachtingen waren, waarna het aandeel daalde met 12,4 procent. Op ieder van de andere gelabelde andere punten was tevens een financieel bericht de oorzaak van de koersfluctuatie. Dit voorbeeld illustreert de waarde van het tijdig en juist interpreteren dit soort informatie.

apple

Frederik Hogenboom promoveerde afgelopen december aan de Erasmus Universiteit op het onderwerp ‘Automated Detection of Financial Events in News Text’ waarbij hij onderzoek deed naar de geautomatiseerde analyse van financiële gebeurtenissen voor voornamelijk toepassingen bij beleggingen.

Hoe werkt het systeem van Hogenboom?
De onderzoeksvraag van zijn thesis is: ‘How to semi-automatically and accurately identify financial events in news messages, and how to effectively use such extracted events in financial applications?’ De toevoeging semi-automatisch is hierbij essentieel. In de onderzoeksopzet is een menselijke component betrokken, waarin kritieke besluitvorming wordt gedaan. Is een gebeurtenis wel of niet correct? Is de CEO van dat beursgenoteerde bedrijf echt afgetreden, of is het slechts een gerucht? Wat is de impact van deze gebeurtenis? Social media zoals Twitter zijn bewust buiten het onderzoek gehouden. Dergelijke bronnen zijn van een totaal ander type. Ze verschillen niet alleen qua volume, maar ook qua betrouwbaarheid. De gebruikte nieuwsbronnen zijn betrouwbaar en vormen een meer homogeen geheel dan een combinatie van social media en nieuwssites (hoe interessant ook). Aan de basis van het onderzoek liggen datasets met nieuwsberichten van beursnieuwssites als Yahoo Finance, WSJ en NYTimes. Typisch worden deze sites gescraped met een harvester en later handmatig geannoteerd voor een gedetailleerde evaluatie. In het proefschrift is gebruik gemaakt van een combinatie van zelf verzamelde datasets enerzijds voor tekstanalyse, en (in samenwerking met Semlab) van al bestaande datasets met koersen en geassocieerde financiële gebeurtenissen anderzijds voor het toetsen van financiële toepassingen.
rijkdoortwitterNadat nieuwsberichten door een geautomatiseerde taalanalyse zijn gehaald, worden ze doorzocht op financiële gebeurtenissen, zoals fusies, productlanceringen en aankondigingen van kwartaalcijfers. Dit gebeurt op basis van volledige patronen die gemaakt worden in een eigen ontwikkelde taal, waarmee experts intuïtief kunnen definiëren uit welke concepten een gebeurtenis bestaat, en hoe deze typisch in teksten wordt omschreven. Deze patronen dekken een hoop (tekstuele) variatie af en maken het systeem een stuk intelligenter. Immers, je kunt op diverse manieren beschrijven dat kwartaalcijfers zijn vrijgegeven of dat een nieuw product gelanceerd is. De patronen maken ook gebruik van een (oorspronkelijk handmatig opgebouwd) model met daarin concepten als bedrijven, personen en producten, en daarbij hun eigenschappen. Tevens worden ontdekte gebeurtenissen gebruikt om deze kennis bij te werken, waardoor automatisch gebruik wordt gemaakt van de laatste gegevens.
Op basis van een uitgebreide analyse door financiële experts is verder gekeken welke invloed gebeurtenissen hebben op koersen. Wanneer dit uitgedrukt wordt in gewichten (bijvoorbeeld van -3 tot +3) kunnen gebeurtenissen vertaald worden naar handelssignalen: Buy, Hold of Sell. Deze signalen kunnen vervolgens gebruikt worden om al bestaande beleggingsalgoritmes te verbeteren.
Ook financiële risicoanalyses kunnen worden verbeterd met behulp van financiële gebeurtenissen. Veel van deze analyses verliezen nauwkeurigheid doordat historische koersen worden beïnvloed door zeldzame gebeurtenissen. Als voorbeeld: het overlijden van Steve Jobs beïnvloedde de beurskoers van Apple sterk, maar is wellicht niet representatief voor komende jaren. Een analyse van ontdekte gebeurtenissen in een tijdsperiode kan zeldzame gebeurtenissen boven tafel krijgen. Wanneer data rond deze gebeurtenissen niet in beschouwing wordt genomen bij het schatten van toekomstige financiële risico’s, zou dit de kwaliteit ten goede kunnen komen.

Welke technologie?
In het proefschrift zijn met name semantische webtechnologieën gebruikt. Zoals gezegd is er een model (ontologie) ontwikkeld die een paar belangrijke elementen van bedrijven in kaart brengt. Dit model is dynamisch, en kan zodoende door algoritmes worden voorzien van nieuwe concepten en relaties aanmaken en zo bijvoorbeeld een nieuw Smart Watch product aan Apple koppelen.
Als basis voor de taalanalyse is gekozen voor het op Java gebaseerde Gate (General Architecture for Text Engineering) framework, omdat het makkelijk uit te breiden is. Daarbovenop en daarnaast zijn de verscheidene modules ontwikkeld. Twee modules verdienen extra aandacht: enerzijds de eerder genoemde taal om extractiepatronen te definiëren om zo bijvoorbeeld productreleases in tekst te kunnen herkennen, en anderzijds een taal om automatisch het model bij te kunnen werken aan de hand van ontdekte (en eventueel geaccordeerde) gebeurtenissen. Deze laatste taal ondersteunt een feedbackloop, waardoor het systeem zichzelf kan blijven onderhouden en steeds gebruik maakt van de nieuwste kennis.

COMMIT
Ook dit onderzoek maakt deel uit van het COMMIT-programma. Het COMMIT-programma is een privaat-publieke samenwerking op het gebied van ICT-onderzoek. Het programma telt vijftien verschillende projecten. Eerder verschenen op Scientias.nl ook al artikelen over een andere COMMIT-projecten: TaSST, een apparaat dat aanrakingen op afstand mogelijk maakt en een studie die ernaar streeft om mensen meer grip te geven op het immer uitdijende internet.

Welke resultaten
De resultaten die Hogenboom heeft gerealiseerd met zijn onderzoek geven een significant betere performance in enkele financiële toepassingen. Met andere woorden: door (semi-)geautomatiseerd nieuwsberichten te analyseren en deze informatie aan beleggingsalgoritmes toe te voegen kan je betere resultaten behalen. Het gaat dan met name om het bepalen van de z.g. Value at Risk: een rekenmethode om het risico van een verlies op een portefeuille van bijvoorbeeld aandelen te berekenen. Voor de liefhebbers en kenners: wanneer historische data voor VaR wordt geschoond van zeldzame gebeurtenissen, verbetert de Mean Squared Error met zo’n 30%. De risicoschatting is in 78% van de gevallen beter dan de traditionele schatting.
Daarnaast wijst onderzoek uit dat, wanneer met behulp van kunstmatige intelligentie handelsregels worden gegenereerd, de best presterende regels (gemeten op een aantal verschillende financiële datasets) naast de traditionele numerieke signalen veelal ook signalen uit financiële gebeurtenissen bevatten.

De toekomst
Hogenboom heeft met zijn onderzoek geen kant en klaar systeem opgeleverd, maar componenten die in een systeem kunnen worden geïntegreerd. Voor een gedeelte zijn de ontwikkelde componenten te downloaden op de persoonlijk pagina van Frederik Hogenboom. Daarbij is een integratie van componenten niet het enige wat moet gebeuren om het systeem operationeel te krijgen.
Een van de belangrijkste aandachtspunten is het vertrouwen dat gebruikers moeten krijgen in het algoritme en de kennis die het algoritme in zich heeft. Daarom is een menselijke factor vaak gewenst. Wanneer gebeurtenissen met behulp van software uit meerdere bronnen boven komen drijven, kunnen dezen handmatig geverifieerd worden, waarna kennis gebruikt kan worden in andere geautomatiseerde (financiële) toepassingen. Hoe nauwkeuriger en efficiënter de koppeling tussen de tekstanalyse en toepassingen, hoe meer voordeel er kan worden behaald.

Risico’s van geautomatiseerd handelen
In december 2014 waarschuwde Stephen Hawking voor de gevaren van kunstmatige intelligentie. Volgens Hawking kan dit het einde betekenen van het menselijk ras. Tot nu toe is de ondersteuning die computers mensen geven erg nuttig maar hij is bang dat op een gegeven moment computers de controle overnemen. Dit scenario, beroemd geworden door de film 2001: A Space Odessey van Kubrick is op dit moment nog ver gezocht (gegeven de stand van de wetenschap en de toepassing van dit soort systemen) maar dat volledig geautomatiseerde systemen schade kunnen toebrengen, dat is bekend. In 2010 was er de Flash Crash, waarbij door het automatisch handelen van dealingroom systemen de Dow Jones in enkele minuten 9 procent van zijn waarde verloor. Het kwam er op neer dat door een onverwacht grote transactie van een institutionele belegger in een type contract waren er voor de opdracht geen kopers meer waardoor ook andere beleggers begonnen te verkopen. Voor de liefhebber, hier is het rapport van de Amerikaanse SEC over de Flash Crash. In veel gevallen zal in dit geval een zogenoemde circuit breaker aanslaan die de handel stopt bij een te grote en snelle koersdaling.
Een systeem dat kijkt naar nieuwsberichten en op basis daarvan gaat handelen heeft als extra risico de interpretatie van het nieuwsfeit. Kan je altijd zeggen dat een overname goed nieuws is? Als een computersysteem zelfstandig gaat handelen en aan of verkoop orders gaan geven is het risico van meer ‘Flash’ crashes nadrukkelijk aanwezig.
Door de zeer snelle systemen die worden gebruikt kan op heel korte termijn (milliseconden) worden gereageerd op ontwikkelingen op de beurs. Het probleem is dat het heel snel kan gaan, veel sneller dan wanneer de informatie nog door een mens moet worden beoordeeld. Het zou zelfs zo kunnen zijn dat er een verbod kan komen op volledig geautomatiseerd handelen als dit de financiële markten instabiel maakt. In 2008 is er een verbod gekomen op ‘short selling’, met name het (on)gedekt short sellen (het verkopen van aandelen zonder dat deze in bezit zijn). Dit verbod is wel weer opgeheven.

Voor de nabije toekomst zijn dit soort volledig automatische systemen volgens mij nog wel toekomstmuziek maar kijk niet gek op als dit soort systemen beleggers gaan ondersteunen bij de handel. De uitdaging is daarbij wel de eerste te zijn, hij of zij die als eerste de informatie heeft (of juist interpreteert) heeft de beste kansen om voordeel te halen. Door de hoeveelheid informatie en de vereiste snelheid is het gebruik van automatische detectie van events eigenlijk onmisbaar.