Nooit creëerden we meer online content dan dat we vandaag de dag doen. In sommige gevallen is de content geschreven, in de vorm van bijvoorbeeld een blog of een artikel, maar een groot gedeelte is video.

YouTube – Google’s videokanaal – heeft 1 miljard gebruikers en per minuut wordt er 300 uur video toegevoegd. Per dag is dit 432.000 uur. De bestaande videocollectie op YouTube is gigantisch. Mark Zuckerberg (CEO van Facebook) verwacht dat binnen vijf jaar gebruikers meer video’s dan tekstberichten delen.

COMMIT
Ook dit onderzoek maakt deel uit van het COMMIT-programma. Het COMMIT-programma is een privaat-publieke samenwerking op het gebied van ICT-onderzoek. Het programma telt vijftien verschillende projecten. Eerder verschenen op Scientias.nl ook al artikelen over een andere COMMIT-projecten: TaSST, een apparaat dat aanrakingen op afstand mogelijk maakt en een studie die ernaar streeft om mensen meer grip te geven op het immer uitdijende internet.

Wat staat er in deze video’s? We weten het niet (of niet nauwkeurig), omdat de enige manier om het te weten is om de video te bekijken. De metadata die wordt toegevoegd door diegene die de video uploadt is vaak afwezig, meestal incompleet en soms nietszeggend.]

Een reden hiervoor is dat het toevoegen van dit soort gegevens niet verplicht is. Natuurlijk heeft een video een naam, maar dat kan net zo goed GOPR0024 zijn in plaats van een meer beschrijvende titel. Daarnaast is het een probleem dat wat voor de één een bruikbare beschrijving is, zoals Vakantie Australie 2015, voor een ander amper relevant is.

Natuurlijk kan een goedgekozen naam, titel en bijbehorende tags (woorden die de inhoud beschrijven) helpen om video’s te vinden, resulterend in meer ‘views’ of, als er advertenties bij getoond worden, meer geld. Echter, het toevoegen van goede beschrijvingen is veel werk. Betaalde krachten om een videocollectie te taggen zijn eenvoudigweg te duur. Beeld en Geluid, het Nederlandse Audiovisuele archief is gestopt met tagging van video’s, omdat de kosten te hoog werden.

Maar videos met goede beschrijvingen zijn veel waardevoller dan je denkt. Ze kunnen worden gebruikt worden om te leren waar andere video’s over gaan. Dit wordt VideoStory genoemd. Hoe dit principe werkt, daar gaat dit artikel over.

Van pixels naar woorden
Het algoritme van UvA wetenschapper Amirhossein Habibian en zijn collega’s maakt een vertaling van pixels naar woorden. Niet direct natuurlijk, maar met enkele stappen daartussen.

Een video is eigenlijk een verzameling plaatjes bestaande uit pixels. Die pixels vormen samen weer een object, persoon of activiteit die beschreven kunnen worden met woorden. De woorden en pixels liggen in een hoog dimensionale ruimte waarin er een directe verbinding is tussen de pixels en de woorden. Het is een kunst om deze ruimte te beschrijven, vanuit zowel het beeld als vanuit de woorden.

Schermafbeelding 2015-07-26 om 16.37.02

Hierboven is een goed voorbeeld te zien. Wie de video bekijkt, ziet een vrouw die lasagne bereidt. Het systeem van de UvA probeert niet om elk woord te voorspellen, maar zoekt naar een verband tussen de visuele informatie en een groep woorden. Deze embedding noemen we een ‘VideoStory’. Daar vanuit is het systeem in staat om automatisch tags voor te stellen met een inschatting van de zekerheid. Maar niet alle woorden in figuur 1 zijn correct. De vrouw is in de keuken bezig met het maken van lasagne (de woorden ‘woman’, ‘kitchen’ en ‘make’ komen voor in de VideoStory), maar het woord ‘lasagne’ ontbreekt. Daarintegen worden wel pizza en cake genoemd, maar met een lage zekerheid (de lengte van de balk onder het woord).

Maken van een VideoStory
Wat heb je nodig om een VideoStory te maken? Om te beginnen een groot aantal video’s om het systeem te trainen. Daarbij moet er voldoende tekstuele beschrijving zijn en deze moet ook correct zijn. Als voldoende mensen een pizza een donut zouden noemen in een trainingsset gebruikt VideoStory gewoon dit woord. Het heeft geen kennis over de betekenis van een woord, alleen over de frequentie van het gebruik en in welke videos dit woord voorkomt. In dit geval wordt er een set gebruikt van 46.000 video’s van YouTube.

Van elke video wordt eerst de visuele inhoud beschreven, zoals de kleur, vormen, textuur en beweging, gebruikmakend van de laatste trends in computer vision en deep learning. Deze informatie wordt dan gecorreleerd met groepen woorden, zodat elke groep goed te voorspellen is vanuit de visuele content. Maar ook zodat alle video’s goed beschreven kunnen worden. Dit resulteert in een matrix die de pixels aan de woorden correleert.

Voorbeeldvideo's in de dataset.

Voorbeeldvideo’s in de dataset.

Een dimensie in deze matrix is eigenlijk een visueel-semantische template.

Je kunt dit vergelijken met de manier waarop een jong kind een huis tekent, een vierkant met een driehoek er op. Je ziet dat het een huis is door de generieke vorm en niet vanuit de details. De woorden komen van de tags die bij de video’s horen. Informatie over de video’s uit de titel en beschrijving maken het mogelijk om een relatie te leggen tussen de woorden en de pixels.

De ‘vertaler’ is verantwoordelijk voor de magie, het leert automatisch verbanden te leggen tussen de visuele informatie en de tekstuele informatie en het maakt de verbinding hiertussen mogelijk.

Nederlands Instituut voor Beeld en Geluid

Nederlands Instituut voor Beeld en Geluid

Beeld en Geluid
Bij Beeld en Geluid is er een enorme behoefte aan dit soort applicaties. Zij hebben de grootste verzameling audiovisuele content van Nederland en, net zoals bij YouTube, is vooral algemene metadata beschikbaar, bijvoorbeeld jaar of omroep.

Specialisten zoeken naar manieren om automatisch tags toe te voegen om de vindbaarheid te vergroten met zo weinig mogelijk menselijke activiteit. In dit geval werden internationale nieuwsberichten gebruikt om de woorden voor de VideoStory aan te bieden. De woorden die VideoStory voorstelt, worden toegevoegd aan de meta-informatie van de video’s. Hierdoor worden te zoekresultaten relevanter wanneer iemand een bepaalde video zoekt. Zonder VideoStory zou de collectie van Beeld en Geluid veel minder toegankelijk zijn.
Om het systeem te trainen in een bepaald domein is ongeveer twaalf uur nodig. In die tijd worden woorden- en pixelcombinaties geleerd. Hierna kan op een eenvoudige (single core) computer een video op een snelheid van 40x speed worden getagd. Een video van veertig minuten kan in één minuut geanalyseerd worden. Hiermee wordt de oceaan van video’s opeens meer een klein plasje.

Toepassingen
Naast het in kaart brengen van de inhoud van video’s kan deze ook worden gebruikt om meer intelligentie in videocamera’s te stoppen, waardoor de camera niet alleen kan registreren, maar ook kan interpreteren wat er net is opgenomen.