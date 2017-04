Eén van de dingen die mensen van dieren onderscheiden, is spraak. In plaats van naar lichaamstaal te moeten kijken en naar enkele keelklanken te moeten luisteren om te begrijpen wat onze soortgenoten willen, kunnen we in woorden uitdrukken wat er in ons omgaat. Al zijn er nog regelmatig situaties waarbij onze taal niet uitgebreid genoeg lijkt te zijn om onszelf perfect uit te drukken, toch is het een grote vooruitgang ten opzichte van waar de eerste homo sapiens toe in staat waren. Door de jaren heen zijn we er als ras in geslaagd onze taal zodanig bij te schaven dat we elkaar – in de meeste gevallen – kunnen begrijpen.

In het digitale tijdperk lopen we echter tegen een nieuw probleem aan. Hoe leggen we aan machines uit wat we van hen verlangen? Het meest gebruikte medium om met toestellen te communiceren, is vooralsnog het toetsenbord. De ontwikkeling van technologie staat echter niet stil, waardoor ook andere interfaces op de markt belanden. Spraakherkenning is hiervan de technologie die voor de praatgrage mens het meest natuurlijk aanvoelt. We hebben er als mens tienduizenden jaren over gedaan om onze spraak te perfectioneren. Gelukkig gaat de vooruitgang van spraakherkenningstechnologie een stuk sneller.

Eerste toepassingen

De eerste technologie die je met je stem kon aansturen, kan je moeilijk spraakherkenningstechnologie noemen. De software begreep immers maar een handvol woorden. Denk hierbij aan een automatisch antwoordapparaat dat je verschillende menukeuzes geeft. Door het juiste getal uit te spreken, ga je naar het menu van jouw keuze. In woorden uitleggen naar welk menu je wilt gaan, zal echter op niets uitdraaien; de software is niet in staat natuurlijke spraak te begrijpen.

Toch zijn het dergelijke toepassingen die de basis vormen van de spraakherkenningstechnologie die we de dag van vandaag gebruiken. Het klinkt misschien eenvoudig om een technologie aan te leren hoe het een vijftal verschillende getallen moet herkennen, maar in de praktijk komt hier een hoop bij kijken. Iedere mens is immers uniek en dat heeft zijn weerslag op de manier waarop we spreken en hoe onze stem klinkt. Een vrouw heeft doorgaans een hogere stem dan een man en aan de kust heeft men een andere uitspraak dan in de Kempen. Voeg hier verschillende spraaksnelheden en achtergrondgeluid aan toe, en je merkt dat het herkennen van enkele woorden niet zo vanzelfsprekend is als het op het eerste zicht lijkt.

Voorbewerking

Om alle voorgenoemde moeilijkheden te overwinnen, maakt spraakherkenningssoftware gebruik van verschillende processen. In de eerste plaats zal je stem worden opgenomen door een microfoon als geluidsgolven. Aangezien computers geen gebruik maken van analoge maar digitale signalen, wordt de golf omgezet tot een reeks getallen. Hiervoor wordt de hoogte van de geluidsgolf op gelijkmatig verspreide punten gemeten; een techniek die sampling wordt genoemd. Om ervoor te zorgen dat het originele analoge signaal perfect kan worden gereconstrueerd, dien je minstens twee keer zo snel te samplen als de hoogste frequentie die je wilt opmeten.

Wanneer je in een microfoon praat, zal er zelden alleen jouw stem worden opgenomen. Er zal ruis op het signaal zitten en ook achtergrondgeluiden vinden hun weg naar de computer. Alvorens verdere verwerking van het signaal kan gebeuren, dient het daarom gefilterd te worden. De ruis zal op deze manier verdwijnen en het achtergrondgeluid wordt zo veel mogelijk onderdrukt. Bovendien zal het geluid naar een constant volume worden gebracht en wordt het gealigneerd. Niet iedereen spreekt immers even snel.

Spectrogram

Uiteindelijk hou je een reeks getallen over die de amplitudes van het geluidssignaal op bepaalde tijdstippen voorstellen. In dit signaal bevindt zich zo weinig mogelijk ruis en achtergrondgeluid en de data is genormaliseerd naar een constant volume en een gelijke snelheid. Ondanks de verschillende bewerkingen die op het signaal zijn uitgevoerd, blijft het voor een neuraal netwerk moeilijk om letters en woorden in de data te herkennen. Meer voorbewerking is daarom aan de orde.

Het signaal zal worden opgesplitst in tijdsframes van bijvoorbeeld 20 milliseconden. In deze tijdsframes kan je verschillende frequenties terugvinden die, wanneer je ze samenvoegt, het complexe geluid van menselijke spraak vormen. Bij spraakherkenningstechnologie wordt het complexe geheel van frequenties opgesplitst in frequentiebanden. Door na te gaan hoeveel energie er in elke frequentieband vervat zit, kan je als het ware de vingerafdruk van het geluid bekomen. Deze vingerafdruk wordt een spectrogram genoemd en kan voor iedere tijdsframe worden gecreëerd. Wanneer je de spectrogrammen in de tijd naast elkaar plaatst, krijg je een visuele weergave van het woord dat je hebt uitgesproken.

Fonemen

Nu het audiosignaal is omgevormd tot een formaat dat eenvoudig te begrijpen is, kan het worden verstuurd naar een artificieel neuraal netwerk. Voor de input wordt gebruik gemaakt van de spectrogrammen van 20 milliseconden lang. De output die wordt gegenereerd, geeft de kansen weer dat het signaal een bepaald foneem voorstelt. Fonemen zijn de verschillende basisklanken die samen onze taal vormen. Zo wordt bijvoorbeeld een ‘d’ door iedereen net iets anders uitgesproken, maar we verstaan de klank bij iedereen wel als zijnde een ‘d’. Aangezien die klank zorgt voor een betekenisonderscheid, waardoor we niet bijvoorbeeld een ‘k’ horen, kunnen we een ‘d’ een foneem noemen. Gemiddeld genomen zijn er 35 fonemen per taal; bij het Nederlands bestaan er 40 verschillende klanken.

Om ervoor te zorgen dat een artificieel neuraal netwerk de juiste klanken raadt, dien je het te trainen met een grote dataset. Iedereen spreekt fonemen immers net iets anders uit en zelfs jij zal niet altijd precies dezelfde uitspraak hebben. Een slecht getraind neuraal netwerk zal door deze variaties in uitspraak in de war kunnen worden gebracht. Door een grote hoeveelheid trainingsdata te gebruiken, zal het netwerk echter leren om door de variaties heen te kijken en de gelijkenissen van dezelfde fonemen op te merken.

Dit leerproces gaat doorgaans verder wanneer de software al in gebruik is. Spraakherkenningstechnologie die door één iemand wordt gebruikt, zoals Dragon, zal jouw uitspraak gaandeweg beter leren kennen. Dergelijke software zal hierdoor na verloop van tijd erg goed op dingen kunnen reageren die jij zegt. Wanneer je iemand anders tegen je computer laat praten, zal de herkenning echter een stukje slechter verlopen.

Woorden

Zelfs wanneer je erg veel trainingsdata gebruikt, blijft het een hele opgave voor een artificieel neuraal netwerk om klanken om te zetten in letters en woorden. Bij spraakherkenning wordt er daarom doorgaans gebruik gemaakt van een neuraal netwerk met feedback. Het netwerk zal een geheugen hebben van voorgaande bevindingen die invloed heeft op toekomstige schattingen. Wanneer het bijvoorbeeld al heeft achterhaald dat je ‘woor’ hebt gezegd, weet de software dat de kans erg groot is dat een ‘d’ zal volgen. Bovendien zijn bepaalde opeenvolgingen van letters erg zeldzaam. Denk hierbij aan ‘xyz’. Door dergelijke overwegingen te koppelen aan de herkenning van een klank zal het neurale netwerk veel accurater reageren.

Uiteindelijk zal je enkele woorden overhouden, waarvan het netwerk met wisselende zekerheid denkt dat het het juiste woord is. Aangezien het netwerk de woorden per klank probeert te achterhalen, zijn deze woorden nog erg fonetisch geschreven. De software wordt daarom gekoppeld aan een database waarin wordt aangegeven hoe waarschijnlijk het is dat een bepaald woord voorkomt. Deze database is ontstaan door het neurale netwerk erg veel geschreven teksten te laten lezen. Woorden die vaker voorkomen, zullen daardoor vaker worden gekozen.

Correcties

Het voorgaande principe heeft één groot nadeel: zeldzame woorden die lijken op een veel gebruikte tegenhanger zullen nooit worden gekozen. Voorbeelden hiervan zijn wij en wei. Wij met een lange ‘ij’ wordt in allerhande zinnen gebruikt. Slechts bij erg weinig van deze zinnen wordt er gedoeld op een grasveld. Uiteraard bestaan er algoritmes die ook deze problemen zo veel mogelijk weg kunnen werken. Indien ‘wij’ vooraan in een zin staat, kan het bijvoorbeeld niet anders dan dat het om het persoonlijke voornaamwoord gaat.

Bovendien kan je bij spraakherkenningssoftware die wordt gebruikt om teksten te schrijven een foutief woord aanduiden en dit handmatig aanpassen. Op deze manier leert de applicatie zeldzame woorden kennen en koppelt de software het woord aan het opgenomen audiofragment. Door consequent foutief geschreven woorden aan te passen, zal de software een stuk beter werken.

Nuance

De meest voor de hand liggende toepassing van spraakherkenning is teksten schrijven. Nadat het neurale netwerk heeft bepaald welk woord je hebt uitgesproken, is het immers een kleine stap om dit woord in een tekstverwerker te schrijven. Zowat de bekendste en meest gebruikte spraakherkenningssoftware waarmee je teksten kan schrijven, is Dragon van Nuance. De software is ondertussen al aan zijn veertiende editie toe en kan je, behalve voor teksten schrijven, ook in Internet Explorer, Firefox en Chrome gebruiken. Aangezien Dragon een persoonlijk spraakprofiel aanmaakt, dien je een tekst voor te lezen alvorens je de software kan gebruiken. Hier ben je ongeveer een minuut aan kwijt.

Ook wie niet op zoek is naar spraakherkenningssoftware om mee te schrijven, kan al eens in aanraking zijn gekomen met software van Nuance. Het bedrijf werkt immers nauw samen met andere firma’s, waaronder auto- en tv-fabrikanten, en er wordt gefluisterd dat het spraakherkenningsgedeelte van Siri door Nuance werd aangeleverd. Bovendien biedt Nuance zijn eigen digitale assistent aan, Nina. ING gebruikt deze software onder de naam Inge om klanten te helpen die naar de hulplijn bellen.

Smartphone

Aangezien Inge is geoptimaliseerd voor ING kan je aan haar slechts vragen stellen over bankzaken. De digitale assistent is immers gespecialiseerd: wanneer je haar bijvoorbeeld naar het weerbericht vraagt, zal ze geen antwoord kunnen geven. Assistenten die wel goed zijn in het beantwoorden van erg uiteenlopende vragen, kan je terugvinden op je smartphone. Google, Apple en Microsoft bieden elk een digitale assistent aan waarvoor het weerbericht opzoeken een koud kunstje is. Deze software werkt door spraakherkenningstechnologie te combineren met een systeem dat natuurlijke spraak kan verwerken. Het is immers niet voldoende om te weten wat je zegt; de assistenten moeten ook begrijpen wat je bedoelt en hier correct op reageren.

Dankzij deze integratie kan je aan Google Now, Siri en Cortana erg uiteenlopende vragen stellen. Hierbij hoef je je niet te beperken tot een bepaald onderwerp, al zullen de assistenten wel regelmatig zoekresultaten van het internet tonen in plaats van een concreet antwoord. Op deze manier zorgen Google, Apple en Microsoft ervoor dat je nog steeds de juiste informatie krijgt wanneer de assistent je vraag niet begrijpt. De technologie staat al ver ten opzichte van enkele jaren geleden, maar is jammer genoeg nog steeds niet feilloos.

Windows Speech Recognition

Gadgetliefhebbers kunnen hun hart ophalen aan digitale assistenten op hun smartphone en computer, maar voor mensen met een beperking vormt spraakherkenningstechnologie pas echt de toekomst. Voor mensen met een motorische handicap kan het bedienen van een muis en toetsenbord (zo goed als) onmogelijk zijn. Spraakherkenningstechnologie stelt hen in staat om toch met een computer te interageren en het wereldwijde web in te duiken.

Eerder hebben we al aangehaald dat je Dragon ook in je browser kan gebruiken en er bestaat gespecialiseerde software voor mensen met een beperking. Wie niet veel geld te besteden heeft, hoeft echter niet ver te zoeken: sinds Windows Vista staat er standaard spraakherkenningssoftware op je pc. Je kan de software terugvinden onder de naam ‘Windows Speech Recognition’. Jammer genoeg ondersteunt de applicatie van Microsoft geen Nederlands, maar door de juiste Engelse commando’s uit te spreken kan je zowat alle computertaken uitvoeren die je anders met je muis of toetsenbord zou doen. Met de zin “What can I say?” kan je een lijst oproepen met alle mogelijke commando’s.