stemassistenten
© iStock

Alsmaar meer mensen gebruiken een digitale assistent om het dagelijkse leven wat makkelijker te maken. In steeds meer huishoudens hoor je dan ook uitspraken als “Alexa, turn off the light”, “Hey Google zet de verwarming hoger” of “Siri, zet een timer van zeven minuten”. Dat is niet van vandaag op gisteren gebeurd, maar er gaat een hele geschiedenis aan vooraf. Wie zijn die stemassistenten, van waar komen ze? En vooral: welke is het best te vertrouwen? Om een antwoord op die vraag te zoeken nemen we de geschiedenis van ’s werelds bekendste stemassistenten onder de loep. Daarnaast wordt kort stilgestaan bij de mogelijkheden ze bieden en hoe deze in de toekomst verder uitgebreid zouden kunnen worden.

De oorsprong van stemassistenten

Wil je een computerbedrijf oprichten en de manier waarop mensen technologie gebruiken revolutioneren? Haal de popcorn er dan maar bij, want het is tijd om een sciencefictionmarathon te houden. Tenminste, zo lijkt het toch: technologische ontwikkelingen zijn vaak eerst te zien in films over ruimtevaart, robotica, tijdreizen en aliens. Zo zien we de wortels van VR- en AR-technologie in de film Tron, zaten er zelfrijdende auto’s in Total Recall en kon Captain Kirk met zijn ‘mobiele communicator’ de USS Enterprise altijd bereiken. Philip K. Dick ‘voorspelde’ in Blade Runner dan weer dat AI-systemen op een bepaald punt haast menselijk zouden worden. In Stanley Kubricks 2001: A Space Odyssey liet HAL 9000 ons al kennismaken met de virtueleassistent. Recenter is er dan weer de film Her, waarin Joaquin Phoenix verliefd wordt op stemassistente Samantha. Of wat dacht je van J.A.R.V.I.S., het slimme computersysteem van Tony Stark in de succesvolle Iron Man- en Avengers-filmreeksen van Disney? Kortom: de mens fantaseert al langer over virtuele stemassistenten. Anno 2023 bieden meerdere technologiebedrijven zulke assistenten aan. Helaas, maar tegelijkertijd misschien maar goed ook, nemen die assistenten zelden de vorm aan van in de films. De Alexa’s, Google’s, Cortana’s en Siri’s van deze wereld kunnen voorlopig nog altijd niet tippen aan J.A.R.V.I.S. en Samantha. Je zou haast denken dat het technologie is die nog in zijn kinderschoenen staat. Dat is ook zo, ware het niet dat die kinderschoenen er inmiddels al een hele weg op hebben zitten.  

Spraaktechnologie

Je kan natuurlijk geen digitale assistent ontwikkelen die jou niet verstaat of die zelf niet kan spreken. De eerste uitdaging is dan ook om computers, die normaal gezien alleen in enen en nullen communiceren, menselijke taal te doen verstaan. Eind jaren 90 werden er dan ook verschillende bedrijven uit de grond gestampt die zich daarop focusten. Verder dan de Westhoek moet je daar niet voor kijken: Lernout & Hauspie Speech Products was zo’n gekend bedrijf dat mensen het vandaag nog herkennen aan de afkorting: L&H. Het bedrijf werd in 1987 opgericht en specialiseerde zich spraakherkenning, spraaksynthese en spraakcompressie – allemaal elementen die onmisbaar zijn indien je computers een stem wil geven. Het Belgische spraaktechnologiebedrijf was lang niet de enige die zich hierin specialiseerde, maar wel een van de snelste groeiers. In sneltempo wist het bedrijf investeerders aan zich te binden en in 1995 werd het zelfs het eerste Belgische bedrijf met een notatie aan de Amerikaanse NASDAQ. Lang mocht dat verhaal niet duren: L&H werd in 2001 failliet verklaard en zou de jaren daarna vooral in het nieuws komen met een grote fraudezaak.

Naast een erg creatieve boekhouding, konden ze bij L&H echter wel knappe technologie voorleggen. Andere taaltechnologiebedrijven hielden zich in die tijd vooral bezig met één taal: het Engels. In West-Vlaanderen lag dat anders. Daar zagen ze in dat spraaktechnologie ook wat kon opleveren indien die in het Nederlands, Frans, Duits, Spaans, Koreaans of noem-maar-op werd ontwikkeld. Het bedrijf zou ook, als een van de eersten, een neuraal netwerk inzetten om die spraakherkenning in goede banen te leiden. Die aanpak wordt, mede door het vloeiende en dynamische karakter van taal, vandaag nog steeds gebruikt. Probeer zelf maar eens naar een verhaal in een vreemde taal te luisteren: het is enorm moeilijk om te bepalen waar een woord eindigt en waar er een nieuw begint. Daarnaast gaf het bedrijf letterlijk een stem aan computers met de tekst-naar-spraaksystemen die het ontwikkelde. Wie de tekst-naar-spraakmogelijkheden in Microsoft Office 2003 gebruikte, heeft de vruchten daarvan mogelijk al eens gehoord: Michael en Michelle zijn twee computerstemmen die door het Belgische bedrijf ontwikkeld werden.

Herschikking

De erfenis van L&H is dus groter dan alleen een fraudeschandaal, al kan het moeilijk zijn om dat voor de geest te halen. Kort na het failliet van het Belgische spraaktechnologiebedrijf kocht het Amerikaanse ScanSoft alle activa van L&H. In 2005 fuseerde dat bedrijf dan weer met Nuance Communications, nog een bedrijf dat zich toespitste op taaltechnologie, en nam het de naam ervan over. Uiteindelijk krijgt Microsoft het bedrijf in het vizier, waarna besloten wordt tot een overname. Die kostte net geen 20 miljard dollar en werd pas in mei 2022 afgerond. Dat maakt meteen duidelijk hoe belangrijk die spraaktechnologie ook vandaag nog is: enkel voor de acquisitie van LinkedIn, het zakelijke sociale medium, had Microsoft meer geld over. Hoe dan ook: het is die overname die het mogelijk maakte dat Microsofts Cortana, uit de bekende Halo-schietspellen, in 2014 werkelijkheid werd. Zo gaat het ook voor andere spraaktechnologiebedrijven: stuk voor stuk worden ze opgekocht door de grote techreuzen, de ene al wat vroeger of later dan de andere. Microsoft, Google, Amazon en Apple hebben ondertussen allemaal een spraaktechnologiebedrijf in hun portefeuille zitten of werken er intern aan. Amazon kocht in 2013 bijvoorbeeld een Poolse spraakgenerator die het op een jaar tijd omvormde naar Alexa.

Siri spreekt haar eerste woorden

Bij Apple gebeurde dat toen het Siri kocht. Die spraakassistent werd in februari 2010 gelanceerd als app in de Apple App Store. Aanvankelijk had de uitgever van die app ook plannen om de applicatie naar Android- en zelfs Blackberry-toestellen te brengen. In April 2010 trok Steve Jobs echter een streep door die plannen toen Apple de app kocht. Een dik jaar later, in oktober 2011, lanceerde Apple de iPhone 4S. Die telefoon kreeg meteen een Siri-integratie, al ging het toen nog om een bètaversie en geen afgewerkt product. Gebruikers van oudere iPhones hadden pech: de app zou daarbij namelijk uit de App Store verdwijnen. Om Siri te gebruiken moest je dus upgraden naar een nieuw toestel. Op de vraag van waar Siri haar stembanden haalde, wilde lang niemand een antwoord geven. In 2013 bracht de CEO van Nuance, het spraaktechnologiebedrijf onder de hoede van Microsoft, weten dat de technologie van bij hen kwam. De gekende stem zélf, die komt van Susan Bennet. In 2005 liet zij haar stem opnemen, zonder te weten waarvoor die later gebruikt zou worden. Forensische audio-onderzoekers bevestigden dat Siri in het Engels inderdaad als Bennet klinkt. Apple zelf wil echter niets kwijt over de identiteiten achter de verschillende Siri-stemmen. De Nederlandstalige versie van Siri? Die vrouwenstem werd ingesproken door Libelia Desplenter. Zij werkte bij het Belgische L&H voor dat failliet ging. Via ScanSoft en Nuance Communications belandde haar stem uiteindelijk op iPhones over de hele wereld.

Google door kindertijd en puberteit

De weg naar een spraakassistent was voor Google veel langer. Aanvankelijk was het Google, als grootste zoekmachine, vooral te doen om spraakherkenning. Gebruikers zouden hun zoekopdracht dan niet langer moeten intypen, maar kunnen ze gewoon uitspreken. Die functie werd in 2012 naar Google.com gebracht. Die dienst zou uiteindelijk gefuseerd worden met Google Now, die informatiekaarten toont in plaats van de gewone zoekresultaten. In vergelijking met Alexa en Siri, die meer konden dan alleen opzoekingen maken, was het aanbod van Google nogal pover. Now sprak namelijk niet terug, terwijl alle andere assistenten die functies op dat moment al wel boden. Uiteindelijk zou het tot 2016 voor Google met een volwaardige assistent, Google Assistant, op de proppen komt. Die assistent kan nog steeds opzoekingen doen op het internet, zoals zijn voorganger, maar kan nu ook echt converseren. Dankzij een neuraal taalverwerkingsalgoritme dat Google zelf ontwikkelde, weet Assistant wat je zegt en kan je vragen om bepaalde taken uit te voeren.

Wie is de slimste assistent ter wereld?

Eenvoudig is het echter niet om uit dit aanbod de beste spraakassistent te kiezen: allemaal hebben ze hun voor- en nadelen. Siri heeft bijvoorbeeld de neiging om middenin een gesprek plots tussen te komen. Het is dan ook een slecht hotword voor het Nederlands:de klanken die het gebruikt komen in het Nederlands vrij vaak voor. Alexa heeft dat probleem minder, waardoor zij minder vaak per abuis wordt opgeroepen. Dat kan echter ook liggen aan het feit dat Alexa geen Nederlands spreekt – en dus feitelijk nooit een idee heeft van wat je allemaal aan het zeggen bent. Hoe bruikbaar een slimme assistent is, hing vroeger vooral af van welke apparaten je in huis hebt. Ondersteunen je lampen bijvoorbeeld geen Siri? De kans is klein dat je dan overstapt naar Google Assistant, aangezien die chatbot niet beschikbaar is voor Apple-toestellen. Met de introductie van Matter maakt dat echter veel minder uit: in principe werken alle slimme lampen met Matter-ondersteuning met eender welke assistent. Je moet er alleen een ‘thread border router’ voor kopen. Dat zijn apparaten die vaak dubbelen als slimme speaker. Amazon biedt de goedkoopste Echo Dot-speaker aan, terwijl de instapprijs bij Apple en Google rond de honderd euro ligt.

Ondersteunen je slimme apparaten nog geen Matter? Weet dan dat Amazon veruit het meeste apparaten en merken ondersteunt, ook al spreekt de assistent slechts een handvol talen. Google neemt op beide vlakken de middenpositie in, terwijl Siri vooral taalkundig heel sterk is.

Stemknop

De beste stemassistent? Dat is volgens ons de stemassistent die je al het langst gebruikt en die je het breedst kan inzetten, maar die eigenschappen gaan hand in hand. De reden daarvoor is simpel, net zoals de stemassistenten zelf: ze kunnen wel spreken, maar niet écht nadenken. Met een opdracht als “Hey Google, maak het hier wat gezelliger”, weet zo’n assistent niet wat die moet doen. Een stemassistent werkt doordat bepaalde woorden bepaalde acties triggeren, maar “maak het gezellig” betekent voor het systeem niets. Wel kan je zelf instellen of programmeren wat de assistent doet bij bepaalde uitingen. Dat werkt voor de drie grootste assistenten – Alexa, Siri en Google Assistant – even goed, al zal je snel doorhebben dat de assistenten eigenlijk helemaal niet zo slim zijn. Echt iets conversationeels is er niet aan. In feite druk je gewoon op een knop, maar dan met je stem. Dat zou in de nabije toekomst snel kunnen veranderen. AI-systemen als ChatGPT, Bing en Bard – de meest bekende AI-chatbots van het moment – werken vandaag nog vooral met tekst. De systemen zijn dan ook nog niet volledig uitgerust om de taken van een stemassistent over te nemen, al kan dat snel veranderen. AI zou de mogelijkheden van zulke assistenten kunnen verbreden, waardoor ze kunnen leren om te verstaan wat je bedoelt, niet louter wat je zegt. Dat is echter toekomstmuziek en hoelang het duurt vooraleer Alexa, Siri of Google weet hoe ze die moet afspelen, dat kan niemand zeggen. Volgens Cortana, die onlangs vervangen werd door het Copilot-AI-systeem in Windows, zou dat niet te lang meer duren.