Een team van onderzoekers en ingenieurs bij Microsoft Artificial Intelligence & Research heeft naar eigen zeggen een doorbraak gemaakt in spraakherkenningstechnologie. Het team heeft een spraakherkenningssysteem ontwikkeld dat de woorden in een gesprek bijna net zo goed herkent als een mens dat doet.
De doorbraak zal volgens de softwaregigant van grote invloed zijn op consumenten- en zakelijke producten die aanzienlijk kunnen worden verbeterd met spraakherkenning. Dat geldt onder andere voor hulpprogramma’s voor toegankelijkheid zoals instant spraak-naar-tekst-transcriptie en digitale assistenten.
Neuraal netwerk
‘Deze mijlpaal is het resultaat van twintig jaar hard werken’, aldus Geoffrey Zweig, die leiding geeft aan de onderzoeksgroep. Microsoft benadrukt dat de computer niet elk woord perfect herkent, maar dat het foutenpercentage gelijk is als wanneer een mens naar het gesprek luistert. Zweig stelt dat de doorbraak met name te danken is aan het systematische gebruik van de laatste neurale netwerktechnologie. Diepe neurale netwerken gebruiken enorme hoeveelheden data, genaamd training sets, om het computersysteem te leren om patronen te herkennen afkomstig van beelden of geluiden. Het team gebruikte hiervoor de Computational Network Toolkit, een eigen systeem voor deep learning, dat nu op de site GitHub beschikbaar is via opensource.
Van herkenning naar begrijpen
Het onderzoeksteam benadrukt dat er nog een lange weg te gaan is. Zweig: ‘We onderzoeken nu manieren om ervoor te zorgen dat spraakherkenning kan werken in meer realistische situaties. Hierbij gaat het bijvoorbeeld om plaatsen met veel achtergrondgeluid. Ook willen we het mogelijk maken dat een computer een gesprek tussen meerdere personen kan volgen en dat spaaktechnologie werkt bij verschillende stemmen, ongeacht leeftijd, accent of spraakvermogen. Op de lange termijn willen we bereiken dat computers niet enkel spraak herkennen, maar ook de woorden begrijpen.’