Het digitaliseren van oude documenten verloopt vaak met horten en stoten omdat papier in de loop van de tijd slecht leesbaar is. Dr. Tan Lu van de VUB- onderzoeksgroep Digital Mathematics ontwikkelde voor zijn doctoraatsonderzoek software die zich niet laat foppen door scheuren, vlekken of slechte scans.
In de culturele erfgoedsector is het digitaliseren van oude documenten een belangrijke taak omdat die documenten op die manier doorzoekbaar worden. Dat scannen verloopt aan de hand van optical character recognition (ocr), waarbij de computer als het ware de letters van het document ‘herkent’. De techniek is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken door de ‘frivole’ tekst-opmaak die voorkomt in bijvoorbeeld reclames en modetijdschriften.
Onder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks ‘homogeniteitsmodellen’ die de computer helpen hun tekstherkenning sterk te verbeteren. In deze modellen formuleerde hij scenario’s om diverse problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden.
Lu: ‘De gestaltpsychologie leert ons dat mensen losse objecten van eenzelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren.’
Door dus inzichten uit de waarnemingspsychologie te integreren in een zogenoemd ‘probabilistisch lokaal teksthomogeniteitsmodel’, leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.
Kracht
Lu heeft met zijn onderzoek een aantal lang bestaande problemen binnen tekstherkenning opgelost waarbij zijn werk de kracht demonstreert van een wiskundige benadering van beeldverwerkingsproblemen. De ontwikkeling van nieuwe wiskundige modellen blijkt het ware potentieel te kunnen ontketenen dat schuilgaat achter de digitalisering van oude en waardevolle documenten. De software die binnen dit onderzoek door de onderzoeksgroep Digital Mathematics ontwikkeld werd, won in 2019 de internationale ICDAR-prijs voor documentherkenning.