Analysis tools for the cultural heritage

Grote collecties van handgeschreven materiaal zijn niet gemakkelijk te doorzoeken als men gebruik maakt van traditionele informatieverwerkingsmethoden. Het is voor mensen vaak lastig om het handschrift van een ander te lezen, en het lezen van schrift uit een andere periode in de geschiedenis is het nog lastiger. Voor een computer is het omzetten van handschrift naar tekst begrijpelijkerwijs nog moeilijker.
Hedendaagse technologie in optische karakter herkenning (OCR) is toegespitst op gescheiden karakters in een bekend en scherp afgedrukt lettertype (‘font’). Handgeschreven tekst kan niet herkend worden met deze precisie, vooral niet als het schuin en aan elkaar geschreven is. Het onderscheiden van de karakters in cursief schrift is een probleem op zich. Zelfs het isoleren van een afzonderlijk woord in een regel handgeschreven tekst is lastig omdat de inkt van woorden regelmatig door elkaar loopt. Het betrouwbaar automatisch herkennen van cursieve tekst kan niet worden opgelost in het eerstvolgende decennium. Als er echter meer realistische doelen worden gesteld dan kunnen informatieverwerking en methoden op hetgebied van machinaal leren een belangrijke rol spelen in het doorzoeken van handgeschreven teksten. Ook het semi-automatische omzetten van schriftbeeld naar tekst (’transcriberen’ of ‘annoteren’) zal in samenwerking tussen mens en machine kunnen worden gerealiseerd.

Meer weten?

Wil je meer informatie over de inhoud van het dossier of in contact worden gebracht met de kennisaanbieder? Neem dan contact met ons op.

Contact

Terug naar overzicht »