The contribution aims to describe the workflow that led to the production of a Handwritten Text Recognition (HTR) model for the automatic transcription of sixteenth century Venetian texts printed in aldine italics. In the first part, the scope of the study is defined, with particular attention to the state of the art and recent developments in the field of HTR regarding complex scripts, namely historical printed texts and manuscripts that, due to their characteristics, hinder the application of traditional Optical Character Recognition (OCR) systems. The second part outlines the main phases of the training process for the creation of the Italics_VeniceXVIs model, which represents a first step towards the interpretation of chivalric texts in italics of interest to the Mambrino Project at the University of Verona. Finally, the main characteristics of the model are identified, and, with a view to accessibility and reusability, future steps of the project are highlighted, suggesting possible implications of the research carried out in relation to other fields of study.

Il contributo intende descrivere il flusso di lavoro che ha condotto alla produzione di un modello di HTR (Handwritten Text Recognition) per la trascrizione automatica di testi veneziani del Cinquecento in corsivo aldino. Nella prima parte, si definisce l’ambito di studio, con particolare attenzione allo stato dell’arte e ai recenti sviluppi nel campo dell’HTR per quanto riguarda i complex scritps, vale a dire testi a stampa antichi e manoscritti che per le loro caratteristiche ostacolano l’applicazione dei tradizionali sistemi di OCR (Optical Character Recognition). Nella seconda parte, si espongono le principali fasi del lavoro di addestramento della macchina per la creazione del modello Italics_VeniceXVIs, che costituisce un primo passo per l’interpretazione dei testi cavallereschi in carattere corsivo di interesse del Progetto Mambrino dell’Università di Verona. Infine, si individuano le principali caratteristiche del modello e, in un’ottica di accessibilità e riutilizzo, si segnalano i passi futuri del progetto, suggerendo possibili ricadute della ricerca svolta in relazione con altri ambiti di studio.

La trascrizione automatica di documenti a stampa antichi. Appunti per un modello di riconoscimento della tipografia in corsivo

Bazzaco Stefano
2024-01-01

Abstract

The contribution aims to describe the workflow that led to the production of a Handwritten Text Recognition (HTR) model for the automatic transcription of sixteenth century Venetian texts printed in aldine italics. In the first part, the scope of the study is defined, with particular attention to the state of the art and recent developments in the field of HTR regarding complex scripts, namely historical printed texts and manuscripts that, due to their characteristics, hinder the application of traditional Optical Character Recognition (OCR) systems. The second part outlines the main phases of the training process for the creation of the Italics_VeniceXVIs model, which represents a first step towards the interpretation of chivalric texts in italics of interest to the Mambrino Project at the University of Verona. Finally, the main characteristics of the model are identified, and, with a view to accessibility and reusability, future steps of the project are highlighted, suggesting possible implications of the research carried out in relation to other fields of study.
2024
Automatic Text Recognition, HTR, OCR, Progetto Mambrino, aldine italics, Renaissance Venice printing press
trascrizione automatica, HTR, OCR, Progetto Mambrino, corsivo aldino, stampa veneziana del Rinascimento
Il contributo intende descrivere il flusso di lavoro che ha condotto alla produzione di un modello di HTR (Handwritten Text Recognition) per la trascrizione automatica di testi veneziani del Cinquecento in corsivo aldino. Nella prima parte, si definisce l’ambito di studio, con particolare attenzione allo stato dell’arte e ai recenti sviluppi nel campo dell’HTR per quanto riguarda i complex scritps, vale a dire testi a stampa antichi e manoscritti che per le loro caratteristiche ostacolano l’applicazione dei tradizionali sistemi di OCR (Optical Character Recognition). Nella seconda parte, si espongono le principali fasi del lavoro di addestramento della macchina per la creazione del modello Italics_VeniceXVIs, che costituisce un primo passo per l’interpretazione dei testi cavallereschi in carattere corsivo di interesse del Progetto Mambrino dell’Università di Verona. Infine, si individuano le principali caratteristiche del modello e, in un’ottica di accessibilità e riutilizzo, si segnalano i passi futuri del progetto, suggerendo possibili ricadute della ricerca svolta in relazione con altri ambiti di studio.
File in questo prodotto:
File Dimensione Formato  
La+trascrizione+automatica+di+documenti+a+stampa+antichi_Bazzaco.pdf

accesso aperto

Descrizione: articolo pubblicato PDF
Tipologia: Documento in Post-print
Licenza: Creative commons
Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/1138446
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact