LA classificazione automatica di documenti estrae informazioni mediante un’analisi automatica sul contenuto dei documenti stessi. Si tratta di un campo di ricerca sempre di maggiore interesse a causa della grande quantità di documenti elettronici disponibili nella rete. Diverse aree beneficiano della classificazione automatica di documenti, come l’archiviazione di documenti, l’elaborazione delle fatture in ambiente aziendale, i comunicati stampa, i motori di ricerca, etc. Gli attuali strumenti classificano o taggano o testi o immagini; collegando immagine e il testo di contenuti, una tecnologia in grado di migliorare le attività di gestione dei documenti fondamentali quali il recupero di informazioni da un database o instradando automaticamente i documenti per ottenere ricerche più complete e processi aziendali semplificati. L’argomento della mia tesi è la ricerca e l’implementazione di un algoritmo per la ricerca e l’analisi delle informazioni contenuti in documenti complessi contenenti cioè sia componenti testuali che visuali (immagini).

Automatic document classification process extracts information with an automatic analysis of the content of documents. Is is an active research field of growing importance due to the large amount of electronic documents produced almost daily and worldwide available thanks to diffused technologies. Several application areas benefits of automatic document classification, like document archiving, invoice processing in business environment, press releases, research engines, etc... Current tools classify or "tag" either text or images so they can be processed; by linking image and text-based content, a technology can improve fundamental document management tasks like retrieving information from a database or automatically routing documents to achieve more complete searches and streamlined business processes. In this work, we firstly make an investigation of a possible model for conceptual space of the joint information from the text and the images forming complex documents.We present a formal definition of pertinence and relevance concepts that apply to those documents types we name ``multimodal" and we develop a computable algorithm.Then we present the test dataset which will be used to validate and improve the model.Finally we explain the experiments performed and related results.

Automatic Document Classification: combining image and text information to enhance quality and performances

TOMAZZOLI, Claudio
2014-01-01

Abstract

Automatic document classification process extracts information with an automatic analysis of the content of documents. Is is an active research field of growing importance due to the large amount of electronic documents produced almost daily and worldwide available thanks to diffused technologies. Several application areas benefits of automatic document classification, like document archiving, invoice processing in business environment, press releases, research engines, etc... Current tools classify or "tag" either text or images so they can be processed; by linking image and text-based content, a technology can improve fundamental document management tasks like retrieving information from a database or automatically routing documents to achieve more complete searches and streamlined business processes. In this work, we firstly make an investigation of a possible model for conceptual space of the joint information from the text and the images forming complex documents.We present a formal definition of pertinence and relevance concepts that apply to those documents types we name ``multimodal" and we develop a computable algorithm.Then we present the test dataset which will be used to validate and improve the model.Finally we explain the experiments performed and related results.
2014
CLASSIFICATION; information retrieval; Indicizzazione semantica
LA classificazione automatica di documenti estrae informazioni mediante un’analisi automatica sul contenuto dei documenti stessi. Si tratta di un campo di ricerca sempre di maggiore interesse a causa della grande quantità di documenti elettronici disponibili nella rete. Diverse aree beneficiano della classificazione automatica di documenti, come l’archiviazione di documenti, l’elaborazione delle fatture in ambiente aziendale, i comunicati stampa, i motori di ricerca, etc. Gli attuali strumenti classificano o taggano o testi o immagini; collegando immagine e il testo di contenuti, una tecnologia in grado di migliorare le attività di gestione dei documenti fondamentali quali il recupero di informazioni da un database o instradando automaticamente i documenti per ottenere ricerche più complete e processi aziendali semplificati. L’argomento della mia tesi è la ricerca e l’implementazione di un algoritmo per la ricerca e l’analisi delle informazioni contenuti in documenti complessi contenenti cioè sia componenti testuali che visuali (immagini).
File in questo prodotto:
File Dimensione Formato  
Tesi_PDH_Tomazzoli.pdf

non disponibili

Tipologia: Tesi di dottorato
Licenza: Accesso ristretto
Dimensione 10.18 MB
Formato Adobe PDF
10.18 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/678359
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact