Automatic Document Classification:  combining image and text information to enhance quality and performances

Tomazzoli, Claudio

LA classificazione automatica di documenti estrae informazioni mediante un’analisi automatica sul contenuto dei documenti stessi. Si tratta di un campo di ricerca sempre di maggiore interesse a causa della grande quantità di documenti elettronici disponibili nella rete. Diverse aree beneficiano della classificazione automatica di documenti, come l’archiviazione di documenti, l’elaborazione delle fatture in ambiente aziendale, i comunicati stampa, i motori di ricerca, etc. Gli attuali strumenti classificano o taggano o testi o immagini; collegando immagine e il testo di contenuti, una tecnologia in grado di migliorare le attività di gestione dei documenti fondamentali quali il recupero di informazioni da un database o instradando automaticamente i documenti per ottenere ricerche più complete e processi aziendali semplificati. L’argomento della mia tesi è la ricerca e l’implementazione di un algoritmo per la ricerca e l’analisi delle informazioni contenuti in documenti complessi contenenti cioè sia componenti testuali che visuali (immagini).

Automatic document classification process extracts information with an automatic analysis of the content of documents. Is is an active research field of growing importance due to the large amount of electronic documents produced almost daily and worldwide available thanks to diffused technologies. Several application areas benefits of automatic document classification, like document archiving, invoice processing in business environment, press releases, research engines, etc... Current tools classify or "tag" either text or images so they can be processed; by linking image and text-based content, a technology can improve fundamental document management tasks like retrieving information from a database or automatically routing documents to achieve more complete searches and streamlined business processes. In this work, we firstly make an investigation of a possible model for conceptual space of the joint information from the text and the images forming complex documents.We present a formal definition of pertinence and relevance concepts that apply to those documents types we name ``multimodal" and we develop a computable algorithm.Then we present the test dataset which will be used to validate and improve the model.Finally we explain the experiments performed and related results.

Automatic Document Classification: combining image and text information to enhance quality and performances

TOMAZZOLI, Claudio

2014-01-01

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno di conseguimento del titolo
	
				2014
			
	Parole Chiave
	
				CLASSIFICATION; information retrieval; Indicizzazione semantica
			
	Breve descrizione dei contenuti (Abstract)
	
				LA classificazione automatica di documenti estrae informazioni mediante un’analisi automatica sul contenuto dei documenti stessi. Si tratta di un campo di ricerca sempre di maggiore interesse a causa della grande quantità di documenti elettronici disponibili nella rete. Diverse aree beneficiano della classificazione automatica di documenti, come l’archiviazione di documenti, l’elaborazione delle fatture in ambiente aziendale, i comunicati stampa, i motori di ricerca, etc. Gli attuali strumenti classificano o taggano o testi o immagini; collegando immagine e il testo di contenuti, una tecnologia in grado di migliorare le attività di gestione dei documenti fondamentali quali il recupero di informazioni da un database o instradando automaticamente i documenti per ottenere ricerche più complete e processi aziendali semplificati. L’argomento della mia tesi è la ricerca e l’implementazione di un algoritmo per la ricerca e l’analisi delle informazioni contenuti in documenti complessi contenenti cioè sia componenti testuali che visuali  (immagini).
			
	Appare nelle tipologie:
	
				07.13 Doctoral Thesis

File in questo prodotto:

File	Dimensione	Formato
Tesi_PDH_Tomazzoli.pdf non disponibili Tipologia: Tesi di dottorato Licenza: Accesso ristretto Dimensione 10.18 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	10.18 MB	Adobe PDF	Visualizza/Apri Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/678359

CATALOGO DEI PRODOTTI DELLA RICERCA

Automatic Document Classification: combining image and text information to enhance quality and performances

TOMAZZOLI, Claudio

2014-01-01

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

Citazioni

social impact

CATALOGO DEI PRODOTTI DELLA RICERCA

Automatic Document Classification: combining image and text information to enhance quality and performances

TOMAZZOLI, Claudio

2014-01-01

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)