L'obiettivo di questa tesi è lo studio di due problematiche fondamentali della visione computazionale: la localizzazione direttamente da immagini e la segmentazione semantica di un'immagine. Il primo contributo di questa tesi è lo sviluppo di un sistema che calcola un'accurata e rapida localizzazione di una fotocamera portatile, utilizzando oltre ad un dataset di immagini pre-registrate, dati tridimensionali ottenuti da una ricostruzione mediante un algoritmo di "Structure from Motion". L'informazione 3D viene considerata sotto due differenti aspetti: in primo luogo essa è direttamente coinvolta nella fase di registrazione della camera da cui si ottengono robuste corrispondenze di tipo 2D-3D invece di coppie di punti salienti 2D-2D; inoltre il sistema, nella sua fase di reperimento di immagini similari, sfrutta la fase di clusterizzazione dell'algoritmo di "Structure from Motion" migliorando la propria efficienza e robustezza. La seconda parte della tesi consiste in una analisi dettagliata di uno dei componenti principali del sistema di localizzazione, l'algoritmo di stima della posa della camera partendo da corrispondenze 2D-3D. In particolare viene presentata una nuova formulazione del problema, in letteratura indicato come "Perspective-n-Point problem" o "exterior orientation problem", trasformandola in un'istanza di un problema di analisi di Procrustes di tipo anisotropico ortogonale. Il contributo finale della tesi è lo sviluppo di un nuovo approccio per la segmentazione semantica di immagini in contesto urbano che coinvolge anch'esso in maniera preponderante la struttura tridimensionale ottenuta dall'algoritmo di "Structure from Motion" in termini di trasferimento di etichette semantiche da un'immagine precedentemente annotata all'immagine di test. L'immagine da annotare può essere sia un'immagine appartenente al dataset di partenza dell'algoritmo di "Structure from Motion" a cui non è stata associata nessuna informazione semantica, sia un'immagine esterna al dataset che è stata appena registrata mediante il sistema di localizzazione precedentemente descritto. L'assegnamento delle etichette è modellato mediante un Markov random field i cui nodi sono superpixel estratti dall'immagine di test.

The aim of this thesis is the study of two fundamental problems in computer vision: localization from images and semantic image segmentation. The first contribution of this thesis is the development of a complete system that obtains an accurate and fast localization of a hand-held camera device, leveraging not only on a dataset of registered images but also on the three-dimensional information obtained by a Structure from Motion reconstruction. We exploit the 3D structure under two different aspect: first it is directly involved in the camera registration making available robust 2D-3D correspondences instead of 2D-2D pairs of matched features, furthermore we take advantage of the image clustering computed in the Structure from Motion algorithm during the retrieval step of the localization system improving both robustness and efficiency of the aforementioned algorithmic stage. The second part of the thesis consists in an in-depth analysis of one of the main components of the localization system, the camera pose estimation from 2D-3D correspondences. In particular we present a novel formulation of the Perspective-n-Point problem, also known as exterior orientation, in terms of an instance of anisotropic orthogonal Procrustes problem. The last contribution of the thesis is the proposal of a new approach to semantic image segmentation in urban environment that deeply involves the Structure from Motion 3D structure in terms of label transfer from a pre-labeled image to a query image. The query image can be whether an image belonging to the SfM dataset that does not have any semantic information or an external image that has just been localized by the localization system aforementioned. The label assignment problem is modeled as a Markov random field where the nodes are the superpixels of the query image.

Image localization and parsing using 3D structure

GARRO, Valeria
2013-01-01

Abstract

The aim of this thesis is the study of two fundamental problems in computer vision: localization from images and semantic image segmentation. The first contribution of this thesis is the development of a complete system that obtains an accurate and fast localization of a hand-held camera device, leveraging not only on a dataset of registered images but also on the three-dimensional information obtained by a Structure from Motion reconstruction. We exploit the 3D structure under two different aspect: first it is directly involved in the camera registration making available robust 2D-3D correspondences instead of 2D-2D pairs of matched features, furthermore we take advantage of the image clustering computed in the Structure from Motion algorithm during the retrieval step of the localization system improving both robustness and efficiency of the aforementioned algorithmic stage. The second part of the thesis consists in an in-depth analysis of one of the main components of the localization system, the camera pose estimation from 2D-3D correspondences. In particular we present a novel formulation of the Perspective-n-Point problem, also known as exterior orientation, in terms of an instance of anisotropic orthogonal Procrustes problem. The last contribution of the thesis is the proposal of a new approach to semantic image segmentation in urban environment that deeply involves the Structure from Motion 3D structure in terms of label transfer from a pre-labeled image to a query image. The query image can be whether an image belonging to the SfM dataset that does not have any semantic information or an external image that has just been localized by the localization system aforementioned. The label assignment problem is modeled as a Markov random field where the nodes are the superpixels of the query image.
2013
Computer Vision; localization; Image Segmentation; camera pose
L'obiettivo di questa tesi è lo studio di due problematiche fondamentali della visione computazionale: la localizzazione direttamente da immagini e la segmentazione semantica di un'immagine. Il primo contributo di questa tesi è lo sviluppo di un sistema che calcola un'accurata e rapida localizzazione di una fotocamera portatile, utilizzando oltre ad un dataset di immagini pre-registrate, dati tridimensionali ottenuti da una ricostruzione mediante un algoritmo di "Structure from Motion". L'informazione 3D viene considerata sotto due differenti aspetti: in primo luogo essa è direttamente coinvolta nella fase di registrazione della camera da cui si ottengono robuste corrispondenze di tipo 2D-3D invece di coppie di punti salienti 2D-2D; inoltre il sistema, nella sua fase di reperimento di immagini similari, sfrutta la fase di clusterizzazione dell'algoritmo di "Structure from Motion" migliorando la propria efficienza e robustezza. La seconda parte della tesi consiste in una analisi dettagliata di uno dei componenti principali del sistema di localizzazione, l'algoritmo di stima della posa della camera partendo da corrispondenze 2D-3D. In particolare viene presentata una nuova formulazione del problema, in letteratura indicato come "Perspective-n-Point problem" o "exterior orientation problem", trasformandola in un'istanza di un problema di analisi di Procrustes di tipo anisotropico ortogonale. Il contributo finale della tesi è lo sviluppo di un nuovo approccio per la segmentazione semantica di immagini in contesto urbano che coinvolge anch'esso in maniera preponderante la struttura tridimensionale ottenuta dall'algoritmo di "Structure from Motion" in termini di trasferimento di etichette semantiche da un'immagine precedentemente annotata all'immagine di test. L'immagine da annotare può essere sia un'immagine appartenente al dataset di partenza dell'algoritmo di "Structure from Motion" a cui non è stata associata nessuna informazione semantica, sia un'immagine esterna al dataset che è stata appena registrata mediante il sistema di localizzazione precedentemente descritto. L'assegnamento delle etichette è modellato mediante un Markov random field i cui nodi sono superpixel estratti dall'immagine di test.
File in questo prodotto:
File Dimensione Formato  
GarroPhdThesisSmallLastVersion.pdf

non disponibili

Tipologia: Tesi di dottorato
Licenza: Accesso ristretto
Dimensione 4.2 MB
Formato Adobe PDF
4.2 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/533354
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact