Classificare automaticamente categorie differenti di oggetti presenti in immagini e video è una delle principali sfide nell'abito della visione computazionale (computer vision). Tra di esse, i pedoni e più in generale gli umani rappresentano la categoria di principale interesse in quanto rappresentano una informazione di estremo interesse in molte applicazioni come la video sorveglianza, in sistemi di navigazione automatica e di controllo in robotica. Nonostante i notevoli sforzi ed i considerevoli progressi in termini di accuratezza e velocità di processamento degli ultimi anni, i sistemi attuali non sono ancora pronti per essere utilizzati in applicazioni commerciali. Inoltre, anche se alcune implementazioni su piattaforme hardware sono state recentemente proposte in letteratura, pochi sistemi per la detezione di oggetti sono stati appositamente sviluppati per essere realizzati su sistemi dedicati. L'obiettivo di questa tesi è quello di sviluppare ed implementare un sistema ottimizzato per piattaforme FPGA che sia capace di raggiungere prestazioni elevate in termini di velocità ed accuratezza in problemi di detezione di oggetti, con particolare attenzione ai pedoni. Una serie di matrici di covarianza, calcolate su segnali eterogenei come derivate di intensità o caratteristiche di tessitura, sono state impiegate per codificare l'apparenza locale degli oggetti di interesse. Le matrici di covarianza permettono di codificare naturalmente le correlazioni tra segnali e garantiscono robustezza in differenti condizioni di luce. Il gran numero di parallelizzazioni offerte dalla architettura computazionale FPGA sono state sfruttate a differenti livelli. Il principale vantaggio è stata la possibilità di parallelizzare l'algoritmo raggiungendo prestazioni elevate, superiori a quelle raggiungibili con architetture seriali. Inoltre in questo lavoro nuove caratteristiche basate su segnali di intensità e profondità sono proposte, appositamente sviluppate per l'architettura FPGA di riferimento. L' approccio binoculare contribuisce a migliorare le prestazioni di tutto il sistema, rivelando l'importanza di avere informazioni sulla geometria della scena, di natura complementare rispetto alla immagine di intensità fornita dalle singole camere. Le prestazioni di detezione sono state valutate sistematicamente utilizzando diverse combinazioni di caratteristiche e classificatori, utilizzando dati pubblicamente disponibili estratti da scene video acquisite in ambienti reali. Gli esperimenti dimostrano che modelli di oggetti modulari, basati su serie di matrici di covarianza, sono capaci di codificare sinteticamente l'informazione proveniente da segnali eterogenei, sono facilmente generalizzabili a differenti categorie di oggetti e sono paricolarmente indicate per essere implementate su architetture parallele dedicate.

Automatic classifying different categories of objects in images and videos is one of the main goals in computer vision. Among them, pedestrians has attracted considerable attention as key component in different application domains such as video surveillance, navigation systems and robotic control. Despite continuous efforts over the last years to improve accuracy and processing performance, they are not ready for real-world applications yet. Additionally, although hardware solutions have recently demonstrated their reliability to solve some problems in computer vision, few ob ject detection systems are thought to be realized on emebedded devices. The aim of this thesis is to create an FPGA-based hardware implementation to achieve high performance on generic object class detection problems, customized for human detection. Array of covariance matrices, calculated on basic image cues, have been adopted to encode local appearance of humans. They allow to naturally encode intra features correlations and guarantee robustness to different light conditions. Massive parallelizations offered by the target platform are exploited at different levels. As a result a significant speed up of the detection process is achieved. Furthermore we propose new features based on visual and depth cue otherwise not feasible on common processors. Detection performance is evaluated systematically for different features-classifiers combinations to reach best results. All the experiments are performed on challenging real world data. The binocular approach improves performance with single camera, revealing the importance of complementary information coming from the awareness of scene geometry. Our experiments support that modular object models, based on array of covariance matrices, are effective to encapsulate multiple features from different cues and are well suited to be implemented on embedded devices.

An FPGA-Based Architecture for Binocular Scene Understanding

MARTELLI, Samuele
2012-01-01

Abstract

Automatic classifying different categories of objects in images and videos is one of the main goals in computer vision. Among them, pedestrians has attracted considerable attention as key component in different application domains such as video surveillance, navigation systems and robotic control. Despite continuous efforts over the last years to improve accuracy and processing performance, they are not ready for real-world applications yet. Additionally, although hardware solutions have recently demonstrated their reliability to solve some problems in computer vision, few ob ject detection systems are thought to be realized on emebedded devices. The aim of this thesis is to create an FPGA-based hardware implementation to achieve high performance on generic object class detection problems, customized for human detection. Array of covariance matrices, calculated on basic image cues, have been adopted to encode local appearance of humans. They allow to naturally encode intra features correlations and guarantee robustness to different light conditions. Massive parallelizations offered by the target platform are exploited at different levels. As a result a significant speed up of the detection process is achieved. Furthermore we propose new features based on visual and depth cue otherwise not feasible on common processors. Detection performance is evaluated systematically for different features-classifiers combinations to reach best results. All the experiments are performed on challenging real world data. The binocular approach improves performance with single camera, revealing the importance of complementary information coming from the awareness of scene geometry. Our experiments support that modular object models, based on array of covariance matrices, are effective to encapsulate multiple features from different cues and are well suited to be implemented on embedded devices.
2012
Embedded; FPGA; object detection; covariance matrices; Riemannian Manifold
Classificare automaticamente categorie differenti di oggetti presenti in immagini e video è una delle principali sfide nell'abito della visione computazionale (computer vision). Tra di esse, i pedoni e più in generale gli umani rappresentano la categoria di principale interesse in quanto rappresentano una informazione di estremo interesse in molte applicazioni come la video sorveglianza, in sistemi di navigazione automatica e di controllo in robotica. Nonostante i notevoli sforzi ed i considerevoli progressi in termini di accuratezza e velocità di processamento degli ultimi anni, i sistemi attuali non sono ancora pronti per essere utilizzati in applicazioni commerciali. Inoltre, anche se alcune implementazioni su piattaforme hardware sono state recentemente proposte in letteratura, pochi sistemi per la detezione di oggetti sono stati appositamente sviluppati per essere realizzati su sistemi dedicati. L'obiettivo di questa tesi è quello di sviluppare ed implementare un sistema ottimizzato per piattaforme FPGA che sia capace di raggiungere prestazioni elevate in termini di velocità ed accuratezza in problemi di detezione di oggetti, con particolare attenzione ai pedoni. Una serie di matrici di covarianza, calcolate su segnali eterogenei come derivate di intensità o caratteristiche di tessitura, sono state impiegate per codificare l'apparenza locale degli oggetti di interesse. Le matrici di covarianza permettono di codificare naturalmente le correlazioni tra segnali e garantiscono robustezza in differenti condizioni di luce. Il gran numero di parallelizzazioni offerte dalla architettura computazionale FPGA sono state sfruttate a differenti livelli. Il principale vantaggio è stata la possibilità di parallelizzare l'algoritmo raggiungendo prestazioni elevate, superiori a quelle raggiungibili con architetture seriali. Inoltre in questo lavoro nuove caratteristiche basate su segnali di intensità e profondità sono proposte, appositamente sviluppate per l'architettura FPGA di riferimento. L' approccio binoculare contribuisce a migliorare le prestazioni di tutto il sistema, rivelando l'importanza di avere informazioni sulla geometria della scena, di natura complementare rispetto alla immagine di intensità fornita dalle singole camere. Le prestazioni di detezione sono state valutate sistematicamente utilizzando diverse combinazioni di caratteristiche e classificatori, utilizzando dati pubblicamente disponibili estratti da scene video acquisite in ambienti reali. Gli esperimenti dimostrano che modelli di oggetti modulari, basati su serie di matrici di covarianza, sono capaci di codificare sinteticamente l'informazione proveniente da segnali eterogenei, sono facilmente generalizzabili a differenti categorie di oggetti e sono paricolarmente indicate per essere implementate su architetture parallele dedicate.
File in questo prodotto:
File Dimensione Formato  
Samuele_Martelli_PhD_Thesis_low.pdf

non disponibili

Tipologia: Tesi di dottorato
Licenza: Accesso ristretto
Dimensione 5.71 MB
Formato Adobe PDF
5.71 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/427537
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact