Questa tesi propone un nuovo tipo di analisi in Computer Vision basato sulla folla di spettatori, ovvero una folla formata da persone riunite per guardare qualcosa di specifico che attira il loro interesse. Alcuni scenari tipici in cui è presente la folla di spettatori sono gli stadi, i teatri, le aule, ecc., questi scenari condividono alcuni aspetti con la folla tradizionale; per esempio, il fatto che osservo molte persone contemporaneamente e quindi l'analisi sul singolo individuo è complicata; tuttavia, nel nostro caso, la dinamica delle persone è vincolata dalla struttura architettonica; in particolare, le persone tendono a rimanere in una posizione fissa per la maggior parte del tempo, limitando la loro attività ad applaudire, alzare le mani, supportare i giocatori o discutere con i vicini. Per affrontare questa problematica, abbiamo deciso di seguire un approccio di Social Signal Processing basato su tecniche di Computer Vision e teorie sociologiche. In particolare, mostriamo risultati concreti su come sia possibile distinguere il comportamento delle persone attraverso un'analisi automatica delle loro attività sociali. Il lavoro proposto comprende un nuovo dataset, "Spectators Hockey" (S-Hock), dove vengono analizzate 4 partite di hockey su ghiaccio registrate in occasione di un torneo internazionale. Sui video ottenuti è stata effettuata una massiccia annotazione, con particolare attenzione verso gli spettatori a diversi livelli di dettaglio: ad alto livello, le persone sono state etichettate in base alla squadra che tifavano e in base al loro rapporto di conoscenza con la persona seduta a fianco; a basso livello invece sono state annotate informazioni relative alla posa (della testa e del corpo), ma anche azioni specifiche come battere le mani, sventolare bandiere ecc. L'annotazione si è focalizzata anche sul campo di gioco al fine di mettere in relazione il comportamento della folla con quello che avviene in campo. Questo lavoro ha portato a più di 100 milioni di annotazioni, utili per applicazioni standard di basso livello come il conteggio di oggetti, il rilevamento di persone e la stima della posa delle teste, ma anche per le applicazioni di alto livello, come la categorizzazione degli spettatori e il riconoscimento degli eventi. Per tutte queste applicazioni forniamo protocolli e baseline dei risultati al fine di favorire ulteriori ricerche. All'interno di questo quadro generale, l'obiettivo della tesi è duplice: da un lato, dimostrare come un forte background sociologico sia necessario per affrontare il problema generale dell'analisi delle folle; dall'altro, sottolineare la necessità di approfondire un problema specifico, come quello della folla di spettatori, attraverso la progettazione di metodi in grado di adattarsi alle peculiarità di uno scenario innovativo per la Computer Vision. Noi confidiamo sul fatto che S-Hock e i nostri studi possano innescare lo sviluppo di approcci innovativi ed efficaci per l'analisi del comportamento delle persone in ambienti affollati.

What this thesis proposes is a new type of crowd analysis in computer vision, focused on the spectator crowd, that is, people "interested in watching something specific that they came to see". Typical scenarios of spectator crowds are stadiums, amphitheaters, classrooms, etc., and they share some aspects with classical crowd monitoring; for instance, since many people are simultaneously observed, per-person analysis is hard; however, in the considered cases, the dynamics of humans is more constrained, due to the architectural environment in which they are situated; specifically, people are expected to stay in a fixed location most of the time, limiting their activities to applaud, watch, support/heckle the players or discuss with the neighbors. We start facing this challenge by following a social signal processing approach, which grounds computer vision techniques in social theories. More specifically, leveraging on social theories describing expressive bodily conduct, we will show interesting results on how it is possible to distinguish people behaviors by automatically detecting their social activities. In particular, we propose a novel dataset, the Spectators Hockey (S-Hock), which deals with 4 hockey matches recorded during an international tournament. A massive annotation has been carried out on the dataset, focusing on the spectators at different levels of detail: at a higher level, people have been labeled depending on the team they were supporting and on the acquaintance they have with spectators who sit close to them; going to the lower levels, standard pose information has been considered (regarding the head, the body), but also fine grained actions such as hands on hips, clapping hands, etc. The labeling has also been focused on the game field, allowing to relate what was going on in the match with the crowd behavior. This brought to more than 100 millions of annotations, useful for standard lowlevel applications as object counting, people detection and head pose estimation, but also for high-level tasks, as spectator categorization and event recognition. For all of these we provide protocols and baseline results, encouraging further research. In this general picture, this thesis has been devoted to demonstrate that a strong sociological background is necessary to deal with crowd analysis in general, but also to underline the need to explore a novel specific issue, namely spectator crowd, by developing approaches able to adapt to the peculiarities of this scenario, which is new in computer vision. We are confident that S-Hock and our studies may trigger the design of novel and effective approaches for the analysis of human behavior in crowded settings and environments.

Spectator crowd: a social signal processing perspective

CONIGLIARO, Davide
2016-01-01

Abstract

What this thesis proposes is a new type of crowd analysis in computer vision, focused on the spectator crowd, that is, people "interested in watching something specific that they came to see". Typical scenarios of spectator crowds are stadiums, amphitheaters, classrooms, etc., and they share some aspects with classical crowd monitoring; for instance, since many people are simultaneously observed, per-person analysis is hard; however, in the considered cases, the dynamics of humans is more constrained, due to the architectural environment in which they are situated; specifically, people are expected to stay in a fixed location most of the time, limiting their activities to applaud, watch, support/heckle the players or discuss with the neighbors. We start facing this challenge by following a social signal processing approach, which grounds computer vision techniques in social theories. More specifically, leveraging on social theories describing expressive bodily conduct, we will show interesting results on how it is possible to distinguish people behaviors by automatically detecting their social activities. In particular, we propose a novel dataset, the Spectators Hockey (S-Hock), which deals with 4 hockey matches recorded during an international tournament. A massive annotation has been carried out on the dataset, focusing on the spectators at different levels of detail: at a higher level, people have been labeled depending on the team they were supporting and on the acquaintance they have with spectators who sit close to them; going to the lower levels, standard pose information has been considered (regarding the head, the body), but also fine grained actions such as hands on hips, clapping hands, etc. The labeling has also been focused on the game field, allowing to relate what was going on in the match with the crowd behavior. This brought to more than 100 millions of annotations, useful for standard lowlevel applications as object counting, people detection and head pose estimation, but also for high-level tasks, as spectator categorization and event recognition. For all of these we provide protocols and baseline results, encouraging further research. In this general picture, this thesis has been devoted to demonstrate that a strong sociological background is necessary to deal with crowd analysis in general, but also to underline the need to explore a novel specific issue, namely spectator crowd, by developing approaches able to adapt to the peculiarities of this scenario, which is new in computer vision. We are confident that S-Hock and our studies may trigger the design of novel and effective approaches for the analysis of human behavior in crowded settings and environments.
2016
spectator crowd, crowd analysis, crowd dataset, object counting, spectator categorization, people detection, head pose estimation, ontology
Questa tesi propone un nuovo tipo di analisi in Computer Vision basato sulla folla di spettatori, ovvero una folla formata da persone riunite per guardare qualcosa di specifico che attira il loro interesse. Alcuni scenari tipici in cui è presente la folla di spettatori sono gli stadi, i teatri, le aule, ecc., questi scenari condividono alcuni aspetti con la folla tradizionale; per esempio, il fatto che osservo molte persone contemporaneamente e quindi l'analisi sul singolo individuo è complicata; tuttavia, nel nostro caso, la dinamica delle persone è vincolata dalla struttura architettonica; in particolare, le persone tendono a rimanere in una posizione fissa per la maggior parte del tempo, limitando la loro attività ad applaudire, alzare le mani, supportare i giocatori o discutere con i vicini. Per affrontare questa problematica, abbiamo deciso di seguire un approccio di Social Signal Processing basato su tecniche di Computer Vision e teorie sociologiche. In particolare, mostriamo risultati concreti su come sia possibile distinguere il comportamento delle persone attraverso un'analisi automatica delle loro attività sociali. Il lavoro proposto comprende un nuovo dataset, "Spectators Hockey" (S-Hock), dove vengono analizzate 4 partite di hockey su ghiaccio registrate in occasione di un torneo internazionale. Sui video ottenuti è stata effettuata una massiccia annotazione, con particolare attenzione verso gli spettatori a diversi livelli di dettaglio: ad alto livello, le persone sono state etichettate in base alla squadra che tifavano e in base al loro rapporto di conoscenza con la persona seduta a fianco; a basso livello invece sono state annotate informazioni relative alla posa (della testa e del corpo), ma anche azioni specifiche come battere le mani, sventolare bandiere ecc. L'annotazione si è focalizzata anche sul campo di gioco al fine di mettere in relazione il comportamento della folla con quello che avviene in campo. Questo lavoro ha portato a più di 100 milioni di annotazioni, utili per applicazioni standard di basso livello come il conteggio di oggetti, il rilevamento di persone e la stima della posa delle teste, ma anche per le applicazioni di alto livello, come la categorizzazione degli spettatori e il riconoscimento degli eventi. Per tutte queste applicazioni forniamo protocolli e baseline dei risultati al fine di favorire ulteriori ricerche. All'interno di questo quadro generale, l'obiettivo della tesi è duplice: da un lato, dimostrare come un forte background sociologico sia necessario per affrontare il problema generale dell'analisi delle folle; dall'altro, sottolineare la necessità di approfondire un problema specifico, come quello della folla di spettatori, attraverso la progettazione di metodi in grado di adattarsi alle peculiarità di uno scenario innovativo per la Computer Vision. Noi confidiamo sul fatto che S-Hock e i nostri studi possano innescare lo sviluppo di approcci innovativi ed efficaci per l'analisi del comportamento delle persone in ambienti affollati.
File in questo prodotto:
File Dimensione Formato  
thesis_Conigliaro.pdf

non disponibili

Descrizione: Tesi versione non definitiva
Tipologia: Tesi di dottorato
Licenza: Dominio pubblico
Dimensione 32.97 MB
Formato Adobe PDF
32.97 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/940037
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact