Negli ultimi anni c'è stato un interesse crescente verso l'analisi e lo studio della comunicazione uomo-uomo tramite l'utilizzo di sistemi artificiali. Tali sistemi sono in grado di riconoscere un insieme di segnali che ognuno di noi manda attraverso il corpo (consciamente o inconsciamente) agli altri interlocutori e che esprimono emozioni o tratti della personalità e sono chiamati segnali sociali. I segnali sociali possono essere definiti come co-occorrenze di caratteristiche sociali a loro volta definite come un insieme cambiamenti nell'attività neuromuscolare, cognitiva e neurofisiologica di una persona. Le caratteristiche sociali possono essere organizzate in cinque categorie: aspetto fisico, gesti del corpo e postura, movimenti della faccia e degli occhi, caratteristiche vocali, spazio e ambiente. La categoria legata alle caratteristiche vocali è quella più investigata nell'area di ricerca della pattern recognition e della machine learning. In generale, l'analisi delle caratteristiche vocali consiste nell'identificazione di tutte le componenti del segnale che caratterizzano e influenzano il significato del messaggio verbale, come per esempio identificare tramite le caratteristiche vocali colui che ha un ruolo di dominanza all'interno di un meeting. In questa tesi noi illustreremo un sistema automatico basato su una struttura generativa in grado di analizzare differenti scenari conversazionali. La struttura generativa è composto da un Observed Influence Model (OIM) e da una mistura di gaussiane combinati all'uso di una nuova tipologia di feature audio chiamata Steady Conversational Period (SCP). Quest'ultima è costruita sulla durata dei periodi di silenzio e di parlato di una conversazione tenendo quindi presente il meccanismo del turn taking (che regola l'alternarsi dei periodi di silenzio e di parlato). La modellazione delle dinamiche interazionali di una conversazione tramite SCP e OIM forniscono lo schema secondo cui si regola una conversazione ed è in grado porre in evodenza caratteristiche sociali stessa senza dover utilizzare feature prosodiche la cui fase di estrazione risulta piu complessa rispetto agli SCP. Il contributo di questa tesi è quello di mostrare l'efficacia del nostro modello se applicato a problemi di classificazione dei dialoghi caratterizzati da diverse situazioni sociali, per esempio l'età o lo stato emotivo degli speaker, la presenza o l'assenza di disordini del linguaggio (sindrome di Asperger) negli interlocutori, dimostrando prestazioni eccellenti anche in comparazione con classificatori presenti nello stato dell'arte.
In the last few years, there is a growing interest in the analysis of human-human communications, trying to devise artificial systems able to recognise an amount of signals sent through the body (consciously or unconsciously) to other speakers that express emotions or personality traits, and are called social signals. Social signals can be defined as temporal co-occurences of social cues, that can be basically defined as a set of temporally sequenced changes in neuromuscular, neurocognitive and neurophysiological activity. Social cues are organized into five categories: physical appearance, gesture and posture, face and eyes behavior, vocal behavior, and space and environment. The analysis of the social cues in the vocal behavior category is one of the issues most related to pattern recognition and machine learning themes. In general, this analysis consists in evaluating all the spoken cues that surround the verbal message and influence its actual meaning, characterizing, for example, particular social roles e.g.,dominance. In this thesis, we illustrate an automatic system based on a generative structure able to analyze conversational scenarios. The generative model is composed by integrating a Gaussian mixture model and the Observed Influence Model (OIM), and it is fed with a novel kind of simple low-level auditory social signals, which are termed steady conversational periods (SCPs). These are built on duration of continuous slots of silence or speech, taking also into account conversational turn-taking. The interactional dynamics built upon the transitions among SCPs provide a behavioral blueprint of conversational settings without relying on segmental or continuous phonetic features. Our contribution is to show the effectiveness of our model when applied on dialogs classification and clustering tasks,considering dialog scenarios characterized by several social situations i.e, the age of the speakers, the conversational mood, and the presence/absence of speakers language disorder (Asperger syndrome), showing excellent performances also in comparison with state-of-the-art frameworks.
Statistical Analysis of Interactional Patterns: a Social Signal Processing Perspective
PESARIN, Anna
2014-01-01
Abstract
In the last few years, there is a growing interest in the analysis of human-human communications, trying to devise artificial systems able to recognise an amount of signals sent through the body (consciously or unconsciously) to other speakers that express emotions or personality traits, and are called social signals. Social signals can be defined as temporal co-occurences of social cues, that can be basically defined as a set of temporally sequenced changes in neuromuscular, neurocognitive and neurophysiological activity. Social cues are organized into five categories: physical appearance, gesture and posture, face and eyes behavior, vocal behavior, and space and environment. The analysis of the social cues in the vocal behavior category is one of the issues most related to pattern recognition and machine learning themes. In general, this analysis consists in evaluating all the spoken cues that surround the verbal message and influence its actual meaning, characterizing, for example, particular social roles e.g.,dominance. In this thesis, we illustrate an automatic system based on a generative structure able to analyze conversational scenarios. The generative model is composed by integrating a Gaussian mixture model and the Observed Influence Model (OIM), and it is fed with a novel kind of simple low-level auditory social signals, which are termed steady conversational periods (SCPs). These are built on duration of continuous slots of silence or speech, taking also into account conversational turn-taking. The interactional dynamics built upon the transitions among SCPs provide a behavioral blueprint of conversational settings without relying on segmental or continuous phonetic features. Our contribution is to show the effectiveness of our model when applied on dialogs classification and clustering tasks,considering dialog scenarios characterized by several social situations i.e, the age of the speakers, the conversational mood, and the presence/absence of speakers language disorder (Asperger syndrome), showing excellent performances also in comparison with state-of-the-art frameworks.File | Dimensione | Formato | |
---|---|---|---|
PhDTHESIS_AP.pdf
non disponibili
Tipologia:
Tesi di dottorato
Licenza:
Accesso ristretto
Dimensione
7.94 MB
Formato
Adobe PDF
|
7.94 MB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.