Ogni giorno, siamo esposti a varie immagini e video grazie ai social media, come Facebook, Youtube, Flickr, Instagram e altri. In questo scenario, l'esprimere preferenze per un dato contenuto multimediale (per esempio con l'uso del meccanismo di ``like'') è diventato pervasivo e imponente, diventando un fenomeno di massa sociale. Uno dei principali risultati nelle scienze cognitive è che i processi automatici di cui non siamo a conoscenza, modellano, per la maggior parte, la nostra percezione dell'ambiente. Il fenomeno si applica non solo al mondo reale, ma anche ai dati multimediali che consumiamo giornalmente. Ogni volta che osserviamo una immagine, guardiamo un video o ascoltiamo una registrazione, la nostra attenzione cosciente si concentra sul contenuto osservabile, ma la nostra cognizione percepisce spontaneamente intenzioni, opinioni, valori, attitudini e altri costrutti che, sebbene siano al di fuori della nostra consapevolezza cosciente, modellano le nostre reazioni e comportamenti. Finora, le tecnologie multimediali hanno trascurato questo fenomeno.Questa tesi discute il fatto che è possibile prendere in considerazione effetti cognitivi per migliore gli approcci multimediali. A questo scopo sono considerati principi di Computational Aesthetics e Social Signal Processing sotto un punto di vista computazionale. Da un lato la Computational Aesthetics ha la funzione di rendere applicabili decisioni estetiche in modo simile a come gli esseri umani sanno fare, permettendo alle tecnologie multimediali di modellare e valutare un senso comune della bellezza. Dall'altro lato il campo del Social Signal Processing ha lo scopo di modellare con algoritmi i processi cognitivi che codificano segnali sociali e che ci portano ad interagire in modo particolare con le persone o preferire immagini e video. Questa rappresenta una grande opportunità per la CA perché la risposta estetica umana è formata dalla combinazione di predisposizioni genetiche, assimilazione culturale e esperienze uniche individuali e in questo modo può essere imparata da immagini online usando la saggezza della folla.La tesi si focalizza sulle immagini come primo tentativo in questa direzione. Le motivazioni del perché concentrarsi sulle immagini sono molte: da un lato, scattare foto è una delle azioni comunemente svolte tramite l'uso di telefoni cellulari, e dell'altro lato, gli utenti postano online immagini originali o video e condividono e redistribuiscono quelli postati da altri.A questo scopo, la tesi presenta uno studio sull'estetica personale, dove lo scopo è quello di riconoscere le persone e le loro caratteristiche considerando le immagini che piacciono a queste sviluppando diversi approcci ibridi usando modelli generativi e di regressione. L'idea generale assume che, dato un insieme di immagini preferite, è possibile estratte un insieme di attributi che discriminano \textit{pattern} visuali, che possono essere usati per inferire caratteristiche personali del soggetto che le preferisce.Come primo contributo proponiamo un sistema di soft biometrics, che permette di discriminare un individuo rispetto ad altri usando le immagini che le/gli piacciono. Lo studio e sviluppo del sistema biometrico è diventato di primaria importanza sia per l'identificazione di individui che applicazioni di sicurezza è recommendation system. Su un dataset di 200 utenti e 40000 immagini, il sistema sviluppato raggiunge il 97\% di probabilità di indovinare l'utente corretto usando 5 immagini preferite come modello biometrico; per la capacità di verifica, l'EER è 0.11.Inoltre, abbiamo sviluppato un sistema capace di inferire la personalità di un soggetto usando le sue immagini preferite. La motivazione è che quando conosciamo una persona per la prima volta, tendiamo ad attribuire tratti di personalità ad esso/essa. Il processo è spontaneo e inconscio. Sebbene non necessariamente accurato, il processo comunque influenza significativamente il nostro comportamento nei confronti degli altri, specialmente quando si tratta di interazioni sociali. Il fenomeno è così diffuso che ha luogo non solo quando conosciamo altri in persona, ma anche quando li osserviamo in registrazioni video, o interagiamo con agenti artificiali che mostrano comportamenti simili agli umani o con materiale multimediale che le persone condividono online. Come risultato, la tesi mostra che ci sono pattern visuali che correlano con i tratti di personalità di utenti Flickr in misura statisticamente significativa, e che i tratti di personalità (sia auto valutati che attribuiti da altri) di questi utenti posso essere inferiti dalle immagini che questi ultimi marcano come preferite. Una della parti più importanti della tesi è stata la collezione del dataset PyschoFlickr, composto da 60000 immagini di 300 utenti Flickr annotate in termini di tratti di personalità sia auto attributi che attributi da 22 giudici. La predizione è eseguita usando più approcci (multiple instance regression e deep learning), raggiungendo una correlazione fino a 0.68 e un'accuratezza fino a 0.69 tra tratti reali e predetti.La predizione dei tratti attribuiti da altri ottiene risultati più alti rispetto a quelli auto attribuiti: la ragione è che le immagini dominano l'impressione della personalità che i giudici percepiscono e il consenso tra loro è statisticamente significativo. Questi due condizioni aiutano la regressione ad ottenere risultati più alti. Quando gli utenti auto giudicano la loro personalità, considerano anche altri informazioni che non sono disponibili nelle immagini che preferiscono, ad esempio, storia personale, la stato interiore, educazione, ecc.. Tuttavia, questo non permette di ottenere alti risultati nella regressione. Questo è un risultato importante che può aiutare a capire meglio il comportamento sociale delle persone a nel progettare agenti artificiali capaci di suscitare la percezione di tratti predefiniti desiderabili e fornire suggerimenti su come gestire le impressioni online usando le immagini preferite.

Everyday, we are exposed to various images and videos thanks to the social media, like Facebook, Youtube, Flickr, Instagram and others.In this scenario, the use of expressing preferences for a given multimedia content (for example by the use of liking mechanisms) has become pervasive and massive, becoming a social mass phenomenon.One of the main findings of cognitive sciences is that automatic processes of which we are unaware shape, to a significant extent, our perception of the environment. The phenomenon applies not only to the real world, but also to multimedia data we consume every day. Whenever we look at pictures, watch a video or listen to audio recordings, our conscious attention efforts focus on the observable content, but our cognition spontaneously perceives intentions, beliefs, values, attitudes and other constructs that, while being outside of our conscious awareness, still shape our reactions and behavior. So far, multimedia technologies have neglected such a phenomenon to a large extent. This thesis argues that taking into account cognitive effects is possible and it can also improve multimedia approaches. For this purpose we take into account Computational Aesthetics and Social Signal Processing principles under a computational point of view. On one side Computational Aesthetics makes applicable aesthetic decision in a similar fashion as human can allowing to multimedia technologies to learn, model and evaluate a common sense of beauty. On the other side,Social Signal Processing field has the aim of modeling with algorithms cognitive processes that codify social signal and that lead us to interact with a particular way with people or to prefer a particular image or video. This represents an invaluable opportunity for CA because human aesthetic response is formed by a combination of genetic predisposition, cultural assimilation, and unique individual experience and indeed it can be learned from online pictures using the wisdom of crowds.The thesis focuses on images as a first attempt in this direction.The motivation of why focusing on pictures are many: from one side, taking pictures is the action most commonly performed with mobile phones, on the other side, users either post online original images or videos or share and redistribute those posted by others. To this aim the thesis presents a study on personal aesthetics, where the goal is to recognize people and their characteristics by considering the images they like by developing several hybrid approaches using generative models and regressors.The general idea assumes that, given a set of preferred images, it is possible to extract a set of features individuating discriminative visual patterns, that can be used to infer personal characteristics of the subject that preferred them.As first contribution we propose a soft biometric system, that allows to discriminate an individual from another using the images he/she likes. The study and development of biometric system have become of paramount importance for both identification of individual and security applications and recommendation systems. On a dataset of 200 users and 40K images, the developed frameworks gives 97\% of probability of guessing the correct user using 5 preferred images as biometric template; as for the verification capability, the equal error rate is 0.11.Furthermore, we developed a system able to infer the personality of a subject using the images preferred by him/her. The motivation is that whenever we meet a person for the first time, but also when we observe her in video recordings, or we interact with an artifact displaying human-like behavior or with the multimedia material she shares online, we tend to attribute personality traits to her. The process is spontaneous and unconscious. While not necessarily accurate, the process still influences significantly our behavior towards others, especially when in comes to social interactions. As a supporting proof-of-concept, the thesis shows that there are visual patterns correlated with the personality traits of Flickr users to a statistically significant extent, and that the personality traits (both self-assessed and attributed by others) of those users can be inferred from the images these latter mark as ``favorite''. One of the most important part of the thesis has been the collection of the PsychoFlickr corpus, composed of 60K images of 300 Flickr users annotated in terms of personality traits both self and attributed by 22 assessors. The prediction are performed using multiple approaches (multiple instance regression approach and a deep learning framework), reaching a correlation up to 0.68 and an accuracy up to 0.69 between actual and predicted traits.The prediction of traits attributed from others achieve higher results compared to the self-assessed ones: the reason is that pictures dominate the personality impressions that the judges develop and the consensus across the judges is statistically significant. These two conditions help the regression approaches to achieve higher performances. When the users self-assess their personality, they take into account information that is not available in the favorite pictures like, e.g., personal history, inner state, education,etc.. Therefore, this does not allow the regression approaches to achieve high performances. This is an important finding as it can help to better understand the social behavior of people, to design artificial agents capable of eliciting the perception of predefined desirable traits and providing suggestions on how to manage online impressions using favorite pictures.

A Social Signal Processing Perspective on Computational Aesthetics: Theories and Applications

Segalin, Cristina
2016-01-01

Abstract

Everyday, we are exposed to various images and videos thanks to the social media, like Facebook, Youtube, Flickr, Instagram and others.In this scenario, the use of expressing preferences for a given multimedia content (for example by the use of liking mechanisms) has become pervasive and massive, becoming a social mass phenomenon.One of the main findings of cognitive sciences is that automatic processes of which we are unaware shape, to a significant extent, our perception of the environment. The phenomenon applies not only to the real world, but also to multimedia data we consume every day. Whenever we look at pictures, watch a video or listen to audio recordings, our conscious attention efforts focus on the observable content, but our cognition spontaneously perceives intentions, beliefs, values, attitudes and other constructs that, while being outside of our conscious awareness, still shape our reactions and behavior. So far, multimedia technologies have neglected such a phenomenon to a large extent. This thesis argues that taking into account cognitive effects is possible and it can also improve multimedia approaches. For this purpose we take into account Computational Aesthetics and Social Signal Processing principles under a computational point of view. On one side Computational Aesthetics makes applicable aesthetic decision in a similar fashion as human can allowing to multimedia technologies to learn, model and evaluate a common sense of beauty. On the other side,Social Signal Processing field has the aim of modeling with algorithms cognitive processes that codify social signal and that lead us to interact with a particular way with people or to prefer a particular image or video. This represents an invaluable opportunity for CA because human aesthetic response is formed by a combination of genetic predisposition, cultural assimilation, and unique individual experience and indeed it can be learned from online pictures using the wisdom of crowds.The thesis focuses on images as a first attempt in this direction.The motivation of why focusing on pictures are many: from one side, taking pictures is the action most commonly performed with mobile phones, on the other side, users either post online original images or videos or share and redistribute those posted by others. To this aim the thesis presents a study on personal aesthetics, where the goal is to recognize people and their characteristics by considering the images they like by developing several hybrid approaches using generative models and regressors.The general idea assumes that, given a set of preferred images, it is possible to extract a set of features individuating discriminative visual patterns, that can be used to infer personal characteristics of the subject that preferred them.As first contribution we propose a soft biometric system, that allows to discriminate an individual from another using the images he/she likes. The study and development of biometric system have become of paramount importance for both identification of individual and security applications and recommendation systems. On a dataset of 200 users and 40K images, the developed frameworks gives 97\% of probability of guessing the correct user using 5 preferred images as biometric template; as for the verification capability, the equal error rate is 0.11.Furthermore, we developed a system able to infer the personality of a subject using the images preferred by him/her. The motivation is that whenever we meet a person for the first time, but also when we observe her in video recordings, or we interact with an artifact displaying human-like behavior or with the multimedia material she shares online, we tend to attribute personality traits to her. The process is spontaneous and unconscious. While not necessarily accurate, the process still influences significantly our behavior towards others, especially when in comes to social interactions. As a supporting proof-of-concept, the thesis shows that there are visual patterns correlated with the personality traits of Flickr users to a statistically significant extent, and that the personality traits (both self-assessed and attributed by others) of those users can be inferred from the images these latter mark as ``favorite''. One of the most important part of the thesis has been the collection of the PsychoFlickr corpus, composed of 60K images of 300 Flickr users annotated in terms of personality traits both self and attributed by 22 assessors. The prediction are performed using multiple approaches (multiple instance regression approach and a deep learning framework), reaching a correlation up to 0.68 and an accuracy up to 0.69 between actual and predicted traits.The prediction of traits attributed from others achieve higher results compared to the self-assessed ones: the reason is that pictures dominate the personality impressions that the judges develop and the consensus across the judges is statistically significant. These two conditions help the regression approaches to achieve higher performances. When the users self-assess their personality, they take into account information that is not available in the favorite pictures like, e.g., personal history, inner state, education,etc.. Therefore, this does not allow the regression approaches to achieve high performances. This is an important finding as it can help to better understand the social behavior of people, to design artificial agents capable of eliciting the perception of predefined desirable traits and providing suggestions on how to manage online impressions using favorite pictures.
2016
Computational Aesthetics, Social Signal Processing, Human Computer Interaction, Pattern Recognition, Social Media Analysis, Nonverbal Behavior, Personality Computing, Soft Biometry, Feature Extraction, Image Processing
Ogni giorno, siamo esposti a varie immagini e video grazie ai social media, come Facebook, Youtube, Flickr, Instagram e altri. In questo scenario, l'esprimere preferenze per un dato contenuto multimediale (per esempio con l'uso del meccanismo di ``like'') è diventato pervasivo e imponente, diventando un fenomeno di massa sociale. Uno dei principali risultati nelle scienze cognitive è che i processi automatici di cui non siamo a conoscenza, modellano, per la maggior parte, la nostra percezione dell'ambiente. Il fenomeno si applica non solo al mondo reale, ma anche ai dati multimediali che consumiamo giornalmente. Ogni volta che osserviamo una immagine, guardiamo un video o ascoltiamo una registrazione, la nostra attenzione cosciente si concentra sul contenuto osservabile, ma la nostra cognizione percepisce spontaneamente intenzioni, opinioni, valori, attitudini e altri costrutti che, sebbene siano al di fuori della nostra consapevolezza cosciente, modellano le nostre reazioni e comportamenti. Finora, le tecnologie multimediali hanno trascurato questo fenomeno.Questa tesi discute il fatto che è possibile prendere in considerazione effetti cognitivi per migliore gli approcci multimediali. A questo scopo sono considerati principi di Computational Aesthetics e Social Signal Processing sotto un punto di vista computazionale. Da un lato la Computational Aesthetics ha la funzione di rendere applicabili decisioni estetiche in modo simile a come gli esseri umani sanno fare, permettendo alle tecnologie multimediali di modellare e valutare un senso comune della bellezza. Dall'altro lato il campo del Social Signal Processing ha lo scopo di modellare con algoritmi i processi cognitivi che codificano segnali sociali e che ci portano ad interagire in modo particolare con le persone o preferire immagini e video. Questa rappresenta una grande opportunità per la CA perché la risposta estetica umana è formata dalla combinazione di predisposizioni genetiche, assimilazione culturale e esperienze uniche individuali e in questo modo può essere imparata da immagini online usando la saggezza della folla.La tesi si focalizza sulle immagini come primo tentativo in questa direzione. Le motivazioni del perché concentrarsi sulle immagini sono molte: da un lato, scattare foto è una delle azioni comunemente svolte tramite l'uso di telefoni cellulari, e dell'altro lato, gli utenti postano online immagini originali o video e condividono e redistribuiscono quelli postati da altri.A questo scopo, la tesi presenta uno studio sull'estetica personale, dove lo scopo è quello di riconoscere le persone e le loro caratteristiche considerando le immagini che piacciono a queste sviluppando diversi approcci ibridi usando modelli generativi e di regressione. L'idea generale assume che, dato un insieme di immagini preferite, è possibile estratte un insieme di attributi che discriminano \textit{pattern} visuali, che possono essere usati per inferire caratteristiche personali del soggetto che le preferisce.Come primo contributo proponiamo un sistema di soft biometrics, che permette di discriminare un individuo rispetto ad altri usando le immagini che le/gli piacciono. Lo studio e sviluppo del sistema biometrico è diventato di primaria importanza sia per l'identificazione di individui che applicazioni di sicurezza è recommendation system. Su un dataset di 200 utenti e 40000 immagini, il sistema sviluppato raggiunge il 97\% di probabilità di indovinare l'utente corretto usando 5 immagini preferite come modello biometrico; per la capacità di verifica, l'EER è 0.11.Inoltre, abbiamo sviluppato un sistema capace di inferire la personalità di un soggetto usando le sue immagini preferite. La motivazione è che quando conosciamo una persona per la prima volta, tendiamo ad attribuire tratti di personalità ad esso/essa. Il processo è spontaneo e inconscio. Sebbene non necessariamente accurato, il processo comunque influenza significativamente il nostro comportamento nei confronti degli altri, specialmente quando si tratta di interazioni sociali. Il fenomeno è così diffuso che ha luogo non solo quando conosciamo altri in persona, ma anche quando li osserviamo in registrazioni video, o interagiamo con agenti artificiali che mostrano comportamenti simili agli umani o con materiale multimediale che le persone condividono online. Come risultato, la tesi mostra che ci sono pattern visuali che correlano con i tratti di personalità di utenti Flickr in misura statisticamente significativa, e che i tratti di personalità (sia auto valutati che attribuiti da altri) di questi utenti posso essere inferiti dalle immagini che questi ultimi marcano come preferite. Una della parti più importanti della tesi è stata la collezione del dataset PyschoFlickr, composto da 60000 immagini di 300 utenti Flickr annotate in termini di tratti di personalità sia auto attributi che attributi da 22 giudici. La predizione è eseguita usando più approcci (multiple instance regression e deep learning), raggiungendo una correlazione fino a 0.68 e un'accuratezza fino a 0.69 tra tratti reali e predetti.La predizione dei tratti attribuiti da altri ottiene risultati più alti rispetto a quelli auto attribuiti: la ragione è che le immagini dominano l'impressione della personalità che i giudici percepiscono e il consenso tra loro è statisticamente significativo. Questi due condizioni aiutano la regressione ad ottenere risultati più alti. Quando gli utenti auto giudicano la loro personalità, considerano anche altri informazioni che non sono disponibili nelle immagini che preferiscono, ad esempio, storia personale, la stato interiore, educazione, ecc.. Tuttavia, questo non permette di ottenere alti risultati nella regressione. Questo è un risultato importante che può aiutare a capire meglio il comportamento sociale delle persone a nel progettare agenti artificiali capaci di suscitare la percezione di tratti predefiniti desiderabili e fornire suggerimenti su come gestire le impressioni online usando le immagini preferite.
9788869250033
File in questo prodotto:
File Dimensione Formato  
tesiCS.pdf

non disponibili

Tipologia: Tesi di dottorato
Licenza: Accesso ristretto
Dimensione 81.2 MB
Formato Adobe PDF
81.2 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/941657
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact