• Corpora, linguaggio e social media

    Descrizione e obiettivi
    Sempre più sovente l’intelligenza artificiale viene utilizzata nella nostra vita di tutti i giorni. In particolare, le tecniche relative al trattamento del linguaggio umano trovano applicazione nelle interfacce che interagiscono con l’utente grazie a comandi vocali, ma anche in varie forme di analisi del comportamento delle persone. Infatti, per rilevare l’orientamento politico (ad esempio, per prevedere il risultato delle elezioni), per cogliere il grado di benessere percepito dalle persone (ad esempio, per orientare gli interventi di una amministrazione politica) anziché per scoprire la predilezione per un certo prodotto o servizio commerciale, sono ormai spesso applicate tecniche di rilevazione di opinioni e sentimenti (opinion mining e sentiment analysis) soprattutto ai testi che vengono quotidianamente prodotti in grande quantità dagli utenti sui social media, come Twitter, Instagram, Facebook o siti dedicati come TripAdvisor e Amazon Review. Lo stesso tipo di tecnologie viene utilmente utilizzato per la prevenzione del crimine, ad esempio per rilevare contenuti terroristici, pedofili, omofobi e razzisti che sono spesso veicolati dalla rete.
    Per lo sviluppo di questo tipo di tecnologie del linguaggio occorre tuttavia acquisire una profonda conoscenza degli strumenti e delle dinamiche della comunicazione in rete, conoscenza che nasce soprattutto da una analisi diretta dei dati costituiti dai testi estratti dai social media. Il gruppo di ricerca in cui opero ha costruito in particolare vari corpora annotati per la sentiment analysis, composti da messaggi estratti da Twitter ed accomunati dal contenuto sociale e politico legato soprattutto a dibattiti su temi caldi.
    Attività prevista
    L’attività potrà comprendere oltre all'inquadramento degli argomenti di base e dello stato dell’arte, lo sviluppo di nuove risorse per lingue diverse da Italiano, Francese e Spagnolo, o l'ampliamento delle risorse costruite per queste lingue oppure la costruzione di formati di annotazione per esplicitare nei corpora esistenti le informazioni relative a fenomeni linguistici come ironia, sarcasmo e metafora.

  • Emoji e sentiment analysis

    Descrizione e obiettivi
    Nel linguaggio dei social media si sta assistendo all'introduzione e diffusione "di forme grafiche come abbreviazioni, acronimi, sigle, punteggiatura, segni, icone, indici e simboli, elementi figurativi, espressioni testuali e codici visivi per i quali risulta dirimente il principio della brevità connesso al criterio dell'economia" (citazione da http://www.scritturebrevi.it/scritture-brevi-cosa/). Tra queste, gli emoticons, gli hashtag, e più recentemente gli emoji, sono di particolare interesse per la Sentiment Analysis, perché spesso questi elementi hanno una valenza emotiva (gioia, rabbia, amore, ecc) e di polarità (positiva o negativa).
    Lo scopo della tesi è duplice: da un lato studiare l'uso di "scritture brevi" in Twitter, in italiano e inglese, con particolare attenzione al significato degli emoji, emoticons di nuova generazione sempre più diffuse nella comunicazione su mobile e nei social media; dall'altro sviluppare l'annotazione delle informazioni veicolate da queste forme grafiche per poterle analizzare in modo automatico. Qui di seguito alcune citazioni a sostengno dell'interesse recente sull'informazione emozionale veicolata dagli emoji che siamo interessati a estrarre in modo automatico:
    "Emojis are Unicode graphic symbols, used as a shorthand to express concepts and ideas. In contrast to the small number of well-known emoticons that carry clear emotional contents, there are hundreds of emojis. But what are their emotional contents?" (Nakov et al, Sentiment of Emojis, PLoS ONE 10(12), 2015).
    "Mentre l’emoticon - combinazione sequenziale di caratteri per l’espressione facciale come :-) - si configura sempre più come un solido elemento disambiguante per la comunicazione delle componenti emozionali nell’ambito della scrittura "digitata", utile per contrastare l’indeterminatezza affidata alla parola in forma scritta [...], appare al contrario scarsamente definita la semantica degli emoji, la serie sempre più ricca di simboli di tastiera che riproducono referenti e "oggetti" del discorso attraverso distinte forme pittografiche." (F. Chiusaroli, La scrittura in emoji tra dizionario e traduzione, ClIC-it 2015)
    Attività prevista
    L’attività comprenderà l'inquadramento degli argomenti di base e dello stato dell’arte, e l'uso di strumenti software e risorse NLP esistenti per l'integrazione di informazione da elementi di tipo emoji estratta da testi Twitter, tra cui anche la piattaforma di analisi di social media messa a disposizione da CELI srl Torino.