top of page

Lezione 4: I bias nella linguistica computazionale

Definizione:

La ricerca sui bias è un importante ambito di ricerca della linguistica computazionale che analizza le distorsioni nell'apprendimento automatico, nelle sue stesse tecniche e nei testi digitali online.

Concetti chiave

  • Bias nell'apprendimento automatico

    • Bias storici

    • Bias di rappresentazione

    • Bias di misura

    • Bias di aggregazione

    • Bias di valutazione

​​

  • Pregiudizi linguistici

    • Bias di contestualizzazione

    • Bias epistemologico

UNITÀ 1: I BIAS NEI PROCESSI LINGUISTICI COMPUTAZIONALI

Bias potrebbe essere una parola nuova per te, si riferisce a un'inclinazione/un pregiudizio/una distorsione verso un certo gruppo o una data idea. I bias nel Machine Learning, cioè lo sviluppo di sistemi informatici che apprendono dai dati, possono essere suddivisi in cinque diverse categorie: bias storici, di rappresentazione, di misurazione, di aggregazione e di valutazione. Queste categorie non si escludono a vicenda e i modelli linguistici sono spesso influenzati da una loro combinazione. Queste categorie sono esemplificate nell'immagine sottostante che fornisce una panoramica delle varie cause dei bias e delle differenti fasi in cui penetrano nel sistema.

Bildschirmfoto 2023-12-10 um 17.26.22.png

Bias storici

Analogia quotidiana: Quando si basa la previsione di un problema sulle tendenze osservate in passato, anche se potrebbero non riflettere la situazione contemporanea.

Il bias storico, come illustrato nell'immagine qui sopra (punto 1), è un problema dei modelli guidati dai dati in cui i bias esistenti nei dati si ripercuotono sui risultati del modello. Spesso si verifica quando i dati storici utilizzati per l'addestramento contengono già dei pregiudizi che possono portare il modello a perpetuare stereotipi legati a specifici gruppi identitari.

Ad esempio, nella traduzione automatica, se i dati storici includono un maggior numero di occorrenze di medici maschi, è probabile che il modello traduca "il dottore" nella forma maschile "der Arzt" in tedesco.

Bias di rappresentazione

Analogia quotidiana: Se parli di politica solo con la tua cerchia di amici/amiche, potresti avere difficoltà a comprendere le posizioni di altre persone.

Il bias di rappresentazione (punto 2) si verifica quando i dati di addestramento non rispecchiano accuratamente la popolazione e, di conseguenza, alcuni gruppi sono più (oppure meno) rappresentati di altri.

Per esempio, un sistema speech-to-text addestrato principalmente su audiolibri narrati da uomini bianchi di mezza età potrebbe avere difficoltà a riconoscere e trascrivere la voce di parlanti diversi. Anche l'assenza dello svizzero tedesco nelle opzioni linguistiche degli strumenti di riconoscimento vocale è un esempio di distorsione della rappresentazione.

Bias di misurazione

Analogia quotidiana: Se usi una vecchia mappa per navigare, potresti non riuscire a raggiungere la destinazione perché la disposizione del luogo potrebbe essere cambiata.

I bias di misurazione (punto 3) si verificano quando le caratteristiche e le etichette dei dati di addestramento non corrispondono a ciò che gli utenti cercano o quando la qualità e l'etichettatura dei dati non sono coerenti.

Ad esempio, l'utilizzo di testi biblici arcaici per l'addestramento dei modelli di traduzione può far produrre ai traduttori automatici dei risultati che non corrispondono all'uso della lingua contemporanea.

Bias di aggregazione

Analogia quotidiana: Una medesima strategia applicata a giochi diversi, con regole e sfide diverse, non può funzionare sempre bene.

Il bias di aggregazione (punto 4) riguarda l'output del modello e si verifica quando un singolo modello non è in grado di elaborare efficacemente diversi insiemi di dati.
Un esempio di bias di aggregazione si può verificare nella sentiment analysis, che mira a determinare automaticamente il tono emotivo o il sentimento espresso in un testo utilizzando l'elaborazione del linguaggio naturale. In questo contesto, i bias si verificano quando si combinano dati provenienti da più lingue senza tenere conto delle sfumature specifiche di ciascuna lingua, ottenendo così una determinazione imprecisa del tono emotivo a causa delle differenze culturali e linguistiche.

Bias di valutazione

Analogia quotidiana: Quando valuti le tue abilità calcistiche solo in base a quanti palleggi riesci a fare, non tenendo conto che ci sono molte altre abilità necessarie per diventare un giocatore di successo.

Il bias di valutazione (punto 5) si verifica quando l'accuratezza di un modello viene testata utilizzando insiemi di dati che non sono sufficientemente rappresentativi delle situazioni concrete per le quali il modello è stato progettato.

Un esempio di bias di valutazione è evidente nei modelli di riconoscimento vocale delle intelligenze artificiali conversazionali, come Siri o Alexa. Le loro prestazioni possono infatti rivelarsi inadeguate per i parlanti di dialetti regionali poiché vengono testate principalmente su accenti standard, mentre non vengono testate sufficientemente per quanto riguarda le lingue non standard.

Attività 1: Discussione
Il tuo approccio ai bias

Ora puoi discutere con un/-a compagno/-a la seguente domanda (3 minuti):

  • 1) Vi vengono in mente altri esempi di questi tipi di bias?

 

Ora, in coppia con un/un' altro/-a compagno/-a, riassumi ciò che hai discusso in precedenza e rispondi alla domanda seguente (7 minuti):

  • 2) Perché questi bias sono problematici?

Hai finito l'esercizio? 1) ALTRI ESEMPI DI QUESTI TIPI DI BIAS Bias storico - Ad esempio, chatbot: potrebbero generare risposte stereotipate/sessiste/razziste se i dati di addestramento contengono già determinati pregiudizi Bias di rappresentazione - Ad esempio, modelli di traduzione automatica: le parole gergali non possono essere identificate se i dati di addestramento del modello sono costituiti principalmente da linguaggio standard. - Ad esempio, modelli di traduzione automatica: qualità inferiore (o addirittura mancante) delle traduzioni in una lingua minoritaria. Bias di misurazione - Ad esempio, modelli linguistici: annotazione incoerente a causa dei diversi contesti e background dei lavoratori. Bias di aggregazione - Ad esempio, software per l'apprendimento delle lingue: potrebbero non funzionare in modo ugualmente efficace per tutte le lingue, se non riescono ad adattarsi ai metodi di insegnamento e alle specificità di una data lingua. Bias di valutazione - Ad esempio, i chatbot: potrebbero non funzionare bene nel caso in cui fosse richiesto di replicare uno stile colloquiale e la loro valutazione fosse avvenuta esclusivamente sulla base della lingua standard (poiché la loro debolezza non è stata rilevata). 2) MOTIVI PER CUI QUESTI BIAS SONO PROBLEMATICI - Riproduzione di stereotipi - Compromissione della correttezza e dell'equità, con conseguente discriminazione - Impatto negativo soprattutto sulle fasce di popolazione (già) vulnerabili - Inaccuratezza e scorrettezza dei risultati dei modelli - Perdita di fiducia negli strumenti di calcolo - Problemi legali (violazione delle leggi sulla privacy o sulla discriminazione)

UNITÀ 2: APPROCCI LINGUISTICI COMPUTAZIONALI PER PREVENIRE I BIAS

Come abbiamo visto nella prima parte del modulo, il campo della linguistica computazionale deve affrontare la sfida di ridurre i bias nelle sue applicazioni pratiche. Tuttavia, la disciplina offre anche approcci promettenti per individuare e prevenire i bias. La teoria linguistica può fornire agli strumenti computazionali conoscenze sul modo in cui le distorsioni linguistiche si verificano nel testo scritto o nel parlato e su come tali distorsioni possono essere eliminate.

I pregiudizi linguistici sono oltremodo inopportuni nelle fonti bibliografiche, come libri di testo o voci enciclopediche, che consultiamo per informarci e acquisire nuove conoscenze. Per questo motivo, in uno studio del 2013, i ricercatori e le ricercatrici Recasens, Danescu-Niculescu-Mizil e Jufarsky hanno cercato di creare un programma, un modello linguisticamente informato, in grado di rilevare automaticamente le distorsioni linguistiche presenti nei testi applicandolo a Wikipedia. Questa ricerca esemplifica il modo in cui le tecniche di linguistica computazionale vengono applicate alle sfide linguistiche del mondo reale.

 

Il progetto di ricerca

Il primo passo di questo progetto è stato quello di trovare le frasi contenenti dei bias e poi di identificare gli indicatori linguistici, come parole o frasi, responsabili di tali bias. Questi possono essere utilizzati come indicatori di parzialità. Come si è proceduto? Come probabilmente saprai, gli utenti possono apportare modifiche agli articoli di Wikipedia e indicare il motivo della correzione. Gli autori e le autrici dello studio hanno quindi individuato le modifiche apportate per eliminare i bias e hanno analizzato i cambiamenti dal punto di vista linguistico. Hanno scoperto che le distorsioni linguistiche rientravano in due tipi principali: il bias di contestualizzazione e il bias epistemologico.

Il bias di contestualizzazione è caratterizzato dall'uso di parole o frasi soggettive o unilaterali. 

Analogia quotidiana: Se si applica un filtro a una foto, la si può far apparire più bella o suggestiva.

  • È un collega perfettamente/rigorosamente organizzato. (intensificatori soggettivi)

  • Gli eco-attivisti/eco-terroristi si sono riuniti a Berna. (termini unilaterali)

Il bias epistemologico è un po' più sottile e si manifesta con parole o frasi che presuppongono che qualcosa sia vero/falso con vari gradi di certezza, spesso sotto forma di proposizioni.

Analogia quotidiana: Quando si viene a conoscenza di un pettegolezzo, si può crederci oppure essere scettici/scettiche, il che porta a parlarne nel modo corrispondente.

  • I risultati mostrano/suggeriscono che i giovani sono interessati alle lingue straniere. (verbi fattivi)

  • Il politico ha dichiarato/affermato che la nuova legge migliorerà le condizioni. (verbi dichiarativi)

  • Il bambino ha ceduto/non ha resistito alla tentazione e ha mangiato le caramelle. (implicazioni)

  • Probabilmente non tornerà. (mitigazione)

Sulla base di queste scoperte, i ricercatori e le ricercatrici hanno addestrato il loro programma informatico a riconoscere le distorsioni linguistiche fornendo al sistema gli elenchi degli indicatori di parzialità estratti. Hanno inoltre indicato le caratteristiche di queste espressioni, come ad esempio a quale dei tipi sopracitati appartiene la parola in questione, la sua posizione nella frase o la relazione grammaticale.

Testando il modello su nuove frasi, il programma ha ottenuto un'accuratezza pari al 34,35% nell'identificare la parola più faziosa. Infine, gli autori e le autrici dello studio hanno confrontato le prestazioni del rilevatore di bias con quelle di partecipanti umani. Quest'ultimi hanno ottenuto prestazioni solo leggermente migliori (37,39%). Questo risultato evidenzia come il riconoscimento dei bias sia un compito complesso tanto per gli esseri umani quanto per i programmi informatici. I rilevatori automatici di bias possono quindi essere uno strumento utile per chi si occupa di redarre opere di consultazione, aiutando a individuare i bias che non sono stati notati e rendendo il lavoro di queste persone più efficiente.

Perché questa ricerca è un esempio rilevante di linguistica computazionale applicata?

Questo studio dimostra come la linguistica computazionale possa affrontare i pregiudizi linguistici del mondo reale, utilizzando un approccio interdisciplinare, tipico per questo campo, che combina teorie linguistiche, analisi dei dati e apprendimento automatico. Esplora vari tipi di bias, districando la complessità dell'analisi linguistica e mostrando sfide e opportunità del settore.

Attività 2: Analisi del testo
Riesci a trovare i bias?

Ora tocca a te. Riesci a individuare tutti i casi di bias di contestualizzazione e di bias epistemologico nel testo seguente?

(10 minuti)

Suggerimento: Per entrambe le categorie, annota le espressioni contenenti un bias, identifica l'indicatore di parzialità che le introducono e indica il numero della riga per facilitare l'autocorrezione.

Bildschirmfoto 2024-10-14 um 10.59.00.png

Hai finito l'esercizio? BIAS DI CONTESTUALIZZAZIONE: Bias di contestualizzazione positiva: - Il testo presenta la linguistica computazionale in modo positivo, utilizzando espressioni come "grande valore" (riga 1), "eccitanti" (r. 3) e "affascinante" (r. 25) per descrivere il settore, introducendo così un pregiudizio di contestualizzazione positiva. - Inoltre, c'è una contestualizzazione positiva in frasi come "immenso comfort" (r. 5), "opportunità illimitate" (r. 15) e "enorme potenziale" (r. 26). Le parole "immenso", "illimitate" e “enorme” introducono questo bias di contestualizzazione positiva. - C'è un bias positivo nel suggerire che la linguistica computazionale può "rivoluzionare il settore sanitario" (r. 13-14) e "migliorare il servizio clienti" (r. 13-14). Le parole "rivoluzionare" e "migliorare" introducono questo bias. - Inoltre, anche la frase "attrattivo per menti brillanti che esplorano con entusiasmo i suoi confini" (r. 22) è positivamente distorta. L'espressione "menti brillanti" è unilaterale e rappresenta le persone accademiche in modo favorevole. Bias di contestualizzazione negativa: - D'altra parte, il testo introduce un bias di contestualizzazione negativa sottolineando che la linguistica computazionale potrebbe portare a dei "gravi pregiudizi nei modelli linguistici" (r. 19), "la riduzione fatale della privacy" (r. 19-20) e "la minacciosa divisione digitale" (r. 19). Le parole "gravi", "fatale" e “minacciosa” in questo contesto introducono un bias di contestualizzazione negativa. BIAS EPISTEMOLOGICO: Bias epistemologico con presupposizione di verità/certezza: - Il testo sostiene che la linguistica computazionale "si dimostra avere un ruolo centrale nella definizione del futuro dell'elaborazione del linguaggio" (r. 1-2), presupponendo la verità di questa affermazione. La parola "dimostra" introduce il bias. - Un altro esempio si trova nella frase "la linguistica computazionale è senza dubbio un campo affascinante" (r. 25), dove la parola "senza dubbio" introduce il bias. Bias epistemologico con presupposizione di falsità/incertezza: - C'è un bias che presuppone una certa falsità e incertezza nelle frasi "de* sostenitor* di questa disciplina sostengono che apre [...] possibilità" (r. 2-3) e "alcun* scettic* sostengono che, pur offrendo certi vantaggi" (r. 9-10). La parola "sostengono" introduce il bias. - Anche nella frase "suggeriscono che può rivoluzionare il settore sanitario" (r. 13-14), c'è un bias epistemologico. Deriva dalla parola "suggeriscono", che indica l'incertezza della dichiarazione. - Inoltre, c'è anche un bias epistemologico nella frase "che potrebbe probabilmente ridurre le nostre capacità linguistiche" (r. 10-11), introdotto da "probabilmente".

Riflessioni finali di questa lezione

Come abbiamo visto, i bias sono una questione complessa, difficile da escludere nell'apprendimento automatico e da rilevare nei testi - per noi umani ma anche per gli strumenti linguistici computazionali.

Quando sarà la prossima volta che vi imbatterete in un bias in questi contesti?

Fonti utilizzate

TESTI

CrashCourse (Director). (2021, January 15). Computational Linguistics: Crash Course Linguistics #15. https://www.youtube.com/watch?v=3npuPXvA_g8

 

Leidner, J. L., & Plachouras, V. (2017). Ethical by Design: Ethics Best Practices for Natural Language Processing. Proceedings of the First ACL Workshop on Ethics in Natural Language Processing, 30–40. https://doi.org/10.18653/v1/W17-1604

Recasens, M., Danescu-Niculescu-Mizil, C., & Jurafsky, D. (2013). Linguistic Models for Analyzing and Detecting Biased Language. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 1, 1650–1659.

 

Shee, E. (2021, October 12). 6 Types of AI Bias Everyone Should Know. Seldon. https://www.seldon.io/6-types-of-ai-bias

 

Suresh, H., & Guttag, J. V. (2021). A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle. Equity and Access in Algorithms, Mechanisms, and Optimization, 1–9. https://doi.org/10.1145/3465416.3483305

 

TELUS International (2021, February 4). Seven Types Of Data Bias In Machine Learning. TELUS International. https://www.telusinternational.com/insights/ai-data/article/7-types-of-data-bias-in-machine-learning

 

Towards AI (2023, March 28). A Guide to Computational Linguistics and Conversational AI. Towards AI. https://towardsai.net/p/machine-learning/a-guide-to-computational-linguistics-and-conversational-ai

ILLUSTRAZIONI​

Dialani, P. (2019, January 10). Challenges Associated with AI Bias. Analytics Insight. https://www.analyticsinsight.net/challenges-associated-with-bias-ai/

 

Samuels, K. (2022, May 4). Women in AI: Breaking the Internet Glass Ceiling. Black Women Talk Tech. https://www.blackwomentalktech.com/women-in-ai

Universität Bern

Länggassstrasse 49

3012 Bern

bottom of page