The increasing application of Artificial Intelligence and Machine Learning models poses potential risks of unethical behaviour and, in light of recent regulations, has attracted the attention of the research community. Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm’s decision- making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so-called proxy features. Several researchers focused on seeking new fairness definitions or developing approaches to identify biased predictions without helping to answer the following question: Which fairness definition should be used and satisfied in a deployed model? Consequently, what metric should we satisfy? However, what metrics can better quantify the unfair behavior of a model? These questions remain open challenges in the field. Furthermore, a limitation of the proposed approaches is that they focus solely on a discrete and limited space; only a few analyze the minimum variations required in the user characteristics to ensure a positive outcome for the individuals (counterfactuals). This dissertation aims to bridge the gap in the fairness domain by proposing a new fairness perspective. Starting from the recent academic literature in the area, this thesis will intertwine with the issues close to the field of responsible AI by offering insights in the following directions: (i) we propose a framework grounded in counterfactual reasoning to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded, (ii) we propose a simple procedure to identify and quantify the relationship between sensitive characteristics and proxy features. (iii) we leverage counterfactual reasoning to explain the model decision building a responsible pipeline for the credit score domain.
L'applicazione crescente di modelli di Intelligenza Artificiale e Machine Learning pone potenziali rischi di comportamenti non etici e, alla luce delle recenti normative, ha attirato l'attenzione della comunità di ricerca. Le attuali normative sull'IA richiedono di escludere caratteristiche sensibili (ad esempio, genere, razza, religione) dal processo decisionale degli algoritmi per prevenire risultati iniqui. Tuttavia, anche senza caratteristiche sensibili nel set di addestramento, gli algoritmi possono continuare a discriminare. Infatti, quando le caratteristiche sensibili sono omesse (equità sotto inconsapevolezza), queste potrebbero essere dedotte attraverso relazioni non lineari con le cosiddette caratteristiche proxy. Numerosi ricercatori si sono concentrati sulla definizione di nuove nozioni di equità o sullo sviluppo di approcci per identificare previsioni distorte, senza tuttavia affrontare la seguente domanda: quale definizione di equità dovrebbe essere adottata e soddisfatta in un modello implementato? Di conseguenza, quale metrica dovremmo utilizzare? E quali metriche possono meglio quantificare il comportamento iniquo di un modello? Queste domande rimangono sfide aperte nel campo. Inoltre, una limitazione degli approcci proposti è che si concentrano esclusivamente su uno spazio discreto e limitato; solo pochi analizzano le variazioni minime richieste nelle caratteristiche degli utenti per garantire un risultato positivo per gli individui (controfattuali). Questa dissertazione mira a colmare il divario nel dominio dell'equità proponendo una nuova prospettiva sull'equità. Partendo dalla recente letteratura accademica nell'area, questa tesi si intreccerà con questioni vicine al campo dell'IA responsabile offrendo spunti nelle seguenti direzioni: (i) proponiamo un framework basato sul ragionamento controfattuale per rivelare il potenziale bias nascosto di un modello di machine learning che può persistere anche quando le caratteristiche sensibili sono escluse, (ii) proponiamo una procedura semplice per identificare e quantificare la relazione tra caratteristiche sensibili e caratteristiche proxy, (iii) utilizziamo il ragionamento controfattuale per spiegare le decisioni del modello costruendo una pipeline responsabile per il dominio del credito.
Fostering responsible artificial intelligence: an evaluation approach grounded in counterfactual reasoning / Cornacchia, Giandomenico. - ELETTRONICO. - (2024). [10.60576/poliba/iris/cornacchia-giandomenico_phd2024]
Fostering responsible artificial intelligence: an evaluation approach grounded in counterfactual reasoning
Cornacchia, Giandomenico
2024-01-01
Abstract
The increasing application of Artificial Intelligence and Machine Learning models poses potential risks of unethical behaviour and, in light of recent regulations, has attracted the attention of the research community. Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm’s decision- making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so-called proxy features. Several researchers focused on seeking new fairness definitions or developing approaches to identify biased predictions without helping to answer the following question: Which fairness definition should be used and satisfied in a deployed model? Consequently, what metric should we satisfy? However, what metrics can better quantify the unfair behavior of a model? These questions remain open challenges in the field. Furthermore, a limitation of the proposed approaches is that they focus solely on a discrete and limited space; only a few analyze the minimum variations required in the user characteristics to ensure a positive outcome for the individuals (counterfactuals). This dissertation aims to bridge the gap in the fairness domain by proposing a new fairness perspective. Starting from the recent academic literature in the area, this thesis will intertwine with the issues close to the field of responsible AI by offering insights in the following directions: (i) we propose a framework grounded in counterfactual reasoning to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded, (ii) we propose a simple procedure to identify and quantify the relationship between sensitive characteristics and proxy features. (iii) we leverage counterfactual reasoning to explain the model decision building a responsible pipeline for the credit score domain.File | Dimensione | Formato | |
---|---|---|---|
36 ciclo-Cornacchia Giandomenico.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
Non specificato
Dimensione
2.7 MB
Formato
Adobe PDF
|
2.7 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.