Par Stéphane Amarsy, CEO de D-AIM
L’intelligence artificielle et ses usages décisionnels représentent des risques notoires de pratiques discriminatoires reproduisant, voire exacerbant, les biais de nos sociétés.
A titre d’exemple, on se souvient d’Apple Card, carte de crédit développée aux Etats-Unis par Apple et Goldman Sachs, dont l’algorithme, jugé sexiste, n’accordait pas la même limite de crédit en fonction du sexe de l’utilisateur, mais aussi des études prouvant que les Afro-américains étaient plus discriminés quant à leur arrestation, lorsque la justice s’appuyait sur un logiciel de prédiction des récidives…
Des tests pour prouver la discrimination individuelle
Il est particulièrement difficile de disposer de la preuve d’une discrimination individuelle, à moins d’accepter l’utilisation de procédés probatoires par ailleurs interdits car considérés comme déloyaux comme les tests de situation ou de discrimination.
Ces derniers sont à la fois des moyens d’investigation et une forme d’expérimentation en situation réelle, destinés à identifier une situation de discrimination.
Elle peut, entre autres, porter sur des données sensibles comme l’origine ethnique, le handicap, le sexe, l’orientation sexuelle, la religion, l’adhésion syndicale…
Si ces tests ne respectent pas le principe de loyauté de la preuve, ils sont de loin à date le moyen le plus efficace, voire le seul, de prouver une discrimination.
Le cas le plus simple revient à comparer le comportement d’un tiers envers deux personnes ayant exactement le même profil pour toutes les caractéristiques pertinentes, à l’exception de celle que l’on soupçonne de donner lieu à discrimination.
Naturellement, lorsqu’elle est le résultat de croisement de plusieurs données permettant indirectement la discrimination, il faut pouvoir appréhender les résultats avec toute leur complexité.
Cette méthode, utilisée par bon nombre d’associations est reconnue par les juridictions françaises depuis un arrêt de la Cour de Cassation rendu en juin 2002 dans l’affaire du Pym’s de Tours.
Bien que considérée comme une pratique déloyale, elle ne peut être écartée comme moyen de recherche de la preuve. Une des applications les plus connue est le test du Curriculum vitae.
Il suffit d’en adresser deux identiques à des moments différents pour répondre à des offres d’emploi qui ne diffèrent alors que par le nom ou le genre ou l’âge, révélateur potentiel d’une discrimination. Pour que le test soit valide, le CV et la candidature doivent être sincères, seul le CV concurrent est modifié en conséquence.
Une évaluation régulière des algorithmes est nécessaire
Concernant les algorithmes, il est possible et très fortement recommandé de procéder à une évaluation systématique de leur pouvoir de discrimination.
Cette démarche ne comporte aucune difficulté technique, il faut juste qu’elle soit mise en place. Il suffit de reconsidérer un échantillon test en échangeant les modalités de la variable potentiellement discriminatoire comme le genre ou l’origine ethnique.
L’algorithme est à nouveau appliqué à cet échantillon test modifié afin d’identifier les individus pour lesquels la décision a changé positivement ou négativement et qui sont donc clairement discriminés.
L’algorithme en question induit une sur-discrimination déloyale par rapport à des biais possibles sur l’échantillon qui sont autant de risques potentiels de conflits juridiques pour l’entité utilisatrice.
Ceci n’est bien sûr valable que si on connait la variable potentiellement discriminatoire.
Ce n’est évidemment pas toujours le cas et supprimer cette variable d’un modèle ne permet pas nécessairement une décision loyale car il est possible que l’algorithme retrouve cette information dans le résultat de croisement de données. Cela empêche juste d’en identifier le biais.
Par ailleurs, la loi impose d’apporter la preuve de l’intention discriminatoire. La discrimination algorithmique n’est pas forcément le fruit d’une intentionnalité car elle ne fait qu’utiliser les données à sa disposition.
Entraîner l’algorithme à une objectivité plus sûre
La non-loyauté des algorithmes est détectable par différentes méthodes factuelles même s’il reste la subjectivité de chacun dans l’interprétation des résultats.
Cela revient à mesurer le niveau de dépendance entre la variable potentiellement discriminatoire et la décision apprise par l’algorithme.
Plus la liaison est importante, plus l’effet de discrimination sera fort. Cette rupture d’équité peut se traiter soit en changeant la règle de décision, soit en changeant l’échantillon d’apprentissage.
Modifier la règle revient à imposer à l’algorithme de ne pas sur apprendre cette liaison favorisant ainsi l’absence de lien entre la prédiction et la variable potentiellement discriminante.
Modifier l’échantillon revient à favoriser l’indépendance entre les données et la variable posant problème afin de garantir que tout algorithme utilisant ces données pour apprendre soit dans l’incapacité de reproduire un biais par rapport à la variable potentiellement discriminante.
Il est aisément compréhensible que cela génère une perte d’information nuisant au pouvoir prédictif du modèle, donc à sa qualité.
Il reste à jongler entre l’erreur de prédiction et la non-discrimination souhaitée…