Contra la ética utilitaria en la ciencia de datos

ENTREVISTA
Sofía Trejo Abad

Víctor Hugo Ábrego / Coordinador de Ciencias de la comunicación / Signa_Lab

 

Sofía Trejo tiene dos posdoctorados en Matemáticas y trabaja en la Alianza en Inteligencia Artificial del Consejo Nacional de la Ciencia y la Tecnología. En los últimos años se ha dedicado a estudiar la inteligencia artificial, con una peculiaridad que en su disciplina no es muy común: cuestionar la epistemología de las tecnologías de procesamiento masivo de datos. Esto la ha llevado a poner en duda los procedimientos y resultados de la llamada ciencia de datos, no porque el proceso interno contenga errores numéricos, sino porque en muchas ocasiones quienes diseñan y utilizan estas herramientas no toman en cuenta el contexto y las consecuencias sociales que pueden tener las decisiones que se tomen a partir de este tipo de conocimientos. En pleno confinamiento pandémico intercambiamos correos y acordamos tener una videollamada, para conocer más acerca de su postura crítica frente a la cotidianidad algorítmica que vivimos.

 

Tienes una crítica epistemológica a los límites y los alcances de la llamada ciencia de datos. ¿Cuáles son esos límites? ¿Cuáles son las trampas que se pueden empezar a evidenciar a través de estos sesgos algorítmicos?

Lo primero que hay que entender es que estos sistemas usan los datos como la realidad a emular, entonces aprenden la realidad que tú les enseñes en los datos. Los sesgos que hay en los datos, la manera en la que están estructurados estos datos, delimita cómo van a entender o comprender la realidad estos sistemas.

Por ejemplo, en el caso de género, si tú sólo defines dos géneros, la inteligencia artificial va a clasificar a todo el mundo utilizando dos géneros, porque son las opciones que tú le estás dando, así, la forma en la que diseñas el sistema hace que este reproduzca ciertas ideologías y esas ideologías se ven reflejadas en todo lo que haga ese sistema.

 

Muchos de los datos utilizados por sistemas de inteligencia artificial provienen de teléfonos o de computadoras, y las poblaciones más vulnerables de la sociedad tienden a no contar con acceso a esas tecnologías. Es muy importante que se considere que no todo el mundo está en estas bases de datos, sobre todo si se está usando esta información como una base para crear estadísticas o políticas públicas. Pensar que todos están en los datos pone en mayor riesgo a poblaciones que han sido históricamente marginadas.

Hay que darse cuenta de que los datos son una representación acotada de la realidad y no son, pues, la realidad. Hacer esa diferencia es fundamental.

 

¿Qué tanto, en la medida en que se busque emular la realidad con los algoritmos, también se busca generar el proceso a la inversa, que la realidad sea la que eventualmente emule a los algoritmos?

Es un loop, por ejemplo, en el caso de las búsquedas en Internet las búsquedas que hacemos delimitan los textos que vemos y la información que recibimos. Lo cual influencia la manera en la que pensamos y delimita nuestro discurso. Las búsquedas y los caminos que seguimos para acceder a la información en línea se convierten en datos que se usan para hacer nuevos sistemas de búsqueda. Esto quiere decir que los usuarios que interactúan con este tipo de sistemas son tanto la materia prima como la fuerza laboral que ayuda a crear y mantener esta tecnología.

 

¿Hay a largo plazo una especie de riesgo de estrechamiento de la realidad?

Eso ya está pasando con redes sociales, donde en general te muestran cosas que el sistema de inteligencia artificial que modera el contenido considera que a ti te gustan, para que pases más tiempo en redes. Esto hace que tengamos menos acceso a discursos que son opuestos a los nuestros u otro tipo de perspectivas. Por otro lado, los sistemas de moderación de contenido que tienen como objetivo generar el mayor número de reacciones por parte de los usuarios favorecen discursos controvertidos, en vez de fomentar el diálogo o el entendimiento.

 

Hay otra cosa clave, y tiene que ver con la objetividad que se le da al dato numérico, algo que históricamente Occidente ha producido como la forma más legítima del pensamiento. ¿Qué tan malo es que la legitimidad del dato numérico o de la supuesta existencia de la objetividad del dato numérico está alcanzando nuevas formas con los algoritmos?

Mi impresión es que no se está haciendo suficiente hincapié en que los datos son representaciones particulares que están basadas en opiniones particulares. Hay que tener claro que el dato es “cierta representación” construida bajo “ciertas concepciones”. Quién está escogiendo qué se mide y qué no se mide y cómo se mide tiene una enorme influencia en nuestra construcción de la realidad, en lo que es considerado relevante y en lo que no. Por ejemplo, existen discursos que no consideran que el gdp [producto interno bruto] debería ser utilizado como un medidor de bienestar, y que proponen otros índices, como la felicidad y no la riqueza, como guías para medir el progreso de la sociedad.

 

¿Podrías profundizar un poco más en estas capas de invisibilización de temas de género, de poblaciones con respecto al género, no solamente la disidencia, quizás temas en general sobre la mujer como grupo social invisibilizado a través de cuáles algoritmos?

Aparte del género a mí lo que me parece muy interesante es que la mayoría de las problemáticas que yo he logrado investigar, que tienen que ver con género e inteligencia artificial, están ligadas de una manera u otra al lenguaje. Por ejemplo, hay herramientas para contrataciones que fueron diseñadas para analizar cvs y encontrar los mejores candidatos a ciertos empleos. Estos sistemas estaban dando preferencia a hombres sobre mujeres con las mismas capacidades. Los diseñadores intentaron solucionar este problema al quitar asociaciones directas de género y se dieron cuenta de que eso no estaba ayudando. Después de indagar más en esta desigualdad de género se dieron cuenta de que la raíz del problema era el uso del lenguaje. Las mujeres usan el lenguaje de manera diferente a los hombres, creo que eso es algo que se sabe en ciencias sociales desde hace mucho tiempo. La manera en la que hablamos y escribimos es distinta. Estos sistemas de inteligencia artificial aprendieron a reconocer el género de las personas utilizando el lenguaje. Como los datos que usaron para crear el sistema eran los currículums de la gente que había estado en una empresa donde la mayoría de los empleados fueron hombres durante generaciones, el sistema aprendió a reconocer hombres, porque era los candidatos que mejor se apegaban al historial de contrataciones de la empresa.

Los sistemas de inteligencia artificial aprenden a reconocer patrones en los datos, en este caso en el lenguaje, y, los usan para optimizar las tareas para las cuales fueron diseñados. En otras palabras, si tú creas un sistema de inteligencia artificial utilizando como datos el historial de contratación de una empresa donde se favorece a ciertos grupos, no sólo por motivos de género, también por motivos raciales o socioculturales, estos sistemas reproducen ese status quo que tú les estás dando. Creo que el problema es definir qué es lo que se quiere hacer con estos sistemas. La inteligencia artificial no nos va a resolver los problemas que nosotros no queremos resolver.

 

¿Conoces alguna experiencia o tú misma estás en algún proyecto de investigación en donde se esté tratando de desandar esos pasos, desde configurar bases de datos de otro modo, hacer otro tipo de cruces, generar categorías nuevas que se escapen por un lado de esta perpetuación de los sesgos, pero que también sean, digamos, cada vez más críticos, que no únicamente respondan a intereses económicos o intereses comerciales o a intereses políticos?

Hay personas que han diseñado herramientas para que, si tú haces anuncios laborales el lenguaje que utilices sea más neutro en género. Este tipo de lenguaje puede incentivar a que haya más aplicaciones de mujeres a ciertos trabajos y favorecer aplicaciones no sólo de mujeres, sino también de otro tipo de grupos. Sin embargo, arreglar el lenguaje de los anuncios no es suficiente para garantizar que mujeres u otros grupos apliquen a un trabajo. Una vez que tienes anuncios más neutros los tienes que publicitar usando Internet. Tal vez le pagas a Facebook o a Google para que muestren tus anuncios. Ahora bien, los sistemas de inteligencia artificial encargados de la publicidad en estas plataformas muestran de manera selectiva la información a los usuarios. En particular, se ha demostrado que anuncios que tienen que ver con ciencia, tecnología, ingeniería, matemáticas y física son mostrados con mayor frecuencia a hombres que a mujeres. Alguien puede haber tenido una buena intención de crear anuncios laborales más inclusivos, pero si no sabes cómo van a ser difundidos en Internet el sesgo de género en el proceso de aplicación a un trabajo puede seguir ahí. Es por esto que lo que quiero hacer ahora, mi sueño de investigación, es empezar a estudiar las formas en las que los sistemas de inteligencia artificial están afectando cuestiones de género. Creo que tener una idea más clara de cómo estas problemáticas de género se van acumulando paso a paso nos podría ayudar a encontrar mecanismos para que esto no continúe ocurriendo. Hacer un cuestionamiento de los efectos que la inteligencia artificial están teniendo en ciertas problemáticas sociales es muy nuevo, de hecho, hay poco trabajo que aborde estos temas desde perspectivas que no sean las de Estados Unidos o Europa.

Es importante empezar a entender las problemáticas sociales que están siendo reproducidas y amplificadas por nuevas tecnologías, sobre todo si se pretende resolver estos problemas utilizando estas herramientas, porque ahí viene la pregunta: ¿queremos usar herramientas que reproducen problemas sociales que queremos resolver?, porque una gran cantidad de estos sistemas operan de manera estadística, lo cual significa que cometen errores en sus predicciones. Estos errores pueden ocurrir en pequeños porcentajes, pero la escala masiva en la que operan estas tecnologías hace que estos pequeños porcentajes equivalgan a un gran número de personas. Lo más grave es que estos errores pueden tener consecuencias muy serias en la vida de las personas, como el negarles acceso a un crédito, a la universidad o inclusive darle sentencias más severas a determinados grupos de personas (cuando son utilizados en el sistema judicial). Además, la mayoría de estos sistemas están diseñados para explotar patrones en los datos, así que mientras nuestros datos reflejen discriminación, prejuicios o concepciones erradas de la realidad estos sistemas podrán aprender estas prácticas, convirtiéndose en herramientas que acentúan la desigualdad.

Para mí, una pregunta más fundamental es ¿queremos usar la optimización y la automatización como la solución a las problemáticas sociales? Porque sistemas como los de inteligencia artificial representan una ética utilitaria, por lo que debemos reflexionar si el utilitarismo es la manera que queremos usar para resolver ciertas problemáticas y cuáles no queremos que se resuelvan de esa manera.

 

¿Hay una necesidad, hasta cierto punto urgente, de hacer cruces de las ciencias exactas, de la estadística, de las matemáticas, con perspectivas éticas, con conceptos de ciencias sociales, con herramientas metodológicas que no tengan esta perspectiva utilitarista?

¡Claro! Yo creo que lo fundamental es empezar a hacer conexiones con otras áreas que tengan otras maneras de pensar. La gente que está trabajando en crear esas herramientas no está haciendo la otra parte, que es pensar cuestiones epistemológicas, en problemas que puede haber con las categorías utilizadas por los sistemas de inteligencia artificial y en los efectos que estas categorías tienen en las personas. Por ejemplo, hay muchos estudios de los problemas que tienen las personas trans con el uso de categorías y cómo la clasificación binaria del género representa una forma de violencia sistémica, normalizada en todas partes. Siempre tienes que ser hombre o mujer, y no hay cabida para otras identidades.

Más que pensar que la inteligencia artificial nos va a ayudar a solucionar problemas, siento que tenemos que darnos cuenta de que no estamos haciendo un esfuerzo real por encontrar soluciones, sino que estamos optimizando procesos, como la discriminación, usando estas herramientas. El punto es darse cuenta de que somos nosotros quienes debemos hacer esa reflexión y quienes debemos decir qué se vale y qué no se vale automatizar, o qué nos parece que es justo o no que se haga con estos sistemas. Hasta ahora son los programadores y los diseñadores de inteligencia artificial quienes tienen voz y voto en estas cuestiones, y por ello debemos encontrar caminos para que estas cuestiones sean decididas de manera democrática.

 

Por último, ¿crees que las universidades sean los espacios en donde se está empezando a abrir este tipo de diálogos, de críticas, de formación profesional con una visión más amplia, o no es en las universidades en donde se está empezando a dar este tipo de diálogos?

Hasta ahora, la resistencia más fuerte hacia el uso indiscriminado de inteligencia artificial está en organizaciones no gubernamentales y por parte de periodistas, quienes han estudiado los impactos sociales que estos sistemas están teniendo. La mayoría de los casos que conozco, que son importantes, fueron hechos por periodistas. Porque creo que también la academia muchas veces no tiene incentivos para ir en contra de sí misma. Pero también creo que hay futuro. Creo que en las universidades es donde debe pasar este cambio. Finalmente, muchas de las personas que trabajan en estos temas son formadas en universidades. Entonces el papel de las universidades es hacer estudios que sí sean significativos en México o empezar a hacer bases de datos que sí sean de México. Las universidades tienen una enorme capacidad de influenciar sobre la forma en la que la inteligencia artificial debería funcionar, creo que los académicos sí tenemos un papel importante para darle dirección a esta tecnología.

Hasta ahora creo que son muy pocas las universidades que están tomando un papel crítico respecto a la forma en la que se están enseñando maestrías o licenciaturas relacionadas con la ciencia de datos o la inteligencia artificial, y creo que no hay ninguna, no que yo sepa, que esté tomando iniciativas para hacer estas carreras interdisciplinarias, o que esté ofreciendo cursos de otras áreas, como ética, en cómputo. La formación interdisciplinaria en estas áreas del conocimiento debería ser obligatoria, no optativa.