Fortalecimiento de la confianza en la máquina
Imagen anterior Imagen siguiente
Los métodos de aprendizaje automático probabilístico se están convirtiendo en herramientas cada vez más poderosas en el análisis de datos, informando una variedad de decisiones críticas en todas las disciplinas y aplicaciones, desde pronosticar los resultados de las elecciones hasta predecir el impacto de los microcréditos para abordar la pobreza.
Esta clase de métodos utiliza conceptos sofisticados de la teoría de la probabilidad para manejar la incertidumbre en la toma de decisiones. Pero las matemáticas son solo una pieza del rompecabezas para determinar su precisión y efectividad. En un análisis de datos típico, los investigadores toman muchas decisiones subjetivas, o potencialmente introducen errores humanos, que también deben evaluarse para cultivar la confianza de los usuarios en la calidad de las decisiones basadas en estos métodos.
Para abordar este problema, la científica informática del MIT Tamara Broderick, profesora asociada en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS), y un equipo de investigadores han desarrollado un sistema de clasificación. — una "taxonomía de la confianza" — que define dónde podría fallar la confianza en un análisis de datos e identifica estrategias para fortalecer la confianza en cada paso. Los otros investigadores del proyecto son la profesora Anna Smith de la Universidad de Kentucky, los profesores Tian Zheng y Andrew Gelman de la Universidad de Columbia y la profesora Rachael Meager de la London School of Economics. La esperanza del equipo es resaltar las preocupaciones que ya están bien estudiadas y aquellas que necesitan más atención.
En su artículo, publicado en febrero en Science Advances, los investigadores comienzan detallando los pasos en el proceso de análisis de datos en los que la confianza podría romperse: los analistas toman decisiones sobre qué datos recopilar y qué modelos o representaciones matemáticas reflejan más fielmente la realidad. -problema de la vida o pregunta que pretenden responder. Seleccionan algoritmos que se ajustan al modelo y usan código para ejecutar esos algoritmos. Cada uno de estos pasos plantea desafíos únicos en torno a la generación de confianza. La precisión de algunos componentes se puede verificar de manera medible. "¿Mi código tiene errores?", por ejemplo, es una pregunta que se puede probar con criterios objetivos. Otras veces, los problemas son más subjetivos, sin respuestas claras; los analistas se enfrentan a numerosas estrategias para recopilar datos y decidir si un modelo refleja el mundo real.
"Lo que creo que es bueno de hacer esta taxonomía es que realmente resalta dónde se está enfocando la gente. Creo que mucha investigación se enfoca naturalmente en este nivel de '¿están mis algoritmos resolviendo un problema matemático en particular?' en parte porque es muy objetivo, incluso si es un problema difícil", dice Broderick.
"Creo que es realmente difícil responder '¿es razonable matematizar un problema aplicado importante de cierta manera?' porque de alguna manera está entrando en un espacio más difícil, ya no es solo un problema matemático".
Capturando la vida real en un modelo
El trabajo de los investigadores para categorizar dónde se rompe la confianza, aunque pueda parecer abstracto, tiene sus raíces en la aplicación del mundo real.
Meager, coautor del artículo, analizó si las microfinanzas pueden tener un efecto positivo en una comunidad. El proyecto se convirtió en un caso de estudio sobre dónde podría romperse la confianza y las formas de reducir este riesgo.
A primera vista, medir el impacto de las microfinanzas puede parecer una tarea sencilla. Pero como cualquier análisis, los investigadores enfrentan desafíos en cada paso del proceso que pueden afectar la confianza en el resultado. El microfinanciamiento, en el que las personas o las pequeñas empresas reciben pequeños préstamos y otros servicios financieros en lugar de la banca convencional, puede ofrecer diferentes servicios, según el programa. Para el análisis, Meager reunió conjuntos de datos de programas de microfinanzas en países de todo el mundo, incluidos México, Mongolia, Bosnia y Filipinas.
Al combinar conjuntos de datos notablemente distintos, en este caso de varios países y de diferentes culturas y geografías, los investigadores deben evaluar si los estudios de casos específicos pueden reflejar tendencias más amplias. También es importante contextualizar los datos disponibles. Por ejemplo, en las zonas rurales de México, tener cabras puede considerarse una inversión.
"Es difícil medir la calidad de vida de un individuo. La gente mide cosas como, '¿Cuál es la ganancia comercial de la pequeña empresa?' O '¿Cuál es el nivel de consumo de un hogar?' Existe este potencial de desajuste entre lo que realmente te importa y lo que estás midiendo", dice Broderick. "Antes de llegar al nivel matemático, ¿en qué datos y en qué suposiciones nos apoyamos?"
Con los datos disponibles, los analistas deben definir las preguntas del mundo real que buscan responder. En el caso de evaluar los beneficios de las microfinanzas, los analistas deben definir lo que consideran un resultado positivo. Es estándar en economía, por ejemplo, medir la ganancia financiera promedio por negocio en comunidades donde se introduce un programa de microfinanzas. Pero informar un promedio podría sugerir un efecto positivo neto incluso si solo unas pocas (o incluso una) persona se beneficiaron, en lugar de la comunidad en su conjunto.
"Lo que realmente querías era que mucha gente se beneficiara", dice Broderick. "Suena simple. ¿Por qué no medimos lo que nos importaba? Pero creo que es muy común que los profesionales usen herramientas estándar de aprendizaje automático, por muchas razones. Y estas herramientas pueden informar un proxy que no siempre estar de acuerdo con la cantidad de interés".
Los analistas pueden, consciente o inconscientemente, preferir modelos con los que están familiarizados, especialmente después de invertir mucho tiempo en aprender sus entresijos. "Alguien podría dudar en probar un método no estándar porque podría estar menos seguro de que lo usará correctamente. O la revisión por pares podría favorecer ciertos métodos familiares, incluso si a un investigador le gustaría usar métodos no estándar", dice Broderick. "Hay muchas razones, sociológicamente. Pero esto puede ser una preocupación por la confianza".
Paso final, comprobando el código.
Si bien destilar un problema de la vida real en un modelo puede ser un problema amorfo de gran tamaño, verificar el código que ejecuta un algoritmo puede parecer "prosaico", dice Broderick. Pero es otra área potencialmente pasada por alto donde se puede fortalecer la confianza.
En algunos casos, la verificación de una tubería de codificación que ejecuta un algoritmo puede considerarse fuera del alcance del trabajo de un analista, especialmente cuando existe la opción de usar paquetes de software estándar.
Una forma de detectar errores es probar si el código es reproducible. Sin embargo, según el campo, compartir código junto con el trabajo publicado no siempre es un requisito o la norma. A medida que los modelos aumentan en complejidad con el tiempo, se vuelve más difícil recrear el código desde cero. Reproducir un modelo se vuelve difícil o incluso imposible.
"Empecemos con cada diario que requiere que publique su código. Tal vez no se verifique dos veces por completo y no todo sea absolutamente perfecto, pero comencemos por ahí", dice Broderick, como un paso hacia la generación de confianza.
El coautor del artículo, Gelman, trabajó en un análisis que pronosticó las elecciones presidenciales de EE. UU. de 2020 utilizando encuestas estatales y nacionales en tiempo real. El equipo publicó actualizaciones diarias en la revista The Economist, al mismo tiempo que publicaba su código en línea para que cualquiera pudiera descargarlo y ejecutarlo. A lo largo de la temporada, los forasteros señalaron errores y problemas conceptuales en el modelo, lo que finalmente contribuyó a un análisis más sólido.
Los investigadores reconocen que, si bien no existe una solución única para crear un modelo perfecto, los analistas y científicos tienen la oportunidad de reforzar la confianza en casi todo momento.
"No creo que esperemos que ninguna de estas cosas sea perfecta", dice Broderick, "pero creo que podemos esperar que sean mejores o lo mejor posible".
Elemento anterior Elemento siguiente
Capturando la vida real en un modelo Paso final, comprobando el código