El aprendizaje automático toma un papel protagónico en la exploración del universo
Los astrónomos de Penn State, y los cocontratados del Instituto de Ciencias Computacionales y de Datos, están utilizando algoritmos de aprendizaje automático para examinar el tesoro de datos del Telescopio Espacial James Webb. Dicen que esta información ya está cambiando nuestra comprensión del universo. Crédito: NASA y el Instituto de Ciencias del Telescopio Espacial. Reservados todos los derechos.
16 de marzo de 2023
Por Matt Swayne
PARQUE UNIVERSITARIO: las imágenes intrincadas y hermosas del universo que se transmiten desde el Telescopio Espacial James Webb (JWST) son más que simples píxeles bonitos que llegan a las pantallas de las computadoras o los teléfonos inteligentes. Estas imágenes representan datos, montones y montones de datos; de hecho, el JWST ofreceaproximadamente 235 gigabytes de datos científicos cada día– aproximadamente la misma cantidad de datos en una sesión de atracones de películas de alta definición de 10 días.
JWST y otros telescopios y sensores han proporcionado a los astrónomos de hoy un flujo de datos cada vez mayor. Estas fuentes brindan a los astrónomos la capacidad sin precedentes de mirar más profundamente en el espacio y más atrás en el tiempo que nunca antes, para hacer nuevos descubrimientos, incluido el estudio de cómo mueren las estrellas. El trabajo reciente de Penn State usando datos de JWST puedecambiar la forma en que los científicos entienden el origen de las galaxias.
Sin embargo, administrar todos estos datos no está exento de problemas. Los astrónomos deben confiar en supercomputadoras y algoritmos avanzados, conocidos como aprendizaje automático, para tomar esta avalancha de datos y crear modelos precisos de la inmensidad del espacio, revelar descubrimientos e inspirar nuevas preguntas, así como crear impresionantes imágenes del universo.
Joel LejayAshley Villar, ambos profesores asistentes de astronomía y astrofísica y cocontratados de ICDS, se encuentran entre los científicos que establecen a Penn State como líder en el uso de técnicas de aprendizaje automático para manejar mejor los flujos masivos de datos.
Según Leja, los enfoques de aprendizaje automático permiten a los investigadores procesar números de manera más eficiente y precisa que los métodos anteriores. En algunos casos, como la interpretación de imágenes de galaxias, estas técnicas de aprendizaje automático pueden ser casi un millón de veces más rápidas que los análisis tradicionales, agregó.
Antes de la llegada del aprendizaje automático, el procesamiento de datos implicaba el uso de ecuaciones analíticas y la compilación de grandes cantidades de datos en tablas. Los investigadores, a menudo estudiantes de posgrado, dedicaban una cantidad considerable de tiempo a recopilar y analizar datos. Sin el aprendizaje automático, los cálculos a menudo eran repetitivos y requerían mucho tiempo, y no había una forma eficiente de acelerar el proceso.
Leja dijo que era muy parecido a planificar un viaje enormemente complicado.
"Digamos que estás tratando de encontrar la mejor forma de ir de Los Ángeles a San Francisco", dijo Leja. "Usando las técnicas antiguas, haríamos una lista de caminos, probaríamos cada ruta, calcularíamos la distancia total en cada camino pequeño (los caminos pequeños, las carreteras principales, las rotondas) y necesitaríamos mapear cada ruta, haciéndolo. uno por uno. No es una muy buena manera de hacerlo. Por lo general, obtiene la respuesta correcta, pero el aprendizaje automático intenta hacerlo de una manera mucho más inteligente utilizando datos; por ejemplo, podría usar millones de rutas de viaje anteriores y simplemente pregunte rápidamente cuál es el más rápido".
El aprendizaje automático no solo reduce el trabajo humano, los enfoques pueden reducir el trabajo computacional, lo que, a su vez, ahorra energía, según Villar.
“El tema de la mano de obra humana es importante, pero también tenemos que considerar el problema de la mano de obra informática”, dijo Villar. "Está usando tantas horas de tiempo computacional, lo que también significa que está usando mucha energía".
El Telescopio Espacial James Webb está haciendo más que tomar bellas imágenes: está recopilando datos que pueden ayudarnos a comprender mejor el universo. El aprendizaje automático está ayudando a los astrónomos a examinar esos datos. Crédito: NASA y el Instituto de Ciencias del Telescopio Espacial (STScI). Reservados todos los derechos.
cambiador de campo
Ese ahorro computacional a menudo es difícil de comprender, pero está creando un nuevo paradigma en el descubrimiento astronómico, según los astrónomos.
"El aprendizaje automático está cambiando por completo mi campo", dijo Leja. "Simplemente procesa enormes cantidades de datos y ejecuta modelos complejos muy rápido, lo que se adapta bien a los datos astronómicos que están inundando nuestros sistemas en este momento".
El antiguo proceso tampoco perdonaba desde el punto de vista computacional, dijo Leja, explicando su experiencia como posdoctorado en Harvard.
"Se necesitó un acceso especial, y tuve que pasar mucho tiempo solicitando y luego ejecutando estas simulaciones", dijo Leja. "Y solo pude ejecutarlo una vez, lo que puede ser muy aterrador para la ciencia. Idealmente, desea ejecutar los cálculos muchas veces para probar cosas, probar nuevas preguntas y asegurarse de hacerlo bien".
Ahora, los astrónomos pueden usar técnicas de aprendizaje automático, como emuladores de redes neuronales, que simulan en una computadora el comportamiento de una red neuronal, un método inspirado en el cerebro humano para enseñar a las computadoras a procesar datos, para lograr en unas pocas semanas en una computadora portátil lo que una vez tomó una enorme cantidad de tiempo y enormes recursos computacionales hace solo unos años.
A medida que las computadoras se vuelven más rápidas y poderosas, y los enfoques de aprendizaje automático mejoran, los investigadores esperan que los astrónomos en el futuro consideren que una semana en una computadora portátil es algo lenta.
"Ha habido una aceleración de un factor de un millón en mi campo", dijo Leja. "Me sorprende cada vez que pienso en ello, y nos permite hacer nuevas preguntas científicas".
Cómo ICDS ayuda con el 'músculo computacional'
ICDS está apoyando a los astrónomos poniendo fuerza computacional detrás del procesamiento de grandes cantidades de datos recopilados por sensores cada vez más potentes. El instituto se está preparando para ayudar a los científicos a medida que estas fuentes de datos aún más grandes se ponen en línea.
Legacy Survey in Space or Time, o LSST, una encuesta de próxima generación, producirá alrededor de 15 terabytes de datos cada noche durante 10 años, según Leja. Como ejemplo, un disco con un terabyte de almacenamiento podría contener alrededor de 200.000 canciones. Es posible que el LSST no descargue 3 millones de canciones por noche, pero los datos que finalmente proporcione serán música para los oídos de los astrofísicos.
"Si tratáramos de usar técnicas estándar para interpretar estas imágenes de galaxias, usando el conjunto de datos completo, tomaría algo así como 380 años en el cúmulo (ICDS) Roar, o 100 mil millones de horas de CPU", dijo Leja. "Pero usando las técnicas de aprendizaje automático que hemos desarrollado, esto ha sido respaldado directamente por ICDS, podemos hacerlo, si tenemos todo Roar, en aproximadamente tres horas y media".
Villar dijo que está ansiosa por usar este poder para arrojar luz sobre las explosiones estelares, una de sus áreas de investigación.
"Hay una gran cantidad de estos datos LSST que se pondrán en línea e incluirán algo así como 5 mil millones de galaxias", dijo Villar. "Una cosa que me interesa hacer es usar esos datos para estudiar las estrellas cuando explotan. Entonces, una cosa que sería realmente útil es si pudiéramos tener muy, muy rápidamente una idea de la historia de esa galaxia para entender, en cierto sentido, la historia de la estrella que explotó. Y hacer eso, con los métodos tradicionales, es computacionalmente inviable. Pero con estos nuevos métodos, debería tomar literalmente segundos hacer cada uno".
Tanto Leja como Villar están de acuerdo en que los recursos del ICDS, como el acceso a la supercomputadora Roar y la experiencia del personal, son importantes para realizar este tipo de investigación.
"Los recursos del ICDS son completamente esenciales para responder a estas preguntas", dijo Leja. "Parte de la razón por la que creo que Penn State es un lugar excelente para esta investigación son los asombrosos recursos computacionales y el equipo de Roar. Usamos el clúster para hacer todo el entrenamiento de nuestros modelos. Es donde probamos nuestros modelos para prepararlos para el mundo real. También es donde generamos todos nuestros datos simulados sobre los que aprendemos, o entrenamos nuestros algoritmos. Roar es una parte esencial del flujo de trabajo para mi equipo".
Villar y Leja recibieron recientemente unSubvención inicial del ICDS para explorar el uso del aprendizaje automático en astronomía.
matt swayne
Recibe las noticias por email
Aproximadamente 235 gigabytes de datos científicos cada día cambian la forma en que los científicos entienden el origen de las galaxias. Joel Leja V. Ashley Villar Cambiador de campo Cómo ICDS ayuda con el 'músculo computacional' Subvención inicial de ICDS para explorar el uso del aprendizaje automático en astronomía