¿Explicabilidad o significancia física?


Quien haya leído mi blog (sois pocos, pero muy apreciados), sabe que le dedico una buena parte de mi tiempo a desarrollar modelos en el ámbito de la energía. Y cualquiera que sepa de modelos (o que simplemente viva en sociedad) habrá oído hablar de la Inteligencia Artificial.

Creo en que la ubicuidad de algoritmos de diversa índole puede hacer que nuestras disciplinas científicas y técnicas avancen mucho, y que pongan al servicio de la sociedad aplicaciones nunca soñadas. Y la IA es una gran palanca para ello.

Pero no debemos equivocar la aparición de una tecnología relativamente nueva con pensar que esta tecnología puede resolverlo todo y desplaza todo nuestro conocimiento previo. Y desde luego, no puede desplazar nuestra capacidad de abordar problemas complejos y decidir la forma más adecuada de resolverlos.

En este contexto, leí “La IA podría convertir la ciencia en algo incomprensible” en el cuaderno de cultura científica de la UPV/EHU. En general, me encanta lo que publican, y en este caso, el artículo (muy recomendable) me permite hacer una lectura inversa de por qué los modelos de IA deberían ser la última opción.

En general, la IA (y/o, aproximaciones numéricas más o menos avanzadas) se emplea cada vez más, incluso para problemas resolubles con aproximaciones ingenieriles clásicas (caso reciente con la geometría solar). Aunque esto genera un avance aparente y un efecto wow!, no tengo tan claro hasta qué punto algunos de estos desarrollos son avances reales.

En la trilogía de los tres cuerpos (los dos primeros libros son muy recomendables), aparece también este concepto. Hay que diferenciar entre avance aparente, y progreso real.

La mecánica clásica permite entender por qué gira una rueda y cómo se mueve un coche. Mientras que la IA puede llegar a decir algo así como que “si tiras un coche cuesta abajo,…las ruedas giran”. La primera aproximación permite invertir la formulación y emplear lo aprendido en entornos más complejos (un problema de diseño, integrarlo en una estructura de formulación más amplia, una aplicación distinta,…), mientras que la aproximación con IA es difícilmente utilizable fuera del contexto en el que se generaron los modelos, salvo ámbitos en los que es posible aplicar técnicas de Transfer Learning.

En mi mundo de edificios, bombas de calor, calderas, redes de distribución, etc. casi todo se puede explicar con balances de masa y energía, y ecuaciones de interacción térmica (a poder ser, lineales). Las paredes con más aislamiento térmico generan menores interacciones entre los ambientes exterior y e interiores, las bombas de calor se caracterizan mediante ecuaciones relativamente conocidas, etc. Como ingeniero, observo con sorpresa cómo la profesión abraza aproximaciones informáticas y matemáticas (gradient boosting,…), prometedoras en algunos casos pero que no deberían desplazar lo aprendido a lo largo de varios siglos de progreso técnico.

En mis investigaciones, intento tener en cuenta dos criterios antes de plantear aproximaciones complejas:

  • ¿Lo que se quiere modelar responde a relaciones físicas? Si es así, la formulación debe ser eminentemente física/ingenieril. ¿Realmente es una red neuronal la mejor forma de caracterizar un péndulo? ¿Podríamos parametrizar una red neuronal para que variando la masa y la longitud de la cuerda podamos generar una oscilación compatible con hacer sonar unas campanas cada 60 minutos?
  • ¿Cuánto hay que comerse la cabeza? La Navaja de Ockham dice que «en igualdad de condiciones, la explicación más simple suele ser la más probable». En modelado basado en datos, los modelos más grandes tienen tendencia a estar sobre-parametrizados. Y las series de datos grandes tienen más propensión a tener problemas de consistencia. Esto me lleva a dudar de modelos muy grandes. ¿Realmente tenemos datos suficientes para entrenar modelos con millones de parámetros?

Siguiendo con el artículo con el que empezaba todo… indican tres riesgos de la ciencia moderna basada en IA:

  • “La ilusión de profundidad explicativa”. Que tengamos un modelo certero no significa que entendamos el comportamiento del sistema.
  • “La ilusión de amplitud exploratoria”. Las necesidades técnicas y científicas van más allá de los modelos de predicción.
  • “La ilusión de objetividad”. ¿Los modelos no están sesgados? Quien haya programado un optimizador sabe que el resultado es óptimo sólo en relación con los criterios que considera óptimos el autor. Estos criterios suelen llamarse “política” y son claramente subjetivos. Tanto como las consideraciones de sociedad ideal que pueden plantear los distintos partidos políticos en un parlamento.

En las conversaciones que tengo con la gente en el contexto de la investigación, la ingeniería y la operación de sistemas energéticos, creo conveniente resaltar dos enfoques que deberían considerarse con respecto al uso de aplicaciones informáticas:

  • Explicabilidad vs Significancia física. Se está promoviendo el concepto de explicabilidad, como forma de justificar por qué motivo un algoritmo genera un resultado concreto. Es una idea correcta, pero desde mi punto de vista, se queda probablemente corta. Se debería tender hacia la significancia física. La explicabilidad de la IA debe estar confrontada con lo esperable de los fenómenos físicos modelados.
  • Los modelos son potenciadores, pero no reemplazan al buen diseño, operación y mantenimiento. Se pueden hacer cosas chulas que mejoren el conocimiento de los sistemas, reduzcan los costes operacionales, y prevean averías. Pero sólo si partimos de sistemas físicos bien mantenidos, instrumentados y digitalizados. Si una instalación fuga a simple vista, no hacen falta modelos, si una instalación no registra información, difícilmente se podrán desarrollar modelos. Si una enfriadora tiene 20 años, no ha sido bien mantenida y está oxidada, no hace falta un análisis de datos para descubrir que su rendimiento es subóptimo.

Sí que creo que la IA puede ayudarnos a modelar los elementos no físicos/ingenieriles con los que interaccionan nuestros sistemas. Hay que satisfacer necesidades operacionales que varían en función de factores externos a los sistemas. ¿Cuántas personas habrá en un auditorio? ¿Cómo cambian los patrones de compra en un supermercado? Estas y otras muchas preguntas que hemos venido tratando en las fases de diseño con coeficientes de seguridad, hipótesis de demanda… son clave a la hora de prever las cargas de nuestros sistemas en condiciones de operación, pero no se pueden responder con aproximaciones físicas o deterministas. Ya hemos probado en algunos trabajos que los patrones de uso son previsibles y trazables a un número relativamente pequeño de tipos de día, que los edificios se comportan de forma ligeramente distinta a lo largo del día, etc. Debido a patrones de comportamiento social. Aquí, la IA tiene mucho que decir. Y si desarrollamos modelos con bases físicas que puedan interactuar con aplicaciones IA para la parte no física, ganaremos todos.

En el artículo se habla de la aproximación de Copenhague que se usó para la mecánica cuántica: “Calla y Calcula”. A mi modo de ver, sería un error “callar y emplear la IA para todo”. Yo me quedo con una aproximación más renacentista. Observa, valora la mejor opción, y si necesitas la IA, úsala de la mejor forma posible para que potencie tus resultados.

AI-generated image(piclumen)