Aparentemente es fácil decirle a un sistema de control lo que quieres. En mi mundo, básicamente se dice “ahorra toda la energía que puedas”. Pero si fuese tan sencillo, no escribiríamos sobre ello.
Llevamos algún tiempo pensando sobre este tema, entre otras cosas porque mi compañero Rubén Mulero está empeñado en mejorar los sistemas de control de energía en edificios mediante a métodos de aprendizaje por refuerzo. En realidad, es parte de su tesis que codirijo con Iñigo Mendialdua.
Y lo primero que descubres cuando trabajas con algoritmos, es que una frase tan sencilla como “ahorra…” hay que definirla con mucho detalle.
Para empezar, hay que definir si se quiere ahorrar energía o dinero. No quiero entrar en discusiones sobre si los períodos tarifarios están bien definidos, o si el precio de la energía es el que debiese ser. Pero sí es verdad que un kWh en es sustancialmente más caro en hora punta que en el resto de períodos. Según datos de Red Eléctrica, en 2020, la variación intradiaria del PVPC llegó a ser de unos 20€/MWh, lo que a ojo es en torno al 40-50% del precio medio diario.

Por otra parte, se deberían considerar los objetivos últimos del ahorro:
- Si se busca ahorrar energía, ¿Debemos considerar cual es el mix energético previsto y modificar el comportamiento del sistema en función de lo renovable del mismo?
- Si se buscan ahorros económicos, ¿Cuántos € son relevantes a la hora de modificar los niveles de confort del edificio? ¿Es la misma cifra para usos críticos (hospitalarios…) que para entornos convencionales? ¿Es el mismo valor incluso en entornos socioeconómicos pudientes? ¿Variará en función del PIB del país?
Por otra parte, debemos considerar la prestación obtenida. No debemos olivar que el sistema está ahí para satisfacer las necesidades de confort de los usuarios:
- Parece evidente que, si no hay usuarios, no se debe valorar ninguna prestación
- ¿Cuál es un nivel de disconfort asumible? ¿Es el mismo para una unidad de cuidados intensivos que para un edificio de oficinas? ¿Es igual cuando hay una persona que cuando tenemos el espacio abarrotado?
Vamos, que lo que parece una definición sencilla, se complica según vas profundizando en ella. Y descubres que antes de entrar en cómo quieres optimizar un sistema, tienes que pensar muy mucho lo que realmente quieres obtener.
Al final nos ha dado para un pequeño artículo en SPLITECH. En la que nos juntamos 2 informáticos, un arquitecto (Beñat Arregi) y un ingeniero. Para hablar de Políticas (así se llama esto en el argot informático) para sistemas de control.
Al final, llegamos a una formulación bastante genérica, que deberá particularizarse para cada caso, en función de la política que desee seguir cada usuario/operador/propietario de edificios.
Consideramos que los ahorros en energía y coste deben valorarse de forma proporcional, pero que el concepto de confort es subjetivo, y progresivo.
Para valorar el confort, planteamos desarrollar valoraciones más suaves, que valoren de forma óptima si el edificio está dentro de un rango de confort (generalmente indexado a temperatura, humedad relativa…), y que tienen forma de campana fuera de ella.

Para nosotros es un aprendizaje importante, porque hemos evitado enfoque todo/nada, enfoques puramente lineales… El razonamiento detrás de esta formulación es el siguiente:
- Los seres humanos podemos estar ligeramente incómodos, y no por ello debemos perjudicar excesivamente al sistema.
- Pasado un umbral, es necesario que el sistema de control sepa que debe volver al rango de confort.
- Muy lejos del rango de confort, la distancia al mismo es básicamente irrelevante. Si te tienes que poner el abrigo en la oficina, no importa mucho si también necesitas la bufanda.
Al final, todo esto resulta bastante teórico, pero Rubén está trabajando en el resto de las piezas del puzle para darle utilidad. Un simulador de edificios, y un sistema de control de aprendizaje por refuerzo. Va a ser una colaboración muy enriquecedora a lo largo de los próximos meses.
El artículo en sí es el siguiente:
Ruben Mulero, Beñat Arregi, Iñigo Mendialdua, Roberto Garay, Designing a generalised reward for Building Energy Management Reinforcement Learning agents, 6th International Conference on Smart and Sustainable Technologies 2021Nota, los datos de precio de PVPC se corresponden con el DESGLOSE EFICIENCIA 2 PERIODOS (DHA) 2.0.DHA TÉRMINO DE ENERGÍA pa