Jorge III Altamirano-Astorga, Luz Aurora Hernández-Martínez, Ita-Andehui Santiago-Castillejos.

Profesor: Dr. Edgar Francisco Román-Rangel

Resumen

Desarrollaremos un proyecto de investigación basados en un sensor de la calidad del aire que tenemos dentro de casa de uno de los participantes con el fin de estudiar, analizar, explorar y entender su relación e influencia con los fenómenos externos (calidad del aire de la ciudad y variables atmosféricas) para poder predecir la calidad del aire en el interior de casa con las mediciones de compuestos orgánicos volátiles, los cuales tienen alta probabilidad de ser perjudiciales para la salud.

Introducción

El ITAM y muchos de sus miembros tenemos residencia en la Ciudad de México. Esta metrópolis es una de las más contaminadas en el continente y en el mundo. A causa de la pandemia, una gran cantidad de la población pasamos mucho de nuestro tiempo confinados en espacios cerrados, típicamente nuestras viviendas. Queremos saber cómo influyen los factores atmosféricos y la contaminación de la Ciudad en la contaminación de un espacio cerrado.

Hemos almacenado los datos de este sensor desde Febrero 2021 tratando de mantenerlos en un área común que no tiene ventilación directa para evitar perturbaciones en las lecturas y que sea influído directamente por la contaminación exterior, así como de otras fuentes de emisión (cocina).

Es importante destacar que este sensor no detecta contaminantes primarios, tales como: óxidos de nitrógeno (NOx), dióxido de carbono (CO2), monóxido de carbono (CO), ozono (O3), más bien mide los compuestos orgánicos volátiles, conocidos por el acrónimo anglosajón VOCs. Los VOCs típicamente son muchos de los olores que percibimos, los cuales son disoluciones de compuestos en el aire.

Estos compuestos orgánicos volátiles se han comprobado como nocivos a la salud y posibles cancerígenos, lo cual nos despertó el interés. Ejemplos de estos compuestos orgánicos son: el humo del cigarro, humo causado por cocinar alimentos, la utilización de agentes de limpieza (cloro y basados en amoniaco) y fuentes volátiles varias (como solventes, pinturas, quitaesmaltes), entre otros.

Fuentes de Datos y Variables

Tenemos los siguientes de fuentes de datos con las siguientes variables:

  1. Sensor de Contaminantes en Interior de Casa ME680: contamos aproximadamente 2.1 millones de registros. Las lecturas del sensor son cada 3 segundos.

    • Temperatura: variable numérica en grados Celsius (C) con una resolución de $0.01C$ y una precisión de $\pm 0.5C$.

    • Presión: variable numérica en hectopascales (hPa) con una resolución de $0.18~hPa$ y una precisión de $\pm 0.12~hPA$.

    • Humedad: variable numérica en porcentaje de humedad relativa (%rH) con una resolución de $0.008~\%rH$ y una precisión de $\pm 3\%rH$.

    • Resistencia del Gas: variable numérica de la resistencia eléctrica opuesta al elemento sensible del sensor medida en Ohms.

    • IAQ: variable numérica medida en el índice de calidad del aire americano en interior (IAQI, aunque utilizaremos la nomenclatura IAQ) con una resolución de $1~ IAQ$. La precisión del sensor variable que no excede 5% se guarda en una variable independiente.

    • Precisión del sensor: variable categórica ordinal con valores en el rango de [0,3]:

      • 0: periodo de estabilización o no operativo.

      • 1-2: periodo operativo.

      • 3: precisión máxima y operación óptima.

    • Fecha y hora: variable numérica basado en UNIX/POSIX epoch que denota el tiempo desde el 01/01/1970 00:00:00.0 UTC. El tiempo está sincronizado por NTP al Centro Nacional de Metrología de México (Hora Oficial del País).

  2. Datos Abiertos del Gobierno (SINAICA) la Calidad del Aire del Gobierno de la Ciudad de México con 2,170 observaciones. Los valores reportados son cada Hora, todos son variables continuas.

    • CO: Monóxido de Carbono medido en partes por millón (ppm).

    • NO, NO2, NOx: Familia de óxidos de nitrógeno. 3 variables correspondientes a la familia de óxidos de nitrógeno. Medidos en partes por billón (ppb).

    • O3: Ozono medido en partes por billón (ppb).

    • PM2.5, PM10: partículas microscópicas de 2.5 micras y 10 micras. Medido en microgramos por metro cúbico ($\mu g / m^3$)

    • SO2: dióxido de azufre. Medido en partes por billón (ppb).

    • Fecha y hora: entregado en zona horaria del Centro de México.

      Tomamos los datos de las estaciones meteorológicas cercanas en un radio de 10 km del sensor interior.

Todos los datos que tenemos fueron divididos en un set de entrenamiento y pruebas tanto para el desarrollo de los modelos predictivos, como para las imputaciones. Los datos de SINAICA se dividieron en conjuntos correspondientes a 70% de los datos y 30% para pruebas. Los datos del sensor, al ser más, utilizamos una división de 80-20.

Problemáticas

Este problema lo logramos superar robusteciendo la red neuronal para que tuviéramos las predicciones en la unidad IAQ que se describió en la sección anterior: Variables.

Análisis Exploratorio Inicial

Se realizó un análisis exploratorio de los datos y recopilación de los datos de fuentes externas. Estas se pueden encontrar en proyectofinal00_eda.html

A continuación mostramos algunas gráficas de las lecturas del sensor.

Modelos

Proponemos utilizar un modelo de aprendizaje profundo con distintos tipos de neuronas artificiales:

Utilizamos series de tiempo basándonos en el modelo de ventanas de tiempo donde se crearon matrices con tiempos pasados [4] [5]

Además de utilizar técnicas de series de tiempo, estadística frecuentista y bayesiana para el análisis de los datos y las imputaciones que fueron necesarias para tener esta secuencia de valores para la serie de tiempo. Exploramos las siguientes técnicas.

Esta última fue la técnica que utilizamos por adecuarse mejor a la secuencia de los datos. Como se muestra en un ejemplo a continuación:

Se pueden encontrar el detalle en la sección: proyectofinal01_imputaciones_airdata.html

Trabajos relacionados

Existen los siguientes trabajos relacionados:

  1. Examen final para la materia de "Modelos de Gran Escala" con la Prof. Liliana Millán. Utilizamos los datos de las estaciones de monitoreo ambiental de la Ciudad de México y los datos de afluencia de las estaciones Ecobici. Buscamos establecer la relación entre la afluencia de las estaciones de Ecobici y la disminución (o aumento) de contaminantes en las inmediaciones a estas estaciones. Encontramos que las estaciones con alta afluencia tienen mayor contaminación, pero pudiera ser provocado porque la afluencia es para todos los medios de transporte, incluídos los emisores de contaminación. Fueron utilizados metodos de aprendizaje máquina.

  2. Development of indoor environmental index: Air quality index and thermal comfort index [6] Es un estudio de la Universidad Tecnológica de Malasia. Utilizaron los datos de un conjunto de sensores, similares al nuestro, para establecer la relación entre contaminantes en interior (IAQ) y el índice de comodidad térmica (TCI) mediante un nuevo índice de calidad y comodidad ambiental de interiores mediante un monitoreo en "tiempo real". El modelo propuesto está basado en una suma ponderada.

  3. Tensorflow Tutorial on Time-Series Forecasting [4]. Los creadores de Tensorflow, a manera de demostración, utilizaron los datos de Biogeoquímica del Instituto Max-Planck de Alemania para predecir el clima a partir de datos históricos utilizando redes neuronales en combinación con series de tiempo. Utilizaron redes neuronales de los tipos RNN y LSTM.

Solución

Preprocesamiento

Hicimos un preprocesamiento de los datos basado en los siguientes puntos:

Datos del Gobierno y del Sensor

En esta sección se puede encontrar el procesamiento de los datos de las estaciones de monitoreo de contaminantes de la Ciudad de México y los Datos del Sensor: proyectofinal03_sensor-sinaica.html

Modelo Propuesto

El modelo que mejores resultados nos dio fue un modelo de redes neuronales que combina en una sola red: subredes convolucionales (CNN), memoria largo-corto plazo (LSTM) y redes densas (DNN); observamos las fortalezas de cada una de dichas subredes, pero no observamos en gran medida sus debilidades. El modelo aprendió una representación interna de los datos de la serie temporal y logró el mejor rendimiento.

En el siguiente documento encontrará la arquitectura del modelo: proyectofinal04_mejora_modelo.html.

Resultados

A continuación presentaremos los desempeños desescalados con el fin de comparar el comportamiento de los modelos y poder decir la influencia y caapacidad de predicción:

Como se puede apreciar, incluso pudimos tener un mejor desempeño en los modelos que utilizan únicamente los datos del sensor y descartando los datos del gobierno. Lo cual resulta muy bueno porque no tendríamos que depender de los datos del gobierno. Además descartaríamos, de manera preliminar, que la contaminación exterior influye de manera significativa en la contaminación interior. Aunque destacamos que es necesario realizar más ensayos y pruebas de hipótesis para afirmarlo con una mayor certeza.

En la siguiente gráfica se puede notar que la red dense (DNN01) ofrece el mejor desempeño, sin embargo, destacamos que observamos resultados no estables; en algunas corridas de aprendizaje brindaba un excelente desempeño, y en otras no.

Curvas de Desempeño

En la siguientes gráficas donde mostramos las curvas de desempeño con el error cuadrático medio (mse) en los 5 mejores modelos; intentando mostrar que el desempeño es mucho más estable en el modelo best01 que combina las redes convolucionales, recurrentes y densas comparado con el modelo denso simple.

Conclusiones

Explicamos nuestras conclusiones por rubro:

Para concluir queremos también invitar al lector a que visite la página https://philwebsurfer.github.io/dlfinal/ donde hemos publicado todos los recursos necesarios para hacer reproducible y repetible este proyecto, así como los detalles de cada una de las secciones que fueron omitidos por espacio. Estos se han mencionado en las secciones anteriores de este artículo.

Bibliografía