Proyecto Final

Datos de SINAICA.

Visualización de las Estaciones Cercanas

Encontramos que las siguientes son algunas de las estaciones cercanas a "Camarones" que está próxima a nuestro sensor:

Mapa de Estaciones Cercanas

Estación de Monitoreo Camarones

Imputaciones: Datos Faltantes de las Estaciones de Monitoreo.

Algunos datos faltantes son causados por mantenimiento del equipo. Pero pudiéramos enriquecer la información con los datos de estaciones cercanas. Para ello vamos a evaluar las imputaciones.

Datos Faltantes en Estación Camarones

Observamos que en la estación Camarones, que es la más cercana, todos los indicadores tienen valores faltantes.

Observaciones Completas en Estación Camarones

Separación en Sets de Pruebas y Entrenamiento

Distribución de Datos

PM10

Estas son las estaciones que miden el contaminante PM 10.

Cruce

PM2.5

Regresión Lineal

Removemos observaciones incompletas para realizar la regresión.

Lasso

Regresión Lineal Bayesiana

Se utilizó Stan para realizar una aproximación de los datos que se distribuyen similar a una Poisson.

Media

Modelos Generalizados de Regresión (GLM)

K-Nearest Neighbors

Evaluación

Conclusiones Previas

Dado que cambiamos para utilizar los datos como secuenciales (serie de tiempo, optamos por utilizar el modelo basado en interpolación lineal.

Por ello, en la siguiente sección lo realizaremos:

Interpolación

Sabemos por la exploración de datos y en secciones anteriores que la Merced tiene datos muy similares a Camarones, además tiene la bondad de tener menos faltantes.

Por otra parte camarones tiene muchos más:

Por estos resultados haremos las siguientes imputaciones en un nuevo dataframe.

Quedando el dataframe con la columnas de contaminantes de la siguiente manera:

Realizamos un lag, para observar las horas faltantes y detectar las interrupciones de la línea de tiempo:

Vemos que las Horas faltantes son como siguen:

Realizamos una interpolación quedando los datos así:

Hemos imputado con éxito todos los datos:

Reconocemos que tal vez no es el mejor método, pero requerimos más tiempo para explorar más sobre imputaciones en series de tiempo.

Referencias