Una herramienta para comprobar la coherencia de los conjuntos de datos reales

Octubre 2022 — Nota técnica #74

Mohammad Saifuzzaman

Product Specialist

En este mundo basado en datos, el rendimiento de un modelo de simulación de transporte se juzga en función de qué tanto representa la vida real o, al menos, la vida real tal y como se observa.

La situación observada se recrea mediante varios tipos de conjuntos de datos reales (RDS) procedentes de diferentes fuentes, por lo que es crucial garantizar su calidad si se quieren obtener resultados significativos en el modelo de simulación.

Sin embargo, el proceso de comprobación de la calidad de los datos en busca de valores atípicos e incoherencias espaciales es laborioso y requiere mucho tiempo. Sin embargo, el proceso de comprobación de la calidad de los datos en busca de valores atípicos e incoherencias espaciales es laborioso y requiere mucho tiempo. Para facilitar esta tarea, Aimsun ha desarrollado una herramienta de comprobación de RDS cuya funcionalidad principal ha sido objeto de una nota técnica anterior: Cómo comprobar la coherencia del conjunto de datos reales.

Esta nota técnica se centra en algunos casos de uso de la herramienta y en cómo puede reducir significativamente la carga de trabajo para crear un conjunto de datos limpio y adecuado para diferentes aplicaciones.

1. El lector de conjuntos de datos reales

El módulo de RDS en Aimsun Next acepta la mayoría de los tipos de datos usados en un modelo de simulación. Un módulo lector de RDS se puede configurar con facilidad para recuperar datos de archivos basados en texto o datos posicionales en un formato estándar basado en GPS. Más detalles sobre el lector de RDS se pueden encontrar en el Manual de usuario.

A veces el RDS puede contener una gran cantidad de datos. Para ahorrar tiempo de recuperación y análisis puede filtrarse por subredes o por tiempo. Por ejemplo, en un modelo de prueba se utilizaron dos fuentes de datos, de autopista y de intersecciones señalizadas. They are combined in the RDS as shown in Figure 1. El conjunto de datos original se registró durante 24 horas a intervalos de 15 minutos. Cuando se analiza un periodo concreto del modelo, como la hora punta de la tarde, no es necesario utilizar todo el conjunto de datos. Se puede aplicar un filtro para recuperar la información del intervalo de tiempo requerido (por ejemplo, de 2 a 7 de la tarde). En la figura 2 se muestra un ejemplo de los datos recuperados para todo el día frente al pico de la tarde.

Figura 1: ejemplo de la ventana de entrada del RDS

Figura 2: ejemplo de flujo de detectores con datos de todo el día frente a los de los picos de la tarde

Durante el proceso de recuperación de datos se efectúa una serie de comprobaciones estándar. Entre ellas se incluyen la fecha y hora no válidas, la hora inicial y el intervalo, los valores de datos no válidos o faltantes, los valores de datos negativos y los NaN, los objetos que faltan en el modelo según la configuración de ID del RDS y los ID con múltiples objetos en el modelo. También se comprueban los valores de tiempo, objeto y tipo de vehículo en cada registro escaneado. Cualquier anomalía que se encuentra en los datos se informa en la pestaña de resultados y un mensaje de éxito o fracaso del proceso de recuperación se imprime en la ventana de registro para cada archivo escaneado. En la figura 3 se muestra un ejemplo del resultado recuperado para el RDS del modelo de prueba.

Figura 3: pestaña de resultados de recuperación de RDS (arriba) y ventana de registro (abajo)

2. Comprobación de la coherencia del conjunto de datos reales

La herramienta de comprobación de RDS asegura que los datos son coherentes con los valores de flujo, velocidad y ocupación. La vista por defecto de esta herramienta se muestra en la figura 4. Hay que tener en cuenta que los valores por defecto son solo una guía. Más adelante se dará más información sobre la elección de los valores de los parámetros.

Figura 4: herramienta de comprobación de la coherencia del RDS con valores por defecto

Exceso mínimo de velocidad medida frente al límite de velocidad: identifica cualquier punto de datos individual en el que el valor de la velocidad RDS es un 20% superior al límite de velocidad de la sección (o giro) codificado en el modelo. El comportamiento del conductor, la ubicación del área de estudio y el momento del análisis (hora punta, hora valle) pueden influir en esta selección. Un resumen rápido de los datos puede proporcionar una mejor visión de este umbral. Hay que centrarse en la identificación de los valores atípicos y de los errores de introducción de datos. Por ejemplo, en un tramo de carretera con un límite de velocidad de 100 km/h, una entrada de velocidad de 300 km/h es un error de entrada de datos, mientras que 150 km/h puede ser un valor atípico o no.

Exceso mínimo de caudal medido frente a la capacidad:identifica cualquier punto de datos individual en el que el valor del flujo del RDS es un 20% mayor que la capacidad de la sección (o giro) codificada en el modelo. Si los datos se recuperan por carril (por ejemplo, detector de carril) se compararán con la capacidad del carril.

Coherencia de la congestión identifica cualquier punto de datos individual en el que el valor del flujo del RDS es un 20% mayor que la capacidad de la sección (o giro) codificada en el modelo. Si los datos se recuperan por carril (por ejemplo, detector de carril) se compararán con la capacidad del carril. Hay que tener en cuenta que en el caso de los objetos de varios carriles (sección o estación de detección) el proceso de agregación por defecto utiliza el valor del flujo como la suma de los flujos de los carriles disponibles, mientras que la ocupación se promedia sobre las ocupaciones de los carriles disponibles. Por lo tanto, habrá que seleccionar un valor más alto de flujo máximo para identificar la congestión cuando tenga detectores que cubran varios carriles.

Coherencia espacial: se puede identificar la incoherencia del flujo (o del recuento) entre dos puntos medidos dentro de una distancia determinada. También es posible identificar incoherencias entre el flujo entrante y saliente en un nodo. El algoritmo requiere tres parámetros:

Valor mínimo de flujo para comprobar la coherencia: para evitar la detección no deseada con valores pequeños.
Distancia máxima para comprobar la coherencia: distancia entre objetos a considerar.
Diferencia mínima de flujo para informar de la incoherencia: un límite de tolerancia para el error de detección.

Notas sobre la comprobación de la coherencia espacial

Cuando el registro corresponda a un valor parcial (que no cubra todos los carriles de la sección) se buscarán los datos de los carriles que falten en un radio de 50 m. Si no se encuentran, no se comprobará la coherencia espacial de este registro.

La posible diferencia de flujo debida a la distancia entre los puntos de medición se tiene en cuenta calculando una capacidad de almacenamiento aproximada, como si todos los vehículos estuvieran detenidos entre estos dos puntos. Cuando no hay interferencias geométricas entre dos puntos (es decir, no hay conexiones de confluencia y derivación o centroides), pero la diferencia de flujo menos la capacidad de almacenamiento entre ambos puntos supera la diferencia de flujo mínima para informar de la incoherencia, se emitirá un error, porque una de las observaciones debería ser teóricamente incorrecta.

3. Aplicación de la comprobación de coherencia del RDS

Para la comprobación de la coherencia individual y de la congestión se examina cada observación en cada punto temporal y se aplica el algoritmo. En el caso de la comprobación de la coherencia espacial, se examinan varios objetos dentro de cada período de tiempo. Cuando el conjunto de datos se almacena en intervalos de tiempo pequeños (por ejemplo, 15 minutos), podría generarse una gran lista de avisos que podría resultar abrumadora y, en ocasiones, difícil de gestionar. Por ejemplo, en el modelo de prueba mencionado anteriormente, el conjunto de datos tenía una duración de 24 horas con intervalos de 15 minutos. Para reducir el tiempo de ejecución, el conjunto de datos puede recortarse a 5 horas (de 2 a 7 de la tarde), que es el periodo de análisis, utilizando las opciones de filtro descritas. La comprobación de coherencia con el valor por defecto generó 849 mensajes en total. La opción de filtro ayudaría a separar la salida por tipos de mensajes, tipo de objeto (por ejemplo, sección, nodo, detectores) y por archivo de RDS.

Figura 5: ejemplo de mensajes de comprobación de coherencia RDS

Si observamos detenidamente la figura 5, para la misma estación de detección se genera el mismo mensaje de error para cada punto de tiempo. Dependiendo de la aplicación de los datos, es posible que tengamos que examinar cada intervalo de tiempo y, a veces, sería conveniente obtener datos agregados a lo largo de un período. En las siguientes secciones, se discuten algunas aplicaciones comunes de esta herramienta.

3.1 Ajuste de la matriz origen-destino estática

El proceso de ajuste de la matriz origen-destino (OD) estática examina el volumen simulado y lo compara con el volumen del RDS. No es necesario que los datos dependan del tiempo. Lo que interesa sobre todo es la incoherencia del flujo, ya que podría afectar negativamente al proceso de ajuste. Podemos agregar los datos por periodo de simulación. Por ejemplo, en el modelo de prueba, hemos utilizado la opción de agregación automática disponible en el lector del RDS, como se muestra en la figura 6.

Figura 6: comprobación de la coherencia del RDS con datos agregados

Cuando la comprobación de coherencia se realiza en los datos agregados, el número de errores de coherencia espacial ha descendido de 44 a 3. Cuando no interesan los valores de velocidad, se puede utilizar un umbral alto para la velocidad medida frente a límite de velocidad para evitar los informes sobre errores. Del mismo modo, las comprobaciones de ocupación también pueden evitarse con un valor bajo para el flujo máximo para identificar la congestión.

Si miramos la descripción del primer error, los dos detectores de sección tienen una diferencia de caudal de 565 (1776-1211) vehículos. Como no hay otras interferencias geométricas, uno de los valores de flujo debe ser incorrecto. En este caso, el valor de flujo más bajo fue causado por un detector defectuoso. En el último mensaje de advertencia, el cálculo del nodo se basa en el flujo de entrada y de salida, como se muestra en la figura 7. Curiosamente, faltaban los datos de un giro de salida, que fue recalculado por la información del nodo aguas abajo.

Identificar esa incoherencia en los datos de manera manual llevaría mucho tiempo, mientras que la comprobación de la consistencia del RDS con la herramienta es en su mayor parte automática y se ejecuta en segundos para proporcionar información útil sobre la variación del flujo. Deberíamos actualizar el detector de incoherencias para el proceso de ajuste de la OD estática.

Figura 7: cálculo del flujo para la comprobación de incoherencia de nodos (los números denotan el flujo medio)

3.2 Refinamiento de la velocidad

Los datos de velocidad son importantes para la calibración y validación del modelo. El proceso identifica las anomalías de velocidad comparándolas con el límite de velocidad de la sección (o del giro). Los datos de velocidad dependen del tiempo y deben analizarse por cada punto de tiempo o pueden agregarse para el intervalo de tiempo de informe del modelo. A veces, este análisis también puede ayudar a identificar anomalías en el límite de velocidad de la sección. Por ejemplo, si los datos del límite de velocidad del modelo están desfasados, el último RDS puede identificar posibles lugares en los que es necesario realizar cambios. En este modelo de prueba, las advertencias sobre la velocidad en los accesos son frecuentes. Un ejemplo se muestra en la figura 8, donde el límite de velocidad en los accesos se estableció en 60 km/h y el límite de velocidad en la autopista era de 110 km/h. La velocidad en los accesos en el lugar detectado puede no estar justificada, ya que el conductor habría empezado a reducir la velocidad tras salir de la autopista. La velocidad en los accesos puede actualizarse basándose en el valor de la velocidad del RDS.

Figura 8: identificación de las anomalías en los límites de velocidad de las secciones a partir del RDS

3.3 Secciones congestionadas

Con los datos de flujo y ocupación, se pueden identificar los lugares congestionados a partir del RDS. Este resultado se marca como información. Las ubicaciones identificadas pueden usarse para crear una agrupación de secciones congestionadas que ayude al proceso de ajuste de la OD estática. También ayudará al proceso de validación del modelo, ya que informa de las ubicaciones típicas donde se produjo la congestión en la vida real. En el modelo de prueba hemos utilizado la agregación de 1 hora para informar de la coherencia de la congestión. La elección de los parámetros debe basarse en el valor del flujo y la ocupación observados en algunos lugares típicos congestionados. En la figura 9 se muestra el perfil de flujo y ocupación de dos lugares típicos congestionados (mañana y tarde) en la autopista. Sobre la base de este perfil, el valor del parámetro de flujo máximo para identificar la congestión se establece en 4.200 vehículos por hora y la ocupación mínima para identificar la congestión se establece en el 25%. Un valor más bajo para la ocupación mínima podría producir muchos casos con congestión leve o secciones a capacidad. En la figura 9 se muestra un ejemplo de los resultados de la coherencia de la congestión con los valores de los parámetros utilizados. Se identifica, por ejemplo, que el detector 4421 estaba parcialmente congestionado durante la tarde.

Figura 9: ejemplo de configuración y resultados de la coherencia de la congestión

5. Conclusión

Calibrar un modelo basado en un RDS con valores de datos incoherentes sería difícil, propenso a errores y a veces incluso imposible. La herramienta de comprobación de RDS puede identificar con facilidad los posibles errores y problemas de coherencia de datos. Esta nota técnica ha proporcionado algunas pautas sobre cómo utilizarla mejor. En lugar de mirar todos los errores a la vez, es útil separar los tipos de errores con el filtro o aplicar un conjunto de parámetros que proporcionen la información relacionada con el problema.

Más notas técnicas

Dividiendo y uniendo centroides en Aimsun Next

Noviembre de 2021: Geline Canayon explica una nueva característica que facilita la adaptación de los planos de zona a medida que desarrollas tu modelización.

Uso de la herramienta de revisión para el trabajo en equipo

Junio 2016: Dimitris Triantafyllos explica cómo la herramienta de revisiones de Aimsun permite a un equipo de modelización trabajar en un mismo archivo para una colaboración más rápida y menos propensa al error.

Digital mobility solutions

El Sistema de Gestión de Aimsun está certificado según la norma ISO 9001:2015 por Bureau Veritas.

¿Tienes alguna pregunta? Ponte en contacto.

¡Estamos aquí para ayudarte!
Nombre*
Nombre^* Apellido^*
Empresa, escuela u organización
País*
País
País*
Tema del mensaje*
Mensaje*
Aimsun puede utilizar mis datos de contacto para enviarme más información. Entiendo que puedo darme de baja en cualquier momento, como se detalla en la política de privacidad.

¿Tienes alguna pregunta? Ponte en contacto.

¡Estamos aquí para ayudarte!
Nombre*
Nombre^* Apellido^*
Empresa, escuela u organización
País*
País
País*
Tema del mensaje*
Mensaje*
Aimsun puede utilizar mis datos de contacto para enviarme más información. Entiendo que puedo darme de baja en cualquier momento, como se detalla en la política de privacidad.

Citar Aimsun Next

Texto sin formato
BibTeX
RIS

Aimsun Next 23

Aimsun (2023). Aimsun Next 23 Manual del usuario, Aimsun Next Versión 23.0.0, Barcelona, España. Acceso: 19, 2023. [Online].
Disponible en: https://docs.aimsun.com/next/23.0.0/

Aimsun Next 20.0.5

Aimsun (2021). Aimsun Next 20.0.5 Manual del usuario, Aimsun Next Versión 20.0.3, Barcelona, España. Acceso: May. 1, 2021. [En software].
Disponible: qthelp://aimsun.com.aimsun.20.0/doc/UsersManual/Intro.html

Aimsun Next 23

@manual {AimsunManual,

título = {Aimsun Next 23 User’s Manual},
autor = {Aimsun},
edición = {Aimsun Next 23.0.0},
domicilio = {Barcelona, Spain},
año = {2023. [Online]},
mes = {Accessed on: Month, Day, Year},
url = {https://docs.aimsun.com/next/23.0.0/},
}

Aimsun Next 20.0.5

@manual {AimsunManual,

título = {Aimsun Next 20.0.5 User’s Manual},
autor = {Aimsun},
edición = {Aimsun Next 20.0.5},
domicilio = {Barcelona, Spain},
año = {2021. [En software]},
mes = {Accessed on: Month, Day, Year},
url = {qthelp://aimsun.com.aimsun.20.0/doc/UsersManual/Intro.html},
}

Aimsun Next 23

TY – COMP
T1 – Manual del usuario de Aimsun Next 23
A1 – Aimsun
ET – Aimsun Next Version 23.0.0
Y1 – 2023
Y2 – Acceso: Mes, Día, Año
CY – Barcelona, España
PB – Aimsun
UR – [En software]. Disponible en: https://docs.aimsun.com/next/23.0.0/

Aimsun Next 20.0.5

TY – COMP
T1 – Manual del usuario de Aimsun Next 20.0.5
A1 – Aimsun
ET – Aimsun Next Version 20.0.5
Y1 – 2021
Y2 – Acceso: Mes, Día, Año
CY – Barcelona, España
PB – Aimsun
UR – [In software]. Available: qthelp://aimsun.com.aimsun.20.0/doc/UsersManual/Intro.html

Aimsun Insight

Aimsun Predict

Aimsun Start

Aimsun Plus

Aimsun Live

Proyectos de investigación

Trabajos de investigación

Programa de investigación Aimsun Ride

Blog de innovación

Obtener Aimsun Next

Usar Aimsun Next

Aimsun doc hub

Acerca de Aimsun Next

Acerca de Aimsun

Noticias

Trabajos

Eventos