jueves, 21 de agosto de 2014

Un algoritmo para detectar en el ‘big data’ el origen de los datos atípicos

En la era del Big Data, las herramientas de visualización tienen un papel fundamental, pues nos permiten, de un vistazo, reconocer patrones (y alteraciones de los mismos) que podrían escapar incluso a la detección de una computadora tras horas de análisis. Pero… ¿qué ocurre cuándo el patrón detectado no es el esperado, o cuándo no se aprecia claramente y no es posible inferir conclusiones a partir del mismo? Podría ser que tan sólo un par de sensores defectuosos entre varias docenas estuvieran corrompiendo un patrón muy regular de lecturas, o que un único respiradero obstruido en un hospital estuviera aumentando de manera espectacular el riesgo de infecciones de un grupo de pacientes. Para detectar este tipo de casos, el Grupo de Bases de Datos del Laboratorio de Computación e Inteligencia Artificial del MIT ha lanzado recientemente una herramienta de visualización de datos que permite destacar fácilmente los patrones de datos y sus eventuales aberraciones, así como determinar automáticamente qué fuentes de datos son las responsables de las mismas.

Esta herramienta se llama DBWipes, y ha sido desarrollada por el doctorando Eugene Wu y los profesores Samuel Madden y Michael Stonebraker, que la han dotado de un sistema de “seguimiento de la procedencia”, novedoso en el campo del Big Data: proporciona una representación compacta de la fuente de los datos resumidos para que los usuarios puedan rastrear fácilmente la fuente de los mismos. DBWipes (y su algoritmo Scorpion) permiten al usuario marcar los puntos que sugieren un patrón regular como “datos normales” y los que interrumpen éste como “datos atípicos”, facilitando su detección mediante la comparación entre la visualización y el patrón previsto, para después recopilar e investigar el origen de todos los datos fuera de lugar. En palabras de Samuel Madden:

Si nos fijamos en la manera en que se elaboran tradicionalmente las visualizaciones, amplios datasets de cientos de millones de datos pueden quedar reducidos a unos pocos cientos o miles de registros” -con, por ejemplo, 100 puntos que resuman o constituyen un promedio de 1 millón de datos cada uno- “El problema de este tipo de reducciones es que perdemos la información sobre en qué datos de entrada tienen su origen los datos de salida recogidos en la visualización, así que si uno de esos datos es un valor atípico carecemos de la capacidad real de volver sobre los datos y preguntarnos… ‘¿De dónde sale esto y cuáles son sus propiedades?’”.

Imagen | Christine Daniloff / MIT






from TICbeat http://ift.tt/1tpzXQV