El Big Data ya no necesita humanos
El análisis de los grandes datos que nuestros computadores, teléfonos inteligentes, tabletas, puede mejorar la gestión de los negocios, permite realizar predicciones en multitud de campos y revela relaciones causa-efecto entre los datos que han podido pasar desapercibidas. Por estas razones el perfil del data scientist, o analista de datos, es uno de los más solicitados en Silicon Valey.
Si bien el análisis de estos datos requiere del uso de ordenadores y programas informáticos, también requiere de cierta intuición por lo que el factor humano juega un papel importante. Son los analistas quienes deciden qué colecciones de datos se van a analizar y qué tipo de relaciones se va a buscar entre ellos. Sin embargo, esta necesidad puede haberse visto superada gracias a un nuevo sistema desarrollado por ingenieros del Instituto Tecnológico de Massachusetts (MIT por sus siglas en inglés) al que han bautizado Data Science Machine o DSM. Se trata de un software capaz de encontrar patrones en las relaciones entre los datos y realizar predicciones a partir de las mismas mejor que la mayoría de los humanos y en un periodo de tiempo sustancialmente menor.
“A partir de nuestra experiencia realizando análisis de datos hemos visto que uno de los pasos críticos es identificar las variables que se van a extraer de la base de datos”, explica Kalyan Veeramachaneni, investigador en el Laboratorio de Informática e Inteligencia Artificial del MIT, co-creador del DSM junto con Max Kanter, un estudiante de máster en el mismo departamento. Para identificar estas variables el software comienza por buscar las relaciones inherentes en el diseño de las bases de datos. En ellas habitualmente se clasifican datos diferentes en tablas separadas, indicando la existencia de relaciones entre ellos con etiquetas numéricas. El programa desarrollado por Veeramachaneni y Kanter analiza estas etiquetas y las usa como guía para buscar correlaciones entre los datos.
El DSM ha quedado por delante de más de la mitad de los participantes humanos en todas las competiciones a las que se ha presentado. Una vez hecho esto, el software comienza a ver qué relaciones numéricas existen entre el conjunto de características que ha generado previamente. Si existe una relación, el programa probará una serie de operaciones que darán lugar a predicciones, que se recombinan de distintas maneras para optimizar su precisión.
Para poner a prueba su sistema, Veeramachaneni y Kanter se inscribieron en tres competiciones de análisis de datos en los que se enfrentaron a equipos humanos. El DSM quedó por delante de más de la mitad de los participantes en todas ellas y, aunque no consiguió el mejor resultado en ningún caso, logró crear unas predicciones casi tan acertadas como las de los equipos ganadores. En lo que el DSM fue el ganador indiscutible fue en el tiempo empleado en realizar su trabajo: tardó tan sólo entre dos y doce horas en obtener sus resultados mientras que a los otros equipos les llevó entre uno y dos meses. “Si el resultado es adecuado para los objetivos del problema no es necesario trabajar más en ello” concluyen los autores en un artículo presentado en la International Data Science and Advanced Analytics Conference, una de las reuniones más importantes de la industria, celebrada recientemente en París.
“Vemos el Data Science Machine como un complemento natural a la inteligencia humana”, afirma Kanter, “hay muchísimos datos esperando ser analizados y ahora mismo no se hace nada con ellos. Ya hemos recibido ofertas de compañías interesadas en utilizar nuestra tecnología, que hemos comenzado a comercializar a través de una compañía llamada FeatureLab”.