jueves, 22 de marzo de 2012

Big Data, la era de la avalancha de datos

Una interpretación visual del big dataBienvenidos al término de moda en 2012: Big Data. Cada cierto tiempo la industria tecnológica nos sorprende con un nuevo concepto tan difícil de digerir como de traducir: SaaS, SOA, Cloud computing… Ahora le toca el turno al Big Data. ¿Vaporware o reto corporativo?

Big Data supone la confluencia de una multitud de tendencias que venían madurando durante la última década: redes sociales, movilidad, aplicaciones, caída del coste de la banda ancha, interconexión de objetos a través de la Red (machine to machine o Internet de las cosas), cloud computing… Todas estas tendencias tienen otra en común: producen una ingente cantidad de datos que necesitan ser captados, almacenados, procesados y analizados.

Las cifras explican por sí solas la situación: durante el 2011 se crearon 1,8 zettabytes de información (18 billones de gigabytes), una cifra que se dobla cada dos años; el 90% de los datos disponibles en el mundo han surgido durante los dos últimos años; Wal-Mart, que posee bases de datos con una capacidad de 2,5 petabytes, procesa más de un millón de transacciones cada hora. Big Data en estado puro.

Las herramientas tradicionales de ETL (Extract, Transform and Load), bases de datos y Business Intelligence se quedan cortas en según qué sectores y escenarios para gestionar la complejidad de los datos. Y esa incapacidad puede suponer numerosos riesgos para las empresas: tomar decisiones incorrectas y tarde, entorpecer la visibilidad de nuevas oportunidades de negocio o amenazas, poner en peligro el cumplimiento de normativas, socavar las ventas y la atención al cliente…

Por supuesto, esta avalancha de datos no afecta a todas las organizaciones y sectores por igual, pero supondrá uno de los mayores dolores de cabeza para las empresas en los próximos años por tres motivos clave:

- Crecimiento en el volumen, velocidad y variedad de los datos. Cada vez más compañías se unen al club de los petabytes, firmas cuyo volumen de datos está en el orden de los 1015 bytes. Y no solo es una cuestión de volumen. La velocidad con la que la información se genera y debe ser almacenada, analizada o descartada aumenta año a año. También la variedad, los tipos de datos: email, texto, vídeo, fotos, KPIs, transacciones online, incidencias telefónicas… Saber gestionar estas tres “V”, volumen, velocidad y variedad, marcará cada vez más la diferencia.

- Relación entre información y resultados de negocio. Según The Economist Intelligence Unit, el 53% de las firmas con una estrategia eficiente de gestión y análisis de datos obtienen mejores resultados de negocio frente a solo el 36% que asegura no tener esa estrategia establecida. ¿El motivo? Una adecuada segmentación y calidad de datos desemboca en una toma de decisiones más acertada, en la identificación de problemas a tiempo y en el aumento de la transparencia.

- Escasez de especialistas en gestión y análisis de datos. Big Data es un reto técnico y organizativo. El 30% de las compañías a nivel mundial reconoce no disponer del talento interno necesario para abordar la gestión eficiente de datos. Solo EE.UU. necesitará entre 140.000 y 190.000 expertos en datos de aquí a 2018: estadísticos, matemáticos, analistas, managers con una experiencia híbrida en negocio y proyectos cuantitativos y técnicos expertos en software y lenguajes de programación de análisis de datos.

Un crecimiento del 40% hasta 2015

Los cálculos más recientes sobre la evolución del mercado de Big Data a nivel mundial apuntan a un crecimiento del 40% entre 2010 y 2015 (siete veces mayor que el ritmo de crecimiento del mercado global de las TIC), llegando a mover casi 17.000 millones de dólares en 2015 entre software, hardware y servicios.

Buena parte de este crecimiento se concentrará en la infraestructura tecnológica, especialmente en desplegar servidores con una gigantesca capacidad de procesamiento y almacenamiento, sistemas OLAP (On-Line Analytical Processing) multidimensionales y bases de datos basadas en memoria volátil (in-memory). Proveedores como EMC, IBM, Oracle o Informática, pero también Microsoft y Google se están posicionando en este segmento y en el de middleware y aplicaciones, junto con otros como SAP, Tableau Software o SAS.

El autor de este artículo es Manuel Ángel Méndez (@m_angelmendez), analista y periodista especializado en tecnología y negocios. Manuel cuenta con más de 10 años de experiencia en análisis y asesoría tecnológica, primero en Forrester Research en Londres, donde fue responsable europeo del departamento de análisis del gasto TIC, y luego en Penteo, donde fue Director de Investigación. En la actualidad escribe para las secciones de tecnología y negocios de El País y es analista asociado en Penteo.

Frente a las soluciones propietarias, opciones basadas en la nube y en software libre ganan terreno especialmente en medianas y pequeñas organizaciones donde las necesidades de análisis de datos están más acotadas. Apache Hadoop han recibido especial atención. Hadoop es un entorno de software libre que permite distribuir el proceso de grandes cantidades de información en diferentes clusters de ordenadores. IBM, Cloudera o Amazon ya integran este framework en sus soluciones comerciales para reducir el coste final de sus productos. Las bases de datos no relaciones NoSQL también se están utilizando como alternativa en proyectos de Big Data.

¿Cómo reaccionar a la avalancha?

Muchas compañías, especialmente las grandes organizaciones, han comenzado a explorar qué significa Big Data para ellos y el primer paso que han dado ha sido establecer definiciones y requerimientos de personal e infraestructura TIC. Por ejemplo, si un proyecto implica el almacenamiento y análisis de más de 100 terabytes de información, requiere procesamiento y visualización en tiempo real o crece en volumen de datos un 60% anual, probablemente estemos ante una iniciativa de “Big Data” que requerirá infraestructura TIC y personal especializado.

Según McKinsey, el valor que una compañía puede extraer del Big Data (ellos lo llaman el “value potential index”), depende de 5 variables: 1) la cantidad de datos disponibles en la empresa para su uso y análisis; 2) la variación histórica en los resultados de negocio; 3) el número de clientes y proveedores medio con los que opera la compañía; 4) la intensidad y flujo de transacciones realizadas por la compañía; 5) los cambios y turbulencias inherentes al sector.

Si en un gráfico cruzamos el valor de capturar esos datos, el value potential index, con la facilidad de obtenerlos, la conclusión es que compañías en servicios financieros, administración pública, distribución y servicios informáticos son las que más beneficios podrían obtener del Big Data.

big data

Facilidad de captura de los datos y valor de los mismos, por sector |Fuente: McKinsey Global Institute

Las organizaciones que se han embarcado en proyectos de Big Data han comenzado también por analizar su estrategia de centro de datos. ¿Qué es más eficiente y menos costoso: aumentar los servicios de externalización del CPD, contratar servicios de infraestructura como servicio/cloud computing o construir y ampliar las instalaciones propias? La respuesta dependerá del análisis previo sobre la complejidad de los datos y la problemática de negocio en cada caso.

Otras están optando por probar herramientas de software libre para crear entornos cerrados de prueba en los que capturar, almacenar, procesar y analizar grandes volúmenes de datos. Estos pilotos les sirven para delimitar necesidades de infraestructura TIC en proyectos de mayor envergadura y plantear la viabilidad de un posible caso de negocio (beneficios, inversión, coste…).

Por último, buscar el talento técnico y analítico dentro de la organización o contratarlo externamente será otra de las prioridades iniciales. Algunos de los perfiles requeridos no existirán en la organización, como especialistas en minería de datos, programadores de bases de datos NoSQL, analistas, estadísticos o matemáticos. Buscarlos e incorporarlos lo antes posible será indispensable para reaccionar con éxito al reto del Big Data.




from TICbeat http://feedproxy.google.com/~r/rwwes/~3/5mRj3l5ytg0/