Viviendo en la era de Big Data

Big Data

Big Data

Uno de los conceptos más importantes que hoy en día se manejan en el mundo de los datos y la información es el de Big Data. Quién no lo ha escuchado en más de una ocasión en conversaciones ad-hoc; no ha buscado su significado en la red o en publicaciones especializadas; o no lo ha utilizado en reuniones de trabajo.

Dada la recurrencia del tema y el impacto que tiene en el manejo de datos, es un tema obligatorio para quienes nos manejamos con la información.

Este artículo es un complemento ideal de mi primer posteo: qué es Business Intelligence, y más adelante veremos por qué.

 

Definamos el término

El primer paso que quiero dar en este artículo es entender qué es Big Data. Iniciemos por algunas de las definiciones que podemos encontrar en la red:

“Big Data es una colección de datos creados a partir de fuentes tradicionales y digitales, tanto internas como externas a la compañía, que componen una fuente para el descubrimiento y el análisis.”
Lisa Arthur, fuente: http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/

“Big Data es información de gran volumen, gran velocidad y gran variedad que requiere formas rentables e innovadoras de procesamiento para su comprensión y la posterior toma de decisiones.”
Gartner, fuente: http://www.gartner.com/it-glossary/big-data/

“Big Data es un término popular utilizado para describir el aumento y disponibilidad exponencial de los datos, tanto estructurados como no estructurados.”
SAS.

Tres definiciones de las decenas de artículos que se puede encontrar buscando en medios especializados. En resumen Big Data lo podemos entender como el paradigma en que un enorme flujo de datos, proveniente de una gran variedad de fuentes, tiene que ser almacenado y luego accedido a gran velocidad.

Y donde por supuesto, los métodos tradicionales nada tienen que hacer.

 

Big Data más allá de la teoría

Luego de la definición teórica es importante conocer la función práctica del Big Data. Dónde se aplica. Por qué. Por ejemplo  uno de los puntos importantes es el Volumen de la información. Esto es, una cantidad de datos tal que no pueden ser gestionados mediante métodos tradicionales.

Y aquí nace nuestra primero consulta: ¿en qué situación podría yo (o mi empresa) llegar a generar tal cantidad de datos, y qué valor podría obtener yo de ellos?

Hoy en día, y como nunca antes, existen decenas de fuentes de datos que podrían llegar a ser útiles a una empresa. Están los datos estructurados de Clientes, Productos, Medios de Pago, comportamiento, etc, que son generados de manera diaria. Estos son los datos a los que estamos acostumbrados. Aquellos que almacenamos en los DataWarehouse, Datamarts, Sandboxs.  De los que podemos construir «fácilmente» modelos relacionales.

No obstante también existen los datos no estructurados. Datos generados por Redes Sociales, por Lenguaje de Máquinas, Reclamos y Sugerencias de Clientes. Datos que son difícilmente categorizables. A los que le falta profundidad. Y que no podíamos analizar, hasta hoy.

Precisamente esta última categoría es la que más crecimiento tiene en términos de volumen. Y dado que no puedo crear modelos relacionales, debo ejecutar nuevos métodos que me permitan almacenarla, acceder rápidamente a ella y obtener la información que me dará esa ventaja competitiva que necesito. Métodos que me permitan responder preguntas como ¿existirá una relación entre la tasa de conversión y el comportamiento en redes sociales de mis usuarios? Deben admitir que es interesante.

 

Respondiendo nuestras preguntas

El primer paso es almacenar el Volumen de datos que considero me pueden reportar valor. No es que físicamente sea imposible guardar los datos. Un buen rack de discos está al alcance de la mano. El problema se presentará durante la gestión: petabytes de información manejadas por un motor tradicional significa semanas, quizás meses de análisis.

Es decir, toma un tiempo prohibitivo. Un tiempo durante el cual mi competencia ya me sacó 100 metros de ventaja. Para lo cual es necesario contar con herramientas que me permitan acceder y analizar esta información en horas.

El segundo paso es manejar la Variedad de las fuentes de origen. Pensemos en esto: obtengo información de las principales redes sociales, de mi tienda Online que está almacenada en un modelo estructurado, y de mis clientes desde sistemas CRM. ¿Cómo puedo relacionar estos datos tan distintos?

Los métodos tradicionales no está preparados para trabajar datos estructurados y no estructurados sin un modelamiento exhaustivo. Y cómo modelar, si todavía no somos capaces de ver la relación de los datos a mi disposición. Necesito un sistema que me permita resolver esto y encontrar esa relación oculta entre ellos.

Y finalmente el tercer paso: la Velocidad. Necesito mis respuestas hoy. Para adelantarme a mi competencia, para entregar un valor agregado a mis clientes, para mejorar mis procesos de negocio. Cada hora adicional es una hora que mi competencia ha utilizado para dejarme atrás. Necesito un sistema que me de esa velocidad de acceder y analizar mis datos.

Volumen, Variedad, Velocidad. Big Data.

 

Big Data desde mi óptica personal

Veo a Big Data como un paso obligatorio para todas aquellas empresas que ya utilizan una gran cantidad de datos en sus procesos. Estamos en una época única, donde prácticamente todo lo que hacemos queda registrado. Datos en crudo que son realmente una mina que debe ser explotada.

No obstante, se debe tener cautela al momento de pensar en abordar un proyecto de esta envergadura.

Personalmente he participado de dos iniciativas orientadas a Big Data: una fue implementar un sistema distribuido basado en Hadoop. Otra fue trabajar con un Appliance de una gran empresa tecnológica.

Conclusiones importantes de estas experiencia fueron:

  • Tener claridad de los objetivos planteados
  • Conformar el equipo idóneo requerido para cumplirlos.
  • Calcular y gestionar bien el tiempo necesario para cada una de las actividades.
  • Y evaluar correctamente el costo versus el beneficio esperado.

 

Otro aspecto a evaluar es si se justifica o no iniciar un proyecto de Big Data. Donde la conclusión podría ser no. Muchas empresas hoy en día operan correctamente con modelos «Small Data» o tradicionales; o no tienen la madurez suficiente para dar el gran salto. En mi experiencia y opinión, es importante primero dominar el «Small Data» antes del «Big Data».

Como sea es un tema interesante, que seguirá dando que hablar. Principalmente por las aplicaciones en Inteligencia Artificial y Machine Learning, el futuro del análisis y conocimiento digital.

 

Actualización. Mi artículo de Big Data lo modifiqué el día 25-05-2018. Esto luego de notar dos cosas relevantes: una que mis palabras no representan correctamente lo que quería expresar. Y otra que cometí algunas equivocaciones en los conceptos abordados.

Deja un comentario

Tu email nunca se publicará.