Ultima actualización en
Convertir "big data" en resultados significativos puede parecer complicado. Pero una vez que comprenda qué es y cómo funciona, hacer que sea significativo no es tan complicado.
A lo largo de los años, muchas palabras de moda se ponen de moda en muchas industrias. Hay pocos que se han vuelto tan populares, y durante tanto tiempo, como Big Data. Pero, ¿qué es exactamente Big Data?
Big data se refiere a un océano virtual de información de una variedad de fuentes, analizadas y filtradas de tal manera que se desarrollen resultados significativos y procesables.
El proceso de convertir "big data" en resultados significativos puede parecer complicado y difícil. Sin embargo, una vez que comprenda qué son los grandes datos y cómo funcionan, entender cómo hacerlos significativos no parece tan complicado.
¿Qué es el Big Data?
Cuando escuchas a la gente hablar de "big data", generalmente es con muchas palabras y grandes palabras. Pero cuando se reduce toda la hipérbole, los "datos" reales son en realidad muchas secuencias de entrada de datos múltiples.
Para entender esto, un ejemplo puede ayudar. Supongamos que dirige una empresa fabricante de paraguas. Su departamento de marketing está buscando una manera de predecir mejor cuándo la demanda del mercado está a punto de aumentar.
Antes de los días de big data, los especialistas en marketing estudiaban las tendencias del mercado, enviaban encuestas a los clientes y muchas otras actividades.
Recopilarían todos esos datos y los almacenarían en las bases de datos internas de su propia empresa. Alguien podría incluso estar a cargo de actualizar los datos de la investigación de mercado anualmente o trimestralmente.
Sin embargo, el advenimiento de los grandes datos amplía la capacidad de realizar este tipo de investigación. En particular, los grandes datos son especialmente efectivos para identificar tendencias o eventos importantes en tiempo casi real.
Las entradas de datos para este tipo de análisis de "big data" pueden incluir flujos de datos en tiempo real al escribir código que se conecta al Interfaz de programación de aplicaciones (API) de muchas compañías diferentes que han hecho públicos esos datos:
- Twitter y Facebook: Identifique cuándo y por qué las personas están discutiendo la compra de paraguas.
- Clima: Identificación las condiciones climáticas o predicciones que podrían convertirse en mayores ventas generales.
- Bolsa de Valores: Cambios estacionales en el costo de las materias primas para producir paraguas.
- Uso web del cliente: Uso de información del cookies de computadora de las personas que visitan el catálogo de la empresa para comprender los comportamientos de compra.
- Historial de compras del cliente: Seguimiento de la geografía y las estaciones de las tendencias de punto de venta de los minoristas.
Para utilizar big data, el equipo de marketing de esta empresa necesitaría, en algunos casos, instalar nuevas tecnologías.
Big Data e Internet
Esto podría incluir la tecnología de Internet de las cosas (IoT) en los minoristas que rastrea e informa sobre los comportamientos de los consumidores. O podría implicar que un programador escriba el código requerido para interactuar con la API de Twitter para filtrar los Tweets que mencionen "paraguas" o el nombre de la empresa.
Cada una de estas tecnologías ahora está disponible gracias a internet. Internet permite que cualquiera pueda acceder a flujos de datos de todo el mundo.
Así es como puede funcionar la configuración en nuestro propio ejemplo en este caso.
Este diagrama muestra cómo los datos fluyen al "lago de datos" de la compañía desde muchas fuentes diferentes. Los datos entrantes pueden estructurarse de manera diferente, pero lo importante es recopilar la mayor cantidad de datos posible de todas las fuentes.
¿Qué es un lago de datos?
A diferencia de una base de datos, que contiene datos estructurados organizados en columnas y filas específicas, un lago de datos es un depósito masivo para muchas formas diferentes de datos.
Los datos almacenados pueden ser estructurados o no estructurados. Lo que significa que puede tener filas y columnas estructuradas, o puede que no. Los datos pueden ser cadenas que utilizan un formato específico para separar los datos. Cada fuente de datos puede enviar datos a un lago de datos en cualquier forma que desee.
Imagine un lago de datos como una biblioteca masiva que contiene muchas formas de medios, como libros, imágenes en microfichas y videos en DVD.
Imagine que la inteligencia digital y el ingeniero de análisis de datos son usuarios de esa biblioteca. Estos usuarios pueden extraer digitalmente datos de libros, microfichas y DVD y encontrar formas de mezclar y combinar esos datos y aprender cosas de cómo se correlacionan los datos.
De esos aprendizajes viene la inteligencia real y procesable. Algunos de estos de nuestro ejemplo pueden incluir:
- Chatter en Twitter y Facebook indican una tormenta que se aproxima en la ciudad de Nueva York, con miles de clientes que planean comprar paraguas.
- Los datos de compra de cookies de computadora y las máquinas de pago minorista indican que los compradores en California están dispuestos a pagar más por paraguas de diseñador que las personas en Virginia.
- Un gran patrón de tormenta que se aproxima indica que la mayor parte de la costa este estará cubierta con una tormenta durante una semana completa.
Todos estos aprendizajes podrían impulsar al equipo de marketing a invertir en más publicidad geográficamente donde la demanda de ventas paraguas es mucho más fuerte. Las operaciones de fabricación también podrían trasladar sus esfuerzos de producción a aquellas áreas del mundo más cercanas a donde es más probable que las ventas suban.
De esta manera, utilizando big data, cualquier empresa puede optimizar su comercialización y operaciones.
¿Qué es Hadoop?
La siguiente pregunta es, ¿cómo procesan las empresas grandes volúmenes de datos e identifican tendencias?
Este tipo de procesamiento de datos requiere recursos informáticos masivos. Tanto es así, que las empresas ya no usan grandes computadoras mainframe en las instalaciones como solían hacerlo. Muchos de estos servicios ahora son compras desde la nube. Los servicios de inteligencia de datos en la nube como Apache Hadoop ofrecen muchos nodos de computadora en una gran red en la nube. Cada uno de estos nodos contribuye a la potencia de procesamiento requerida para analizar flujos masivos de datos de múltiples fuentes.
Este tipo de potencia de procesamiento es el corazón de la máquina o la inteligencia digital y el análisis de datos. Hadoop es el marco de software que hace que toda esta red de poder computacional masivo funcione como lo requieren los ingenieros de inteligencia digital.
Una vez que el motor computacional produce inteligencia procesable, generalmente se entregan a la empresa en forma de paneles o informes.
Big Data no es solo palabras de moda
La verdad es que "big data" es más que una jerga corporativa. Muchas empresas están aprendiendo que al hacer un mejor uso de los datos pueden lograr numerosos logros.
- Los fabricantes pueden mejorar las métricas de producción críticas como el rendimiento, la calidad y la eficiencia.
- Los minoristas pueden alinear mejor las inversiones comerciales, publicitarias y de marketing en función de las señales del mercado.
- Los distribuidores pueden predecir posibles problemas en una cadena de suministro para desarrollar planes de contingencia preventivamente.
- Las organizaciones de noticias pueden identificar rápidamente eventos de interés periodístico mediante el análisis de señales públicas en Internet.
- Expertos en ciberseguridad use señales en Internet para identificar ciberataques mientras están en progreso.
Si bien gran parte de lo que han logrado los grandes datos en los últimos años sigue siendo prácticamente invisible para el público, los grandes datos han tenido un impacto significativo en la vida cotidiana de las personas en todo el mundo.