Todo el mundo define Big Data con un conjunto de 3, 4 o 10 Vs. ¿Estas V realmente nos están dando la definición del concepto de Big Data o es algo más lo que están tratando de decirnos? La razón principal para utilizar esta caracterización basada en V es resaltar los desafíos que conlleva este Big Data. Desafíos como: captura, limpieza, curación, integración, almacenamiento, procesamiento y muchos más.
Estas V dan instrucciones para prepararse para los probables desafíos. Retos que pueden surgir en tu camino cuando empieces a gestionar tu Big Data que:
Estas V explican los aspectos importantes de Big Data y una estrategia de Big Data que la organización no puede ignorar. Veamos todas las V que contribuyen a los diferentes atributos del Big Data:
1. Volumen:
Diariamente se suben 100 terabytes de datos a Facebook; Akamai analiza 75 millones de eventos al día para orientar anuncios online; Walmart maneja 1 millón de transacciones de clientes cada hora. El 90% de todos los datos jamás creados se generaron en los últimos 2 años.
Las cifras anteriores realmente representan lo que significa cuando decimos grandes volúmenes de datos. Son estas primeras características de los datos las que los convierten en big data. Este gran volumen de datos, a su vez, nos plantea un desafío a la hora de almacenarlos.
Ver también: Las 19 mejores herramientas gratuitas de minería de datos
2. Velocidad:
En 1999, cada minuto de cada día, subimos 100 horas de vídeo a YouTube, enviamos más de 200 millones de correos electrónicos y enviamos 300.000 tweets.
Detrás de las cifras de volumen hay un Una tendencia aún mayor, que es que el 90% de los datos existentes se han creado sólo en los últimos dos años. Esto representa la velocidad a la que se crean, almacenan, analizan y visualizan los datos.
El desafío que tienen las organizaciones es hacer frente a la enorme velocidad con la que se crean y utilizan los datos en tiempo real.
3. Variedad
En el pasado, todos los datos que se creaban eran datos estructurados, encajaban perfectamente en columnas y filas, pero esos días ya pasaron. El 90% de los datos generados hoy en día no están estructurados y vienen en todas las formas y formas, desde datos geoespaciales hasta tweets que pueden analizarse en busca de contenido y sentimiento, hasta datos visuales como fotografías y vídeos.
La variedad describe uno de los mayores desafíos del big data. Puede no estar estructurado y puede incluir muchos tipos diferentes de datos, desde XML hasta vídeos y SMS. Organizar los datos de manera significativa no es una tarea sencilla, especialmente cuando los datos mismos cambian rápidamente.
4. Variabilidad
A menudo se confunde variabilidad con variedad. Un ejemplo sencillo para distinguirlo es: piense en Starbucks: tiene muchísimos sabores en Cold Coffee. Esto es variedad. Supongamos que compras Café Mocha todos los días y sabe y huele un poco diferente al día anterior. Es Variabilidad.
La variabilidad en el contexto de Big Data se refiere a algunas cosas diferentes. Uno es el número de inconsistencias en los datos. Estos deben encontrarse mediante métodos de detección de anomalías y valores atípicos para que se realicen análisis significativos. Los macrodatos también son variables debido a la multitud de dimensiones de datos que resultan de múltiples tipos y fuentes de datos dispares. La variabilidad también puede referirse a la velocidad inconsistente a la que se cargan los big data en su base de datos.
Ver también: Las mejores herramientas de limpieza de datos sin conexión
5. Veracidad
Lo que es crucial para comprender Big Data es su naturaleza confusa y ruidosa, y la cantidad de trabajo que implica producir un conjunto de datos preciso antes de que pueda siquiera comenzar el análisis. Es inútil si los datos que se analizan son inexactos o incompletos.
Esta situación surge cuando los flujos de datos se originan de diversas fuentes que presentan una variedad de formatos con diferentes relaciones señal-ruido. Es posible que estén plagados de errores acumulados cuando llegue al Big Data Analytics.
La veracidad consiste en garantizar que los datos sean precisos, lo que requiere procesos para evitar que los datos incorrectos se acumulen en sus sistemas. El ejemplo más simple son los contactos que ingresan a su sistema de automatización de marketing con nombres falsos e información de contacto inexacta. ¿Cuántas veces has visto a Mickey Mouse en tu base de datos? Es el clásico desafío de “basura entra, basura sale”.
6. Visualización
Esta es la parte difícil del Big Data, cuyo fallo hace que este enorme volumen de datos sea inútil. Una tarea central para cualquier sistema de procesamiento de Big Data es transformar su inmensa escala en algo fácilmente comprensible y procesable. Para el consumo humano, uno de los mejores métodos para esto es convertirlo a formatos gráficos.
Las herramientas actuales de visualización de big data enfrentan desafíos técnicos debido a limitaciones de la tecnología en memoria y baja escalabilidad, funcionalidad y tiempo de respuesta. Los gráficos tradicionales no pueden satisfacer la necesidad de trazar mil millones de puntos de datos, por lo que se necesitan diferentes formas de representar los datos, como la agrupación de datos o el uso de mapas de árboles, rayos solares, coordenadas paralelas, diagramas de redes circulares o árboles de conos.
7 . Valor
El valor es el final del juego. El valor potencial del Big Data es enorme. Después de ocuparnos del volumen, la velocidad, la variedad, la variabilidad, la veracidad y la visualización (lo que requiere mucho tiempo y esfuerzo), es importante asegurarse de que su organización obtenga valor de los datos.
Por supuesto , los datos en sí mismos no tienen ningún valor. El valor está en los análisis realizados sobre esos datos y en cómo los datos se convierten en información y eventualmente en conocimiento.
Las 7 V anteriores le informan sobre 3 aspectos importantes de Big Data, es decir, definición, características y desafíos. Pero cuando la gente comenzó a investigar sobre big data para inventar métodos para enfrentar los desafíos de las 7 V antes mencionados, se encontraron con otras V. Aunque no juegan ese papel crucial en el big data, completan la lista de características y desafíos.
8. Validez
Al igual que la veracidad, la validez se refiere a qué tan exactos y correctos son los datos para el uso previsto. La veracidad del Big Data es una cuestión de validez, lo que significa que los datos son correctos y precisos para el uso previsto. Los datos claramente válidos son la clave para tomar las decisiones correctas. La validación de datos es aquella que certifica la transmisión incorrupta de datos.
9. Viabilidad
Piense en las siguientes afirmaciones:
Nuestra primera tarea es evaluar la viabilidad de esos datos porque, con tantas variedades de datos y variables a considerar en la construcción de un modelo predictivo efectivo, queremos evaluar de manera rápida y rentable Pruebe y confirme eficazmente la relevancia de una variable particular antes de invertir en la creación de un modelo con todas las funciones. En otras palabras, queremos validar esa hipótesis antes de tomar medidas adicionales y, en el proceso de determinar la viabilidad de un variable, podemos ampliar nuestra visión para determinar si otras variables (aquellas que no formaban parte de nuestra hipótesis inicial) tienen un impacto significativo en nuestros resultados deseados u observados.
10. Volatilidad
¿Qué antigüedad deben tener sus datos antes de que se consideren irrelevantes, históricos o ya no útiles? ¿Cuánto tiempo hay que conservar los datos?
Cuando hablamos de la volatilidad del Big Data, podemos recordar fácilmente la política de conservación de datos estructurados que implementamos cada día en nuestros negocios. Una vez que expira el período de retención, podemos destruirlo fácilmente.
Sin embargo, debido a la velocidad y el volumen de big data, su volatilidad debe considerarse cuidadosamente. Ahora necesita establecer reglas para la actualidad y disponibilidad de los datos, así como garantizar una rápida recuperación de la información cuando sea necesario.
11. Vulnerabilidad
¿Recuerdas el hack de Ashley Madison en 2015? ¿O recuerda que en mayo de 2016, CRN informó que “un hacker llamado Peace publicó datos en la web oscura para venderlos, que supuestamente incluían información sobre 167 millones de cuentas de LinkedIn y 360 millones de correos electrónicos y contraseñas para usuarios de MySPace?
Grande Los datos traen consigo nuevas preocupaciones de seguridad. Especialmente con estas características se convierte en un desafío desarrollar un programa de seguridad para el Big Data. Después de todo, una filtración de datos es una gran filtración.
Entonces, ¿qué nos dice todo esto sobre la naturaleza del Big Data? Bueno, es enorme y se expande rápidamente, pero también es ruidoso, desordenado, cambia constantemente, tiene cientos de formatos y prácticamente no tiene valor sin análisis y visualización.
El volumen, la velocidad y la variedad no son sólo los parámetros clave de Big Data, pero también son la razón para dar origen al concepto de Big Data y las características clave que separan los datos normales y el Big Data. Aunque son intrínsecos al propio Big Data, las otras V: la variabilidad, la veracidad, la visualización y el valor son atributos importantes que reflejan la gigantesca complejidad que el Big Data presenta a quienes lo procesan, analizan y se benefician de él.
Sin lugar a dudas, Big Data es una tendencia clave que la TI corporativa debe adaptarse con infraestructuras informáticas adecuadas. Pero sin análisis de alto rendimiento y científicos de datos que le den sentido a todo, se corre el riesgo de simplemente generar grandes costos sin crear el valor que se traduce en una ventaja comercial.
Leer: 0