Hola All!
Con ese pretencioso título se me ha ido la pinza en un texto que he construido para empezar a explicar a mis compañeros de curro (y si de paso, cae alguien por aquí, mejor) lo que siempre les comento durante las pausas del café: la privacidad y el control del dato.
Espero que os guste. Y si no, espero que me critiqueis constructivamente:
===cut,cut,cut===
[Subject]
Tras plantear un punto de vista sobre el contexto digital en el que nos movemos, creo que llega el momento de presentar a Big Data, el ente que personifica y encarna lo esbozado en dicho punto de vista, y pone de relieve la
importancia que se le da hoy a la información, y la magnitud del poder que promete su análisis.
Big Data tiene una naturaleza tecnológica, tal como describe la entrada correspondiente en la Wikipedia, pero es un término de reciente cuño que se ha tornado en marca, en tendencia, en carne de marketing... o en humo, quizás.
Nadie sabe exactamente qué es, pero todo el mundo habla de ello como si de la piedra filosofal se tratara, sin tener en cuenta que podrían estar refiriéndose
al Anillo Único de nuestra Edad.
Datos, datos, más datos...
Así pues, Big Data sería, en su punto de partida, algo así como un conjunto masivo de información, en el que tendrían cabida datos de todo tipo: estructurados, semi-estructurados y no estructurados.
Por masivo, partimos de que su volúmen podría ser cuantificado tomando el TB como unidad base, llegando a entornos de varias decenas de TB como algo normalizado. Y aún así, a pesar de que ya pueda parecer un volúmen incuantificable, las informaciones recientes y las tendencias del mercado indican que en un año o dos llegaremos a substituir el TB por el PB como unidad
base.
Por estructurado, podríamos entender el clásico sistema de tablas en una base de datos, hojas de cálculo, etc, en el que la información se define en unos campos bien definidos que se asocian a registros y valores, en una especie de matriz. Así, cada dato (fila) se diseminaría por todos los campos (columna) de la estructura (tabla). Por ejemplo, una agenda de contactos, una lista de clientes, una comparativa entre productos, etc.
Por semi-estructurado, nos referimos a aquellos datos que pueden tener cierto formato pero carecen de una estructura tipificada o normalizada. De hecho, el dato incluye en sí mismo su propia estructura y su propia información, sin una homogeneidad preceptiva. Como ejemplo, tendríamos el correo electrónico, los ficheros en formato XML, JSON, etc.
Por no estructurado, entendemos aquellos datos que tienen su propio formato, el
cual no puede ser estructurado o tratado por los sistemas clásicos (bases de datos) a pesar de tener cierta estructura interna que defina su formato. Ejemplos serían libros y publicaciones electrónicas, documentos multimedia, documentos ofimáticos, el cuerpo de mensaje de un correo electrónico, etc.
La infraestructura
Partiendo de estos supuestos, se han desarrollado nuevas tecnologías que intentan dar respuesta a los problemas que presentan el volúmen y a la tipología de datos asociados a Big Data. Así pues, tenemos:
Cloud: Traducido como "nube". Hasta hace poco, junto con la virtualización, ha sido otro de los conceptos que se habían convertido en marca, en tendencia, en producto de mercadotecnia (y en humo). El cloud es una variedad de tecnología que permite ofrecer infraestructura, plataforma y software como servicio, con la escalabilidad como principal beneficio. Así, no hay límite ni en la capacidad de almacenamiento, ni en la accesibilidad o la manipulación de los datos.
SQL: La información estructurada ha sido la base de todo sistema de gestión de datos (SGBD o DBMS), desde que aparecieron a mediados de 1960. Con la irrupción
de Big Data, estos veteranos sistemas no han evolucionado funcionalmente para la ocasión, pero sí han diversificado su imagen comercial para asociar su nombre al de la marca Big Data, a la par que se han potenciado para poder gestionar mayores volúmenes de datos estructurados.
NoSQL: La respuesta al almacenamiento/acceso sobre el gran volúmen que suponen los datos semi-estructurados o no estructurados son los sistemas NoSQL. No tienen muchas de las funcionalidades de gestión/transaccionalidad de datos que sí tienen los sistemas SQL, pero en cambio son altamente escalables y se han diseñado específicamente para acceder a grandes cantidades de datos en modos de
lectura y escritura.
Las herramientas
Ahora bien, una vez sabemos cómo se almacenan y tratan los datos ¿qué se obtiene de ellos? ¿cómo? ¿y para qué?
Empecemos por el ¿cómo?. Sea lo que sea lo que se quiera obtener, parte de las habituales técnicas de análisis de datos que se han aplicado desde la aparición
de los primeros almacenes de datos.
Así pues, con técnicas asociativas podrían buscarse relaciones causales con las
que poder definir predicciones, partiendo de hechos en común en un conjunto concreto de datos. Con la minería de datos, la búsqueda de patrones a través de
cálculos estadísticos, agregaciones, contraposiciones, etc podría dar lugar a predicciones o a la ratificación de posibles hipótesis. Y si optásemos por el clustering, dividiríamos grandes grupos en grupos más pequeños con similitudes concretas de los que podrían extraerse conclusiones desconocidas con anterioridad, utilizables después con otras técnicas. Y con algo muy común, como es el análisis de texto, sería posible extraer información con la que diseñar o alimentar sistemas semánticos a partir de datos generados por personas en formatos de texto.
Pero esto resulta excesivamente teórico sin acompañarlo de ejemplos o aplicaciones reales que le den sentido a toda esta palabrería sobre tecnología y técnicas de análisis. Entonces, realmente...
¿Para qué?
En un entorno tan complejo y denso como Big Data, y con las suficientes fuentes
de datos, las motivaciones y los objetivos en la explotación del sistema pueden
ser infinitas.
Por poner un buen ejemplo y dejando a un lado el tono apocalíptico y conspiranoico del libro, en Numerati, Stephen Baker expone en el telar de su obra gran parte de los hilos de información que emanan de nosotros, y los teje de tal manera que deberían darnos qué pensar, porque según él los numerati ya pueden:
- adivinar nuestros gustos, nuestras aficiones y hasta nuestras pasiones,
- predecir nuestras enfermedades y lesiones,
- predecir nuestro comportamiento social, comercial y político,
- predecir nuestra ubicación en un momento dado,
- ...
Para, en base a eso, poder:
- ofrecernos publicidad dirigida,
- asignarnos valores de riesgo de cara a coberturas sanitarias o seguros materiales,
- aceptarnos/rechazarnos en una selección de personal,
- extraer información circunstancial que nos agrupe con otros para comparar nuestros datos,
- ...
En definitiva
- saber, saber todo lo que hacemos en el plano digital y en cualquier otro plano que depenga de algo digital, y usar ese conocimiento como prefieran.
Resumiendo...
Hasta aquí, lo descrito sólo es la punta del iceberg de lo que se está cociendo, queramos o no, y de lo que aún está por llegar. No he pretendido entrar en el detalle técnico de lo que sustenta el Big Data, como tampoco he querido extenderme mucho en las distintas técnicas de análisis de datos que se utilizan.
La pretensión real es tratar de hacer ver que debemos ser conscientes que se están creando grandes bolsas de datos, con los nuestros y con los de quienes nos rodean, con nuestro conocimiento o sin él, y que dichos datos se están usando tanto para fines legítimos como para otros menos lícitos. Eso afecta nuestra privacidad, menoscaba nuestro control sobre nosotros y sobre nuestra vida. Y facilita nuestra manipulación a cualquier nivel.
¿Y el Anillo Único?
Volviendo al título del post, y homenajeando (y modificando) al maestro Tolkien:
Un (Anillo) Big Data para gobernarlos a todos. Un (Anillo) Big Data para encontrarlos,
un (Anillo) Big Data para atraerlos a todos y atarlos en las tinieblas.
En próximos artículos, dedicados al Internet de las Cosas y al Machine Learning, seguiré haciendo incapié en la gravedad del problema que supone el Big Data, según mi punto de vista, claro.
Este texto ha sido publicado en primera instancia en la echoarea ESP.SEGURIDAD de Fidonet. Si queréis comentarme o discutirme algo, ahí tenéis un buen punto de inicio.
===cut,cut,cut===
-
A reveure!!
Enric
__________________________________________________________________
FidoNet: 2:343/107.1 | beholderbbs.org | fidonet.cat | .es | .ws
InterNet: kishpa(at)kishpa(dot)com | kishpa.com | GPG#0xDCCB8CFC
... Cree a aquellos que buscan la verdad. Duda de quienes la han encontrado. --- crashmail + golded + binkd
* Origin: Black flag & crossed bones : Eye Of The Beholder BBS! (2:343/107.1)