Por Mateo Álvarez
Es evidente que el Big Data es una de las grandes necesidades actuales de la industria, sobre todo en cuanto a la mejora de servicios y productos de cara al cliente, o eso es lo que hay que decir para no parecer un rarito en las empresas hoy en día. Hay una frase que ilustra perfectamente esta idea (aunque la ha dicho tanta gente que ya no sé a quién se le atribuye),
‘El «Big data es como el sexo adolescente: todos hablan de él, nadie sabe realmente cómo hacerlo, todo el mundo piensa que todos los demás lo hacen, por lo que todo el mundo dice que lo está haciendo…‘, pero ¿qué es realmente el Big Data?
Técnicamente, Big Data es un término que hace referencia al procesamiento masivo de datos por medios «no tradicionales», lo que quiere decir, explicado en «cristiano», que ha llegado un punto en el que algunas tecnologías encuentran su límite a la hora de procesar «cierta cantidad de datos en un tiempo determinado». Aquí es importante aclarar qué es cierta cantidad y tiempo determinado, por lo general se explica con ‘las 3 v del big data‘, que son de alguna manera los requisitos para que se considere necesario el empleo de estas técnicas. Estas tres v del big data son: Volumen, Velocidad y Variedad, es decir, en general será necesario aplicar estas nuevas técnicas y tecnologías en entornos en los que se tenga un gran volumen de datos, pero además que sea necesario procesarlo en un tiempo determinado, generalmente corto, o incluso en «streaming», algo así como en «tiempo real», y cuando los datos tengan una complejidad elevada, es decir, que junten mucha información de muy diverso tipo y con distintos formatos.
En resumen, Big Data es un conjunto de procedimientos y tecnologías que nos permiten procesar grandes cantidades de datos en tiempos razonables, aunque generalmente se conoce como Big Data a todo el entorno que engloba el procesamiento masivo de datos, cumpla o no los requisitos anteriores.
Pero, ¿de dónde salen estos datos, que ahora parece necesario procesar? Fundamentalmente de dos fuentes:
- De sensores, máquinas conectadas a la red que proporcionan información que se va actualizando, como por ejemplo sensores de temperatura o contaminación,
- y de personas también conectadas a la red, a través de internet que comparten información entre sí, cada vez que usamos internet para cualquier cosa, o por el simple hecho de llevar un móvil encima, estamos generando datos continuamente.
Lo de generar datos con sensores se suele conocer como el internet de las cosas (IoT), personas generando y compartiendo información en la red se conoce simplemente como Internet, y es curioso, porque desde que existe esta tecnología que permite conectar a personas, la cantidad de información y datos en general que se generan en la humanidad no ha parado de crecer, y crece de forma increíble, casi doblando anualmente la cantidad total de información generada. Esto ha marcado un antes y un después en la mentalidad de las sociedades actuales, que nunca antes se habían mostrado tan propensas a compartir tanta información, y es que ahora compartir cualquier idea con el resto de los mortales es realmente fácil, por ejemplo haciendo uso de las redes sociales, pero también gracias al email y a las aplicaciones de mensajería instantánea.
Hasta aquí nada nuevo, pero ahora podríamos plantearnos la pregunta de cuánto cuestan todos estos servicios, redes sociales, correo electrónico, noticias instantáneas, previsión meteorológica, etc, y realmente es que, para el usuario final, el coste es en general muy reducido, o gratuito, sobre todo comparado con el coste de infraestructura y la inversión en tecnología que hacen las empresas para proveerlos.
Llegamos entonces a la cuestión fundamental, si para nosotros los usuarios, servicios como la previsión meteorológica detallada por horas o el correo electrónico son gratuitos y no nos planteamos un escenario en que no lo fueran así, ¿de qué vive esta gente?
Resulta que estas compañías viven, en general, de los datos que nosotros decidimos regalarles. Si revisamos la política de privacidad de algunos de los proveedores de correo electrónico, por ejemplo, en muchos de ellos estamos dando permiso a que dichas empresas lean y analicen todo el correo que mandamos y recibimos con todos sus archivos y documentos adjuntos. Si miramos también las condiciones de muchos de los servicios de localización y navegación gratuitos, veremos que les damos permiso para trackearnos y seguirnos allá a donde vamos https://www.google.com/maps/timeline, por poner dos ejemplos de algo que no solemos compartir ni con nuestras madres, pero sin embargo sí que revelamos a empresas a cambio de servicios gratuitos, aunque sí que es verdad que en muchos casos esta revelación es «casi» involuntaria, porque ¿quién se lee la política de privacidad del servicio de correo electrónico?
Si ahora nos preguntamos para qué quieren las empresas saber dónde estoy en cada momento del día o para qué quieren saber qué mensajes les mando a mis amigos o a mi familia a través de redes sociales, aplicaciones, correo … La respuesta es más compleja, muchas veces esa información se utiliza para «perfilar» usuarios, definirnos mejor de lo que nosotros mismos seríamos capaces, lo que les permite crear, por ejemplo, publicidad más efectiva, enormemente efectiva, de hecho, que nos ofrezca en función de cada persona, cada momento del día y cada lugar, productos o servicios que potencialmente podamos consumir o comprar, grandes empresas como Google o Facebook basan en la publicidad la mayor parte de su negocio. También se hace, por ejemplo, en banca y en aseguradoras para calcular la rentabilidad de un cliente a la hora de conceder préstamos o seguros. En este punto entra en juego las técnicas de Machine Learning, una parte de la inteligencia artificial que se basa en «enseñar» a las máquinas a reconocer patrones, patrones de compra o de conducta, que con ciertas variables, y numerosos datos permiten a las máquinas predecir por ejemplo la probabilidad de devolución de un préstamo de un potencial cliente, o la probabilidad de accidente de otro, lo que permite a estas empresas reducir el riesgo en sus inversiones y asegurar su margen de beneficios. Existen muchísimas otras aplicaciones comerciales y no comerciales del Big Data, recientemente hemos desarrollado en Codecave Technologies una herramienta para la Universidad de Salamanca que permite analizar Twitter en tiempo real por hashtags, que podrá usarse para hacer seguimiento de campañas políticas o como herramienta de investigación para el análisis de tendencias sobre algún tema en esta red social.
En definitiva, el Big Data es un mundo, un mundo de datos, matemática, estadística e informática, que se combinan para ofrecer servicios revolucionarios. El Big Data no solo va a cambiar la vida, sino que ya lo hace, en servicios que nos parecen tan comunes como el corrector de texto del móvil, las recomendaciones de productos al acceder a las tiendas online, o la elección del trayecto más rápido del trabajo a casa teniendo en cuenta el tráfico por parte de alguna aplicación de rutas.
El futuro plantea sin duda grandes cuestiones éticas y morales sobre la información que se puede y no se puede recoger de los usuarios, el anonimato detrás de toda esa información y la privacidad como derecho, también sobre la ética que enseñamos a las máquinas, a la hora de tomar decisiones que involucran vidas de seres vivos. Cuestiones sobre las que ya se está trabajando, sin ir más lejos en el MIT, donde hay un proyecto que pretende enseñar a las máquinas la moral de la sociedad actual, una cuestión que tendremos que resolver dentro de poco, cuando se popularicen los coches autónomos.