Bienvenidos a la Era de Internet, un tiempo en el que los datos y su orden pesan más que cualquier otra materia en la sociedad. Las marcas que se hagan con el procesamiento de datos a gran escala tendrán más probabilidades de éxito futuro. ¿El problema? Los datos no siempre están estructurados.
La estructura de los datos, veremos en seguida qué es, es crucial para poder analizarlos. Y con ello comprenderlos, extraer conocimiento y, quizá, incluso sabiduría. Cuando los datos son no estructurados, no podemos estudiarlos, y por tanto tienden a sernos inútiles.
¿Qué son datos estructurados?
Los datos estructurados son aquellos que «tienen bien definidos su longitud y formato. Como las fechas, los números o las cadenas de caracteres». En otras palabras, tablas o bases de datos tabuladas. Excel es el perfecto ejemplo que casi todos conocemos (aunque hay otras opciones).
Con las bases de datos, estos aparecen representados en filas, columnas y fondos de varias dimensiones. Es decir, no tienen por qué ser planas, como lo son los datos a los que estamos acostumbrados.
Veamos un ejemplo, como puede ser los datos del gerente de una empresa dedicada al alquiler y posterior venta de pisos. Tras varios meses, sus técnicos han ido anotando en una base de datos la fecha de alta del inmueble, de qué tipo es, qué operación había antes de la venta, la provincia del local, su superficie, el precio en que se cerró la venta y su fecha. Aquí la tabla original.
Es el perfecto ejemplo de datos estructurados. No solo todos tienen la misma forma de representación y formato de celda por columnas. Además, no falta ninguna casilla por completar, algo crucial de cara al análisis.
Puede que no lo parezca, pero este tipo de registros son el núcleo de la innovación de cualquier empresa (sí, también una PYME). Gracias a haber anotado en varios campos una serie de datos relacionadas con las ventas, podemos representar análisis como los siguientes:
Podemos saber qué vendedor vendió más inmuebles:
Quién hizo ganar más dinero bruto a la empresa (Carmen), pero quién tiene el promedio de venta más alto (Pedro). Si tuviésemos el precio de compra podríamos calcular también el beneficio por vendedor.
Se pueden hacer análisis mucho más en profundidad, como obtener a qué vendedor se le da mejor qué tipo de inmueble.
Y compararlo con el promedio por inmueble para hacer un análisis económico:
Las opciones parecen infinitas, y desde luego que son muchas. Más cuantos más campos tenga la tabla o cuanto más estructurados sean los datos.
Gracias a que estos datos tienen estructura se pueden realizar informes mensuales con gráficos que muestren conocimiento tan enrevesado como el número de ventas medias semanales mes a mes para cada vendedor y tipo de inmueble. Un análisis que ayudaría, por ejemplo, a que el mejor vendedor en cada categoría enseñase cómo vende en ella al que peor lo haga.
De nada sirve tener datos estructurados y realizar análisis si luego no se toman decisiones en base a ellos.
¿Qué son los datos no estructurados?
Los datos no estructurados son aquellos que «en el formato tal y como fueron recolectados carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos». Por ejemplo, un PDF o un Word.
Imaginemos, para el mismo ejemplo de arriba, que se da alguna de las siguientes circunstancias:
- Los empleados envían sus informes, pero lo hacen vía mail y sin Excel. Cada línea de la tabla que vemos arriba se encuentra en un correo distinto. Aunque la información está ahí, no está disponible para ser estudiada.
- El archivo tiene forma de tabla, pero está escrito a mano (sin digitalizar). O, cuando se digitaliza, se escanea en forma de PDF. De este modo, los datos siguen sin ser accesibles.
Pero hay más casos en los que los datos son no estructurados más allá de que los datos estructurados no se almacenen como deben. Por ejemplo, los documentos de tu ordenador son datos no estructurados. No pueden tablificarse, aunque ya están digitalizados y son editables.
Los correos electrónicos siguen el mismo patrón, y también los archivos de audio, vídeo o fotografía. Es cierto que tienen datos meta con los que ordenarlos en una carpeta, pero los datos que contiene cada archivo no pueden resumirse en una tabla dinámica, ni agruparse.
Dicho todo esto, ¿dónde está el problema con el que abríamos el artículo? Bueno, en que casi todo Internet son datos no estructurados. Y esto significa que apenas sí podemos extraer conocimiento de esos datos.
Al menos, de cara a los humanos, porque la inteligencia artificial vendrá a ayudar.
La inteligencia artificial vendrá a ayudar
Hace poco, Naveen Rao dijo que «la inferencia de los datos (la búsqueda de una estructura útil en esta información)» es «el mayor problema informático de nuestra era». Y para resolverlo usaremos la inteligencia artificial.
Las IA y los humanos tienen sus diferencias, y es precisamente en ellas en las que nos apoyamos para usarlas con sabiduría. Por ejemplo, a nadie se le ocurre poner a un humano a calcular tablas. Un algoritmo puede hacerlo a una velocidad muchos múltiplos superior.
Una inteligencia digital puede ayudarnos a convertir datos no estructurados en datos estructurados. Y veremos para ello los ejemplos anteriores.
Datos enviados uno a uno por email
Decíamos en el ejemplo anterior que un ejemplo de datos no estructurados era aquél en que «los empleados envían sus informes, pero lo hacen vía mail y sin Excel».
Sin embargo, podemos entrenar a una inteligencia artificial a leer emails y sacar conclusiones en base a ellos. Por ejemplo, que todos los emails enviados a una persona específica sean rastreados en busca de fechas, cantidades monetarias y autor, entre otros.
Así, la IA iría construyendo por nosotros nuestra base de datos, que posteriormente podríamos estudiar.
Datos escaneados
Algo similar ocurre si tenemos el archivo en formato físico. Por ejemplo, una tabla rellena a mano, un PDF, o un archivo que escaneamos de uno digital. ¿Cómo transformarlo en un objeto digital estructurado? Usando software de reconocimiento de patrones como el que usa Captcha.
Ya hay programas de optimización de textos a mano de los usuarios, como Kami (arriba), que traduce las hojas escaneadas a un formato en el que subrayar y copiar texto. Usa una técnica llamada OCR (Reconocimiento Óptico de Caracteres, por sus siglas en inglés).
Escanear y digitalizar textos se el primer paso para poder estructurar datos.
Extraer estructuras de datos naturalmente no estructurados
Imaginemos que tenemos datos genuinamente no estructurados, como puede ser 10GB en canciones. Sí, como hemos dicho antes podemos ordenarla por cantante, pero no por los datos que contiene cada pista. Una IA sí que puede.
De hecho, la inteligencia artificial nos ha superado distinguiendo géneros musicales. Un algoritmo bien programado podría escuchar en pocos minutos toda nuestra biblioteca de canciones para ordenarla de un modo que, aunque nosotros no entendiésemos, constituiría un conjunto de datos estructurados.
La humanidad tiene muchos datos. Cada vez generamos más bytes por segundo, de forma exponencial. Si no queremos acabar sepultados por nuestros propios datos no estructurados, tendremos que añadir la IA a la ecuación.
Hoy día la mayor parte de Internet es no estructurado. Sin embargo, es posible que dentro de una década los avances en IA nos den un Internet ordenado y tablificado, aumentando nuestro conocimiento de modo nunca visto anteriormente.
En Lenovo | Deja de odiar a los captchas. Gracias a ellos digitalizaremos todos los libros de la historia
Imágenes | iStock/agsandrew, Marcos Martínez, iStock/v_alex, iStock/Nongkran_ch