La ciencia de datos cobra cada vez más relevancia en el panorama laboral, hasta el punto de que su demanda no encuentra suficiente oferta de profesionales capacitados. La clave está en que el data science aporta valor en todos los sectores, desde la producción científica a la educación, pasando por banca, los seguros, la sociología, la psicología o el cumplimiento de los Objetivos de Desarrollo Sostenible. Pero ¿qué es exactamente la ciencia de datos?
¿Qué es el data science o ciencia de datos?
La ciencia de datos, en inglés data science, es una disciplina científica orientada al análisis de grandes conjuntos de datos con el objetivo de extraer información de los mismos, aumentar el conocimiento de la realidad o descubrir patrones no visibles. Este campo abarca la limpieza, la preparación y el análisis de los datos, así como las herramientas necesarias para hacerlo.
De hecho, el data science actualmente se considera una herramienta para abordar el big data, disciplina de la que se escindió hacia el año 2000, aproximadamente, gracias a técnicas como el análisis predictivo, el machine learning o la inteligencia artificial, entre otras.
¿De qué se puede trabajar en ciencia de datos?
El presente es un mundo de datos, para bien o para mal. El registro es amplio: desde las ‘Armas de destrucción matemática’ (2017) de Cathy O’Neil, que ponen en peligro a minorías desfavorecidas usando sus datos personales contra ellas, al descubrimiento científico con repercusión mundial generado por un buen análisis de datos (como pueda ser el análisis de la pandemia).
De hecho, no parece haber sector en el que la ciencia de datos no tenga algo que decir. Desde el marketing a los embudos de conversión, la inteligencia de negocio, el análisis de ciudades inteligentes, la implantación de IoT o el mantenimiento de edificios, el data science aporta valor allí donde hay datos. Y últimamente hay datos en todas partes.
En España, un país con un salario medio de 23.646 euros y un salario más frecuente de 17.482 euros, el salario base medio de un data scientist es de 35.394 euros al año. La demanda en este sector es evidente, y se paga en consonancia. Respecto a las labores de esta profesión, algunas de ellas son:
- Creación de sistemas para la captura de datos, ya sea del mundo físico (sensores) o digital (scrapeo, spiders, APIS, formularios…).
- Limpiar datos para convertirlos en un recurso valorizable, eliminando ruido o elementos que harían difícil su procesado.
- Extraer información y conocimiento de datos haciendo uso de herramientas digitales.
- Entrenamiento de modelos o alimentación de algoritmos de machine learning con los que disponer de nuevos “mapas”: árboles de decisión, redes neuronales, algoritmos de clusterización, etc.
- Testeo de modelos y algoritmos para comprobar su adecuación a la realidad o a las diferentes bases de datos y modelos previos.
- Representación y visualización de datos de forma que las personas puedan inferir conclusiones o comprender el razonamiento lógico de sistemas avanzados de inteligencia artificial.
Para sacar provecho a este tipo de tecnologías, a veces conviene dar un paso atrás y observar la realidad desde una perspectiva más abierta. Tanto como para invertir en una máquina sin sistema operativo, a la espera de instalar aquel software que mejor satisfaga las necesidades de la aproximación data science a cubrir.
Muchos entornos Windows, Ubuntu o Red Hat, que vienen instalados por defecto en muchos equipos (por ejemplo, el portátil ThinkPad P14s Gen2 se ofrece con Windows 10 Home 64 o Windows 10 Pro 64 instalado), son perfectos para algunas áreas dentro de la ciencia de datos. Otras se benefician de ordenadores en blanco, como puedan ser el convertible ThinkPad X1 Titanium Yoga o el duradero ThinkPad T15g, para poder instalar el sistema más apropiado según las herramientas de big data y data science que se vayan a utilizar.
¿Qué hay que estudiar para dedicarse a la ciencia de datos?
Cuando se habla de nuevas habilidades del mercado laboral, ocurre que la formación específica no siempre resulta accesible en los sistemas educativos reglados, oficiales o públicos. A veces, la titulación ni siquiera existe o la materia es demasiado nueva para que haya profesionales educativos formados, ya que la poca “mano de obra” disponible se encuentra en el mercado laboral no educativo.
En líneas generales, muchas de las titulaciones ya existentes asentadas sobre programación y big data pueden servir como trampolín para dar el salto a la ciencia de datos. Aunque es importante destacar que el data science es muy diverso y tiene una gran cantidad de salidas: trabajo en el terreno del Internet de las Cosas, visualización gráfica de información, análisis con Python, etc.
Ni existe un único itinerario para trabajar de científico de datos ni, como se ha visto previamente, hay una salida limitada a esta nueva habilidad. Portales como Khan Academy, edX, Data Science Dojo, Kaggle, Towards Data Science o Mode (.com) ayudan con cursos específicos, muchos respaldados por instituciones como el MIT, la Universidad de Harvard o la Universidad de Berkeley.
Un punto clave de este tipo de estudios, titulaciones o capacidades es que dependen en buena medida del inglés y cada vez más del chino, por lo que si no se puede leer o escuchar en este idioma, quizá sea conveniente empezar por ahí.
Imágenes | iStock/metamorworks, iStock/gorodenkoff