Ciencia de datos y IA

Ciencia de datos

La ciencia de los datos o Data Science es un conjunto de herramientas, en la intersección entre las matemáticas, la estadística, la informática, la administración de empresas y los conocimientos empresariales y del sector al que se aplique, que utiliza métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados. 

Esta disciplina es clave para la inteligencia artificial ya que la ciencia de datos nutre el aprendizaje automático. 

 

Dentro de la ciencia de datos, explica nuestra experta Nuria Oliver, hay un campo nuevo que es la ciencia social computacional, que se apalanca en datos conductuales a gran escala, agregados, para corroborar o no las teorías de las ciencias sociales. Y dentro de las ciencias sociales computacionales, hay un área en la que esta ingeniera ha estado trabajando los últimos diez años: la ciencia de datos para el bien común.

Su objetivo es apalancarse en el análisis y procesamiento de ingentes conjuntos de datos para tomar mejores decisiones en áreas como la salud pública, la inclusión financiera, el cambio climático o la ayuda en emergencias ante, por ejemplo, desastres naturales.

 

La ciencia de datos necesita datos. Cada año generamos más datos que en los 5.000 años anteriores y cada vez más, la capacidad de interpretarlos se ha convertido en un activo hiper valioso en la economía de hoy. De acuerdo con un informe de la Comisión Europea, el valor la economía de datos superará los 700 mil millones en la Unión Europea el año que viene, siempre que las políticas y las condiciones legislativas favorables se implementen a tiempo y se fomenten las inversiones en TIC.

 

La ciencia de datos necesita ciencia. Es bueno tener los datos, pero, si no sabemos qué hacer con ellos, son basura digital. Hay que saber interpretarlos, y estamos hablando de cantidades ingentes de datos no estructurados, que son invisibles e incomprensibles sin la ciencia y las disciplinas relacionadas con ellos, en concreto, el aprendizaje automático basado en datos. 

 

 

 

Para los expertos del Future Trends Forum, la ciencia de datos debe trabajar en mejorar en 6 áreas esenciales para asegurar su correcto uso:

1. Violación de la privacidad computacional,

2.- Exclusión o discriminación social sesgada, 

3.- Asimetría en aptitudes informacionales (hay muchos datos, pero resulta que la mayoría de los datos están en manos privadas),

4.- Opacidad y falta de transparencia, 

5.- Veracidad

6.- Ética. 

 

Además, el futuro de la ciencia de datos pasa inexorablemente por tratar los datos con los algoritmos FATEN, cuyas características son:

- F de fairness (justicia), que atienda a la no discriminación y a la cooperación; 

- A de autonomy, accountability y augmented (autonomía, rendición de cuentas y aumento), en referencia a la necesidad de preservar el valor humano de la soberanía, de una responsabilización clara y de los modelos que aumenten -y no reemplacen- a la inteligencia humana;

- T de trust y de transparency (confianza y transparencia); 

- E de education y beneficence (educación y beneficencia), 

- N de non-maleficence: minimizar los aspectos negativos, asegurar que hay un nivel mínimo de fiabilidad, seguridad, reproducibilidad, prudencia… siempre preservando la privacidad de las personas.