Uno de las grandes revoluciones a la que estamos asistiendo en los últimos años en el ámbito de las ciencias sociales es la utilización de datos masivos en nuevos modelos predictivos o explicativos, el denominado “big data”. Cada vez son más las investigaciones sociales que utilizan estos recursos para ofrecer nuevas perspectivas. Tanto es así que podríamos hablar de la revolución de los datos. Así, hoy tenemos modelos de “nowcasting” que analizan la evolución estimada del PIB prácticamente en tiempo real, sabemos de la marcha de negocios por sectores o distritos usando los datos de compras por tarjetas de crédito, o analizamos el territorio y la movilidad usando técnicas basadas en la geolocalización. El acceso a estos datos abre efectivamente todo un universo de usos, y también, de divulgaciones. Las técnicas de presentación dinámica de datos nos atraen hipnóticamente, y los cursos de tratamiento de datos dedican una parte de la formación al “storytelling con datos” que hacen las delicias de los lectores de diarios digitales, difuminando de esta manera las barreras entre la ciencia social y el llamado periodismo de datos.

Varios son los motivos de esta “revolución”. En primer lugar, la aparición de técnicas de recolección, almacenamiento y tratamiento de datos masivos no estructurados, que lo mismo sirven para hacer estudios de mercado y perfilados de clientes -su principal utilidad comercial- como para determinar relaciones económicas, evaluar políticas públicas o diagnosticar situaciones sociales. En segundo lugar, las propias políticas de datos abiertos de las administraciones, algunos de ellos verdadero “oro digital” para investigaciones que hasta el momento sólo se podían desarrollar en contextos muy controlados. Los repositorios de datos públicos -open data- permiten el acceso a información que antes era difícil de conseguir, ampliando las posibilidades de modelización y seguimiento. En tercer lugar, la extensión de software accesible -en código abierto o en pago por uso- con gran capacidad de cálculo, o específicamente pensado para mejorar la presentación de la información.

Esta revolución de los datos es una buena noticia para la economía y otras ciencias sociales: las fuentes estadísticas oficiales son caras de obtener y pocas veces tienen la granularidad o la frecuencia suficiente. El uso anonimizado de registros administrativos de gran tamaño permite una información detallada que, con el procesamiento adecuado, puede dar lugar a novedosos análisis. Pero su uso adecuado también requiere de unas reglas. El recurso al big data no garantiza la relevancia de una investigación ni permite saltarse las normas básicas de la misma. Desde que se inició la era de la informática a mediados del siglo pasado, sabemos que si a un sistema de procesamiento de datos se le mete basura, lo que se obtiene es basura (Garbage in, Garbage out dicen en inglés). Los datos pueden estar limitados a determinados sectores de la sociedad -por ejemplo, los que tienen teléfonos móviles con el geolocalizador conectado, o los que participan en redes sociales- y por lo tanto pueden estar sesgados. No tener en cuenta estos sesgos reduce la validez de los resultados de la investigación. Un planteamiento equivocado de la investigación puede llevar a resultados espectaculares en términos presentación gráfica pero no necesariamente a un mayor conocimiento de las relaciones causales subyacentes.

Un gran especialista en econometría, el norteamericano Joshua Angrist, no ha dejado de mostrar cierto escepticismo sobre el recurso que significa el big data para la economía: la ciencia de datos puede, de momento, complementar, pero desde luego no sustituir a la econometría y otras técnicas de investigación económica. Otros autores, como Hal Varian, son menos escépticos y han mostrado un mayor optimismo por las posibilidades de estas nuevas herramientas y su capacidad predictiva. Buena parte de la profesión se inclina a pensar que el Big Data y el Machine Learning pueden suponer un avance importante en cómo se hace la economía aplicada moderna, aunque, como se ha señalado, su incorporación lleva consigo nuevos retos metodológicos y no exime al investigador de cumplir con las reglas básicas del análisis mínimamente riguroso.

Recientemente, se ha publicado en Español “El libro del porqué”, una obra de Judea Pearl, uno de los grandes especialistas en inteligencia artificial. La obra señala las limitaciones de las correlaciones estadísticas para comprender la realidad, y propone avanzar hacia modelos más desarrollados de causalidad, de manera que cualquier científico social preocupado por las causas y los efectos sociales debería reflexionar sobre este particular antes de emprender una investigación con datos. Existe una larga bibliografía y numerosos recursos que permiten establecer un diálogo efectivo entre los “científicos de datos” y los científicos sociales, para un mayor conocimiento de todos los estudiosos de las ciencias sociales, para evitar así abusos y mejorar y ampliar su usos. Como no podía ser de otro modo, ni la mejor tecnología puede sustituir a una aproximación honesta y rigurosa a la investigación social.