¿Qué misterios esconden los datos fiscales?

De Vicente Cuñat y Miguel Almunia.

En España, en términos económicos, una de las formas más parecidas a una criatura mitológica son los datos individuales que el Ministerio de Hacienda posee sobre cada uno de nosotros. Que sabrá, o no sabrá Hacienda. Cruzan los datos o no los cruzan… Es un tema rodeado de secretismo y de misterio por parte de la administración y de todo tipo de rumores y suposiciones por parte de los ciudadanos. En particular, los investigadores académicos no tienen acceso a los datos individualizados. Sin embargo, esto no tiene por qué ser necesariamente así, y muchos países ya proporcionan acceso a la población de datos fiscales para realizar investigación académica.

En materia de datos fiscales, como en muchos otros ámbitos, los países escandinavos fueron los pioneros. Recientemente se han publicado dos estudios utilizando datos fiscales de Dinamarca (este y este) para estimar la elasticidad de la renta respecto a cambios en el tipo impositivo marginal. Esta elasticidad es clave para hacer proyecciones de recaudación fiscal y también se utiliza para cuantificar las distorsiones causadas por los impuestos (a mayor elasticidad, mayor distorsión y por tanto ineficiencia) y por tanto para predecir los efectos de los cambios en la presión fiscal.

Más recientemente, en el Reino Unido el HMRC (equivalente de la AEAT) creó en el año 2011 el Datalab, una oficina donde se puede acceder a todas las declaraciones de impuestos del Reino Unido. Esto incluye el impuesto sobre la renta (unos 29 millones de declaraciones por año), el IVA, el de sociedades (más de un millón de empresas), las cotizaciones sociales, etc. Para obtener acceso a los datos hace falta reunir varias condiciones: (1) presentar una propuesta de investigación que sea de interés general, ya sea porque puede responder a una pregunta académica importante o porque tenga implicaciones de política fiscal, (2) que el/los investigador/es estén asociados a un centro de reconocido prestigio y (3) que los investigadores se comprometan a ciertas prácticas que garantizan la confidencialidad.

La creación del Datalab en Reino Unido forma parte de una tendencia más amplia de dar acceso a micro datos fiscales en varios países. Tanto EEUU como el Reino Unido cuentan con leyes (las llamadas freedom of information acts) que regulan el acceso a datos administrativos por parte de los ciudadanos, investigadores y entidades privadas, facilitando el acceso al tiempo que provee de salvaguardas sobre la confidencialidad u otros posibles perjuicios. En el Reino Unido, la aplicación particular de la ley implica que cuando se solicitan datos con el objeto de realizar investigación académica, el peso de la prueba sobre la necesidad de preservar los datos como confidenciales recaiga cada vez más frecuentemente sobre las instituciones. Esto es, en principio todos los datos de la administración están disponibles y es responsabilidad de la administración justificar adecuadamente cualquier denegación de acceso.

En Estados Unidos, el Gobierno de Obama también ha abierto sus puertas a la investigación. Unos investigadores trataron de averiguar si el sueño americano sigue siendo tal, observando las rentas de 40 millones (!) de personas y sus padres en el periodo 1996-2012. La respuesta es mixta: la movilidad intergeneracional en EE.UU. varía mucho por regiones, por lo que algunos Estados son tierra de oportunidades, y otros no lo son en absoluto. Otro estudio concluyó, sorprendentemente, que tener un buen profesor en la guardería tiene impactos positivos en las condiciones de vida más de veinte años después.

Con los datos británicos hay bastantes investigaciones en marcha. Uno de los primeros estudios realizados tras la creación del Datalab analizó varias reformas fiscales del gobierno laborista y su impacto en el comportamiento fiscal de las empresas, estimando la elasticidad de los beneficios. Otra investigación identificó grandes distorsiones en el impuesto de transferencias patrimoniales, porque el tipo medio a pagar sube abruptamente por encima de un determinado precio. Todas estas investigaciones han permitido ajustar la política fiscal, reduciendo las distorsiones económicas inducidas por los impuestos.

Pero la revolución del acceso a datos fiscales no se queda en los países avanzados. Algunos países emergentes también han abierto la puerta a los investigadores. Dos estudios recientes analizan si enviar cartas a las PYMEs en Chile y Ecuador amenazando con una inspección fiscal es efectivo para incrementar la recaudación, dado que estas empresas tradicionalmente tienen altos porcentajes de evasión fiscal. Incluso el Gobierno de Pakistán ha permitido a unos investigadores estudiar su peculiar impuesto sobre la renta, donde los distintos tramos del impuesto determinan el tipo impositivo medio, en lugar del marginal. Esto quiere decir que alguien con un sueldo bruto 100 euros más alto que otra persona puede tener un sueldo neto más bajo (por suerte, después de hacerse el estudio el Gobierno modificó la ley). La iniciativa de transparencia del gobierno de Pakistán, ha permitido a muchos investigadores internacionales (franceses, daneses y holandeses entre otros) trabajar en temas de evasión fiscal y generar recomendaciones específicas de política fiscal basadas en la evidencia empírica.

Permitir el acceso (controlado) a datos fiscales tiene una serie de ventajas para los gobiernos. La primera es bastante obvia, tener acceso a estudios económicos de calidad sobre cuestiones de gran importancia, que permitan optimizar la recaudación, luchar contra el fraude y reducir las distorsiones fiscales. Estos estudios los realizaría un grupo de personas de alta cualificación trabajando esencialmente “gratis”, ya que a los investigadores les paga el sueldo su respectiva universidad o centro de investigación. Esto podría atraer no sólo a investigadores españoles, sino también investigadores de otros países que estén interesados en los problemas económicos de nuestro país (que son muchos!). En segundo lugar, los análisis realizados serían de buena calidad, y libres de los sesgos políticos a los que estamos acostumbrados. Por último, supondría un saludable aumento de la transparencia de los sucesivos gobiernos españoles y de los efectos de sus políticas.

También es importante considerar las posibles desventajas. En primer lugar, poner en marcha este sistema tendría un coste por la inversión en nuevos equipos informáticos y la necesidad de contratar técnicos que se ocupen de su funcionamiento. Estos costes son relativamente pequeños si se comparan con el coste global de la AEAT y el Ministerio de Hacienda. Incluso se podría cobrar una pequeña tasa por el uso de los datos para que el sistema no suponga ningún coste al Estado. En segundo lugar, el Gobierno tiene la responsabilidad legal de mantener la confidencialidad de los datos fiscales. Para proteger este derecho, se deben anonimizar los datos antes de compartirlos. Esto significa que se ocultaría el número de identificación fiscal (NIF) y otros datos personales para evitar que se pueda reconocer a personas o empresas específicas. Además, en el Datalab británico todos los resultados obtenidos los revisan expertos del Ministerio de Hacienda antes de ser publicados para asegurar que no se viola la confidencialidad. Por ejemplo, en cualquier tabla de frecuencias tiene que haber como mínimo 30 empresas o individuos por celda, de manera que sea imposible averiguar los valores para un contribuyente concreto por deducción. Nótese que esto no implica que el Gobierno tenga el derecho, o la intención, de censurar los resultados de la investigación. Y esto nos lleva a la tercera desventaja: posiblemente una razón por la que los gobiernos son reacios a compartir este tipo de información es que podría revelar alguna verdad “incómoda”.

En España, muy pocas bases de datos administrativos están disponibles, y en los pocos casos en los que los investigadores tienen acceso, se trata de muestras que apenas superan el millón de personas (es decir, no llegan al 10% de la población activa). Es el caso de la Muestra Continua de Vidas Laborales y la muestra anual declaraciones del IRPF que gestiona el Instituto de Estudios Fiscales. Con estos datos se han hecho algunos estudios interesantes, pero no permiten analizar los fenómenos económicos con tanta profundidad como los que hemos citado anteriormente. Otros ministerios, como por ejemplo el Ministerio de Educación y Trabajo tampoco son flexibles a la hora de ceder sus datos. Hay que recordar que España es uno de los últimos países en la Unión Europea que aún no cuenta con un panel amplio de datos de salarios.

En resumen, el sistema de acceso a datos fiscales debería regirse por unos principios básicos. El primero es que el proceso para acceder a los datos sea transparente y abierto a cualquier investigador cualificado. El segundo es que existan normas y procesos para proteger la confidencialidad, y que cada investigador sea responsable de cumplirlas. El tercer principio es que el sistema sea sostenible a largo plazo, para lo cual es clave minimizar el coste para la administración. Si fuera necesario, cobrando una tasa por el uso de los datos. Este es un tren que no nos interesa perder. Facilitar el acceso a los datos fiscales es positivo, no precisa de grandes recursos y afecta al futuro del país. No hay excusa para estar en el vagón de cola esta vez.

 

 

 

Hay 17 comentarios
  • Un asunto muy importante. Estoy de acuerdo en las ventajas y las precauciones, sobre todo lo que ataña a la confidencialidad. En el caso español creo que hay un problema adicional, que es el de los múltiples conflictos territoriales. Una de las principales aplicaciones que tendría abrir la base de datos fiscales probablemente sería la de estudios sobre la distribución territorial de la renta y cómo ésta afecta a múltiples facetas. Con los datos fiscales se podrían obtener datos de unidades pequeñas, como por ejemplo un municipio, que traerían un sinfín de matices al debate. Creo que el debate, y muchísimo más cuando se apoya en datos de calidad, es siempre positivo. Se deberían evitar los debates destructivos, lo que no sé es si este momento en el que las diferentes posiciones sobre los problemas territoriales están particularmente enfrentadas es el más propicio para que el debate, que creo que es necesario, sea constructivo.

    Reciban un cordial saludo.

  • Ya que han tocado el tema, me gustaría saber su opinión sobre el cada vez más extendido uso de bases de datos confidenciales en investigación académica. Estos trabajos son, por naturaleza, irreproducibles (o, al menos, altamente difíciles de reproducir) y, por tanto, suponen un reto a los niveles de "replicabilidad" y "transparencia" por los que las mejores revistas dicen regirse.
    Por ejemplo, AER nos dice que "It is the policy of the American Economic Review to publish papers only if the data used in the analysis are clearly and precisely documented and are readily available to any researcher for purposes of replication." Desgraciadamente, los artículos Chetty et. al (2014a,b) no incluyen ninguna base de datos que pueda ser usada para replicar los resultados.
    Los autores no "trabajan gratis" sino que exigen obtener un valor privado de su esfuerzo en términos de reputación profesional. Si las revistas académicas no publicasen estos estudios de tan dudosa calidad científica, nadie trabajaría con estas bases.

    • Daniel,

      Este es un tema importante sobre el que habría que distinguir varios casos.

      Hay bases de datos que son confidenciales, pero a las que tienen acceso varios equipos de investigación (por ejemplo el Censo de población de EE.UU.). Cuando un equipo publica un resultado, es cierto que no está al alcance de todos los investigadores comprobarlo o replicarlo. Aun así, hay un número, esperemos que suficiente, de investigadores que tienen acceso a los mismos datos y pueden realizar todo tipo de comprobaciones. Algo similar ocurre con las bases de datos comerciales que son caras. Muchos investigadores las tienen, pero no todos. Creo que este sería el caso de los datos a los que se refiere la entrada y no me parece muy preocupante, siempre que el acceso a los datos fiscales, aun siendo restringido, sea suficientemente amplio.

      Otro caso completamente distinto son bases de datos que son coto privado de un investigador, o bien porque ha sido el propio investigador el que ha recolectado los datos, o bien porque pertenece a una institución que no cede los datos externamente. Este es un terreno bastante más pantanoso. Las revistas intentan encontrar un difícil equilibrio entre dar incentivos a que dichos datos se utilicen para la investigación y garantizar que los resultados se puedan comprobar. La reputación del investigador juega un papel importante aquí, porque la comunidad académica tiene que confiar en la validez de los datos.

      En todo caso, parece obvio que garantizar la confidencialidad de los sujetos de los datos no pasa necesariamente por dar el monopolio de los datos a un solo investigador.

      • Daniel,
        Suscribo totalmente la respuesta de Vicente y me gustaría añadir un par de comentarios. Para facilitar que se puedan replicar los estudios que utilizan datos administrativos confidenciales, una norma muy importante es que los investigadores publiquen al menos los códigos (de Stata/Matlab, etc) utilizados para realizar el estudio. De esa forma, otro investigador puede obtener acceso a esos mismos datos y replicar los resultados.

        Más en general, creo que no hay que minimizar los costes de reputación a los que se enfrenta un investigador que se atreva a falsear datos. Si alguien que recoge sus propios datos lo hace, será difícil descubrirlo, pero hacerlo con datos administrativos sería muy arriesgado porque tarde o temprano alguien replicará el estudio. Dado ese riesgo evidente, no entiendo muy bien tu afirmación de que los artículos de Chetty et al (2014a,b) son de "tan dudosa calidad científica".

        • De la definición de "scientific method" que da wikipedia:
          "Scientific inquiry is intended to be as objective as possible in order to minimize bias. Another basic expectation is the documentation, archiving and sharing of all data collected or produced and of the methodologies used so they may be available for careful scrutiny and attempts by other scientists to reproduce and verify them."
          En los últimos años se han dado multitud de ejemplos de "errores de código" y "resultados irreproducibles" (véase este link http://replication.uni-goettingen.de/wiki/index.php/Main_Page)
          Personalmente tengo total fe en que Chetty ha puesto lo mejor de sí mismo para dar una imagen fiel de esos datos, pero también entiendo que haya quien no tenga la misma confianza. En cualquier caso, el "método científico" no entiende de nombres.

          • También depende del tipo de trabajo, por ejemplo si es un artículo metodologico, y los datos se usan para ilustrar las posibles aplicaciones de la técnica propuesta, entonces la replicabilidad en sentido estricto no es lo importante, en realidad seria mejor comprobar el funcionamiento con multitud de bases de datos diferentes. Por otro lado, en algunas sub-disciplinas, el investigador a veces no tiene otra opción. Por ejemplo en trabajos de economía de la empresa, concretamente en marketing y en strategic management, cuesta obtener información clave sobre las decisiones estratégicas de una empresa grande, y nunca te dejan hacerlo publico. En estos casos, el resultado se acepta pero queda en cuarentena hasta que se publican 10 o 15 artículos similares con otros datos, entonces se hacen estudios de meta-análisis sobre todo lo anteriormente publicado por investigadores diversos, y si todo cuadra esto se convierte en un resultado empíricamente generalizado, de hecho hay volúmenes dedicados a las generalizaciones empíricas, simplemente es un proceso diferente de verificación, y a veces más robusto que comprobar siempre los mismos datos.

            • No me gustaría entrar en discusiones filosóficas, pero el márketing y el "strategic management" son disciplinas académicas, no ciencias. No por ello, los resultados de la investigación en estos campos es menos relevante pero su método no es científico.
              Como usted dice es habitual que se presenten datos obtenidos de empresas en régimen de confidencialidad y en los artículos ni siquiera se mencione los productos o industrias de que se tratan. El artículo queda supeditado a la empresa que proporciona los datos y la comunidad investigadora se haya ante la imposibilidad de verificar fehacientemente lo allí se asegura.
              Por ejemplo, Google y Yahoo research hacen cosas interesantísimas sobre comportamiento en las redes, diseño de mecanismos etc. pero su intención no es científica sino de lucro. Uno no debe confundir científico con útil ni presuponer que el método científico es el único posible para acercarse a la verdad. Pero sí es el más posibilidades tiene de acercarse.

    • Investigaciones basadas en datos entregados por órganos estatales no pueden ni deben ser calificadas de científicas (excepto datos de órganos especializados en estadísticas y siempre y cuando se pueda probar que estos órganos no han sido corrompidos). Más allá de la imposibilidad de verificar la calidad de los datos, uno debe recordar que los datos fueron recolectados y procesados con propósitos muy distintos a la investigación científica. Dado lo que sabemos sobre la preparación de cuentas nacionales por órganos especializados es ridículo confiar en datos originados en las cajas negras de bancos centrales, superintendencias y otros órganos estatales.

      • EB,

        Precisamente una de las ventajas de dar acceso a los "micro-datos" directamente a los investigadores es que desaparecen las cajas negras. Especialmente si estos datos fueron recolectados para otros motivos (por ejemplo recaudar impuestos) es mas difícil que estén sesgados por intereses partidistas.

        • Vicente,

          El problema no es que estén sesgados por intereses partidistas. El problema es que tienen errores, muchas veces serios, en las declaraciones de quienes deben llenar formularios para solicitudes y controles. Cualquiera que haya llenado una declaración de impuestos o de cualquier otro tipo sabe bien que hay errores. En cuanto al procesamiento, aún suponiendo que el investigador tiene acceso al formulario original, las declaraciones requieren frecuentemente que el declarante procese la información básica en categorías que quizás son útiles para el propósito de la declaración pero no para investigación científica.

          Los cambios en la metodología de las cuentas nacionales y los continuos debates sobre errores en las estadísticas oficiales nos recuerdan que los datos con que los investigadores científicos trabajan tienen problemas serios y la honestidad exige que cada investigador haga un esfuerzo serio para verificar su calidad.

          • EB,
            Creo que estamos todos de acuerdo en que puede haber errores en las bases de datos administrativos que manejan los gobiernos (fiscales y de otro tipo). Pero creo que es importante resaltar varias cosas. Primero, la frecuencia y magnitud de estos errores es probablemente mucho menor que en la mejor de las encuestas. El acceso a datos administrativos es, por lo tanto, indudablemente una mejora significativa respecto a lo que tenían los investigadores hasta hace unos años. Segundo, la AEAT (y cualquier otra autoridad fiscal) utiliza una serie de filtros para identificar errores básicos en las declaraciones fiscales. Los filtros no son perfectos, pero en muchos casos hacen que se active una inspección fiscal. Tercero, en el caso específico de los datos fiscales, muchas veces la variable que nos interesa para la investigación es la renta declarada, independientemente de si el contribuyente ha cometido un error o está mintiendo en su declaración.

            Mi experiencia personal trabajando con datos de encuestas y datos administrativos fiscales es que los segundos tienen muchísimos menos errores, inconsistencias y omisiones.

            • Hay una diferencia enorme entre trabajar con datos de encuestas que uno ha preparo y datos oficiales de órganos no-estadísticos. En las encuestas la verificación de los datos puede tener un bajo costo para el investigador e incluso para investigadores interesados en el tema (digo puede porque en encuestas de grandes empresas la verificación pronto se vuelve de alto costo). En los datos oficiales la verificación es imposible por su alto costo y el juicio que un investigador científico pueda hacerse sobre la calidad de los datos dependerá en el mejor de los casos de la evaluación hecha por el administrativo responsable de que los datos estén disponibles para el fin que los justifica.

              Dos puntos más. Primero, recuerde que yo siempre hablo de investigación científica que no incluye a los muchos estudios que frecuentemente se hacen con datos oficiales. Segundo, me he quedado intrigado por su afirmación de que a veces el ingreso declarado es la variable de interés; le agradeceré un ejemplo.

            • EB,
              Un ejemplo clásico en economía pública son los estudios que estiman la elasticidad de la renta (declarada) con respecto al tipo impositivo marginal. El estudio original es Feldstein (JPE, 1995), que ha generado una enorme literatura posterior.
              http://www.ssc.wisc.edu/~scholz/Teaching_742/Feldstein_Taxable_Income.pdf
              En resumen, Feldstein explica que las estimaciones de la elasticidad de la oferta de trabajo no son útiles para calcular la distorsión que generan los impuestos, porque los individuos no sólo responden cambiando las horas trabajadas, sino que pueden variar otras decisiones: elusión fiscal (modificar la declaración de impuesto de manera legal para minimizar el pago), evasión fiscal (ésta sí, ilegal), y otras decisiones más generales sobre participación en el mercado laboral, nivel de educación, etc.
              La magnitud que engloba todas estas respuestas es la renta fiscal declarada. Esta magnitud tiene la ventaja de ser directamente observable en los datos que maneja el Gobierno, y bajo ciertos supuestos es un "sufficient statistic" de la pérdida de eficiencia generada por el impuesto.

  • Si se me permite salirme del tema principal del artículo, tengo que decir el paper de Raj Chetty et al no se refiere a "guarderías" tal y como las conocemos en España (0-3 años), si no a profesores de "kindergarten" con niños de 5 años (equivalentes al parvulario o educación infantil)

    • jago,
      Gracias por la puntualización. Efectivamente, en el paper de Chetty et al estudian el impacto que tiene un buen profesor de niños entre 5 y 7 años en varios indicadores (salario, estudios universitarios, etc.) a la edad de 27 años.

  • Recién leo a un profesor que hace la siguiente reflexión en la preparación de su clase de Macro sobre cuentas nacionales:

    I tell students that GDP is imperfect, but that imperfect isn't the same thing as useless or misleading. There's a lot that GDP leaves out and a lot it likely measures incorrectly, but it's sufficiently highly correlated with the things we'd really like to measure that it's quite literally good enough for government work.
    http://econlog.econlib.org/archives/2014/09/is_collecting_g.html

    Habiendo trabajado por más de 50 años con cuentas nacionales y otras estadísticas tradicionales (balanza de pagos, finanzas públicas, moneda y crédito bancario, fuentes y usos de fondos, empleo, precios, matrices insumo-producto) de Argentina y varios otros países estoy muy de acuerdo con la apreciación de ese profesor y la extiendo a todas las estadísticas tradicionales. Sí, son bastante buenas para hacer estudios cuyo propósito es tomar decisiones privadas o públicas, pero están lejos de ser buenas para la investigación científica.

  • Si se me permite añadir algo al ya interesante survey de estudios que utilizan datos fiscales, merece la pena mencionar que muchos estudios sobre desigualdad en la renta utilizan estos datos.
    Desde los trabajos de Simon Kuznet en los años 60 hasta los actuales, y muy conocidos, de Thoma Picketty, los (micro) datos fiscales han sido la gran fuente de información que ha permitido testar la teorías en este ámbito.

Los comentarios están cerrados.