En muchos ámbitos profesionales no existen métricas objetivas del desempeño. La calidad del personal docente, directivo o de creadores y artistas no puede resumirse en métricas sin problemas de comparabilidad o manipulación. En estos contextos, las evaluaciones formales o informales influyen en contrataciones, salarios, acceso a financiación, premios y reconocimiento.
Cuando la calidad no es unívoca ni fácilmente mensurable, quienes evalúan deben formarse juicios a partir de señales parciales. En ese proceso intervienen expectativas previas, atajos cognitivos, tradiciones y estereotipos implícitos que con frecuencia producen sesgos sistemáticos. No hace falta para ello que se ejerza una discriminación explícita o intencionada. Basta con tener que juzgar el trabajo ajeno bajo condiciones de incertidumbre.
Existe abundante evidencia que muestra la existencia de sesgos de género a la hora de evaluar el desempeño. Las mujeres reciben peores calificaciones docentes incluso cuando su rendimiento es equivalente al de los hombres. En procesos de revisión por pares, la concesión de reconocimiento académico o las promociones profesionales también aparecen diferencias en estándares y en la atribución de excelencia. También sabemos que el lenguaje utilizado en cartas de recomendación difiere sistemáticamente según el género de la persona evaluada.
Estos sesgos a menudo operan de manera sutil: mediante estándares más exigentes, menor probabilidad de recibir las distinciones más altas o una menor atribución de “brillantez” (Leslie y col., 2015). Más que un castigo, lo que parece haber es una menor propensión a reconocer el trabajo de las mujeres como excelente.
La mayor parte de esta evidencia proviene de entornos donde existe una relación profesional directa entre persona evaluadora y evaluada: universidades, empresas, procesos editoriales. En esos contextos existen incentivos estratégicos, jerarquías formales o interacciones repetidas. Pero ¿qué ocurre cuando la relación entre evaluadores y evaluados es débil o inexistente? ¿Persisten los sesgos cuando quienes evalúan no tienen vínculos contractuales ni dependencia directa respecto a las personas evaluadas?
Más cine por favor
En este blog hemos hablado mucho sobre cine y economía. Pero no habíamos hablado aun de crítica cinematográfica, que nos ofrece un laboratorio especialmente interesante para explorar las cuestiones arriba mencionadas.
Las reseñas de cine combinan una valoración numérica, normalmente mediante un sistema de cinco estrellas, con un texto más o menos argumentado. Las críticas son públicas, influyen en la visibilidad de las obras y en su reputación a corto y medio plazo. Los críticos de cine conforman un cuerpo relativamente pequeño y profesional de evaluadores. A diferencia de otros entornos profesionales, están fuera de la estructura de la industria que evalúan. No forman parte productiva del sector, no toman decisiones de contratación. Se limitan a generar una señal pública que las audiencias pueden observar y que después se agrega en métricas ampliamente difundidas mediante plataformas como Metacritic o Rotten Tomatoes. Estas métricas agregadas influyen en la percepción de calidad, en decisiones de consumo y, potencialmente, en la trayectoria profesional de los creadores audiovisuales.
El cine presenta además otra característica muy útil: aunque es una actividad colectiva, el director suele percibirse como la figura autoral principal. Esta idea remite a la “teoría del autor” desarrollada en la crítica francesa de los años cincuenta y sesenta del siglo XX, que atribuye al director la coherencia estilística y la visión artística de la obra. Por eso, si existen estereotipos sobre autoridad artística o genialidad, es plausible que se proyecten sobre esa figura. Se trata además de una industria donde las mujeres siguen estando infrarrepresentadas. El sábado pasado, al recoger el Goya a Mejor Dirección, Alauda Ruiz de Azúa recordó que en cuatro décadas de historia del galardón solo tres mujeres lo habían ganado antes que ella. La proporción de mujeres entre los críticos profesionales es muy similar. Por estos motivos, los estereotipos de género en el mundo del cine son particularmente intensos.
Datos y metodología
En un nuevo documento de trabajo coescrito con María Cubel estudiamos si las películas dirigidas por mujeres reciben evaluaciones distintas que aquellas dirigidas por hombres, así como los mecanismos detrás de esas posibles diferencias.
Analizamos 2.000 reseñas publicadas entre 2021 y 2025 en dos medios digitales en español: Fotogramas, la revista cinematográfica decana en España, de difusión generalista, y El Antepenúltimo Mohicano, una plataforma independiente centrada en cine de autor y festivales, con un perfil más especializado. En total, la muestra incluye 74 críticos y más de 1.500 películas únicas.
Nuestro análisis se centra en dos dimensiones complementarias.
Primero, las calificaciones por estrellas. El sistema de cinco estrellas funciona como un lenguaje universal de evaluación. Permite comparar películas dentro y entre medios. Es fácilmente agregable. Buena parte del mercado cultural utiliza esta métrica para calificar la calidad de álbumes, libros, videojuegos o restaurantes. Analizamos si existe una diferencia sistemática en las puntuaciones otorgadas a películas dirigidas por hombres y por mujeres controlando por sus características observables (género, duración, taquilla, premios, nominaciones, valoración en IMDb, país de producción) y por diferencias entre críticos.
Segundo, realizamos un análisis textual de las reseñas para estudiar cómo se construyen los juicios que luego se resumen en estrellas. Aplicamos técnicas de procesamiento del lenguaje natural para estudiar cuatro dimensiones: el tono general (sentimiento), el uso de lenguaje asociado a la “brillantez” o genialidad de la película, el uso de lenguaje que enfatiza lo subjetivo y lo íntimo (Nochlin, 1971; Proudfoot et al., 2015), y el esfuerzo invertido por el crítico en la reseña. Para esta última dimensión construimos un índice que combina riqueza léxica, complejidad y originalidad textual, siguiendo metodologías similares a Casamonti y Zinovyeva (2024), que analizan el esfuerzo y la sofisticación lingüística en evaluaciones académicas.
Polvo de estrellas
El primer resultado que observamos es que las películas dirigidas por mujeres reciben, en promedio, puntuaciones más bajas. La diferencia no es enorme, pero es sistemática y estadísticamente robusta tras controlar por una amplia batería de características observables.
Como muestra el panel izquierdo de la Figura 1, esta penalización no se manifiesta en una mayor probabilidad de recibir una o dos estrellas. La diferencia aparece en la parte alta de la distribución. Este patrón es consistente con la idea de una menor atribución de excelencia al trabajo de las mujeres.
Además, estos efectos están concentrados entre los críticos hombres (panel central). Entre las críticas firmadas por mujeres no encontramos diferencias estadísticamente significativas en la puntuación según el género de la dirección (panel derecho).
Entre líneas
Como muestra la Figura 2, los resultados del análisis textual no muestran diferencias en el tono general de las reseñas. Las películas dirigidas por mujeres no reciben críticas más negativas en términos de sentimiento global.
Sin embargo, sí aparecen diferencias en el encuadre lingüístico. Las reseñas de películas dirigidas por hombres contienen utilizan léxicos asociados a la brillantez y la excelencia, mientras que las dirigidas por mujeres son descritas utilizando léxicos relacionados con lo personal o íntimo.
De nuevo, estos patrones aparecen de forma más significativa entre los críticos hombres.
Además, encontramos que los críticos en su conjunto invierten más esfuerzo analítico cuando reseñan películas dirigidas por hombres (panel derecho, Figura 2). Utilizando un índice que aúna distintas métricas (riqueza léxica, originalidad del vocabulario, complejidad del texto) observamos que las reseñas de películas dirigidas por hombres tienden a ser más elaboradas.
Un análisis de keyness que identifica los términos que caracterizan las reseñas de películas dirigidas por hombres y mujeres mediante un test de log-likelihood, muestra que términos vinculados al espectáculo, la maestría o la excelencia (“éxito”, “espectáculo”, “virtuoso”, “espectacular”) son significativamente más frecuentes cuando la dirección es masculina. Por el contrario, las reseñas de películas dirigidas por mujeres emplean con mayor frecuencia un lenguaje que hace referencia a lo subjetivo, lo íntimo y lo emocional (“persona”, “sentir”, “emocional”, “colectivo”, “trabajar”).
El más allá
¿Por qué deberían importarnos estos resultados?
Los críticos actúan como intermediarios culturales. Sus juicios contribuyen a construir reputaciones y perfiles de excelencia. Si las películas dirigidas por mujeres reciben con menor frecuencia la etiqueta implícita de “obra excepcional” o universal, esa diferencia puede acumularse a lo largo del tiempo en forma de menor visibilidad, menor reconocimiento o trayectorias profesionales divergentes.
El caso del cine ilustra un punto más general. Incluso en entornos donde no existen relaciones jerárquicas directas entre evaluador y evaluado, y donde los juicios son públicos y argumentados, pueden aparecer diferencias sistemáticas en cómo se otorga el reconocimiento, que a su vez ayudan a perpetuar las diferencias ya existentes.



Hay 3 comentarios
Muy curioso, gracias!
Dira que hay una hipótesis no explicitada: que hombres y mujeres son, estadísticamente y a los efectos del estudio, iguales. Y, entonces, vistas las diferencias observadas (ay, qué fácil hubiera sido, imagino, incluir los datos y los scripts!) se deduce que algo está pasando por encima de la igualdad hipotetizada, y se propone que sea un sesgo.
Entendido - pero me parece que hay hipótesis alternativas que no sé si han considerado. Por ejemplo: que hombres y mujeres no son iguales, que tienen historias, experiencias, gustos, etc. distintos, y que esto se manifiesta naturalmente en las historias que les interesa contar y cómo las cuentan, y cómo resuenan a la hora de hacer crítica. No son diferencias enormes, claro, pero igual lo suficiente para explicar las diferencias observadas. Yo, con mis años a cuestas, diría que esta debería ser la hipótesis por defecto, pero como mínimo que habría que considerarla aunque estropee los resultados del modelo.
Más incluso: si en literatura o pintura hay generaciones, no las va a haber en el cine, en su creación y crítica?
Muchas gracias por el comentario.
Por supuesto. Directores y directoras puedan contar historias distintas o tener trayectorias diferentes. Faltaría más. Pero eso por sí solo no explica lo que encontramos.
Si la diferencia se debiera simplemente a que hombres y mujeres hacen “otro tipo de cine”, quedaría por explicar por qué esas películas reciben cinco estrellas con menos frecuencia, menos estrellas en promedio, menos lenguaje asociado a la excelencia y menos esfuerzo analítico en las reseñas.
En el análisis controlamos por una batería amplia de características de las películas. Por tanto, comparamos obras que, en esas dimensiones, son lo más parecidas posible.
Además, no es simplemente que “las películas de mujeres gusten menos”. Gustan menos a los críticos hombres. Si las diferencias se debieran únicamente a que hombres y mujeres cuentan historias distintas o apelan a sensibilidades diferentes, esperaríamos un patrón más simétrico entre evaluadores.
Por supuesto, como en cualquier estudio empírico, no podemos descartar por completo explicaciones alternativas. Pero la combinación de resultados es bastante consistente con la interpretación de que las diferencias que observamos no se deben únicamente a diferencias “naturales” en el contenido de las películas.
En cualquier caso, el debate interesante es precisamente ese: entender mejor cómo se construyen los juicios de valor en ámbitos donde la calidad no se puede medir de forma objetiva.
Gran trabajo. Esto recuerda a otra historia con el mismo fondo.
Esta historia es el ejemplo perfecto de cómo nos engañan los prejuicios inconscientes. Hasta los años 70, las grandes orquestas de EE. UU. estaban formadas por menos de un 5% de mujeres, bajo la excusa de que los hombres supuestamente tenían mejor técnica. Para evitar el favoritismo, introdujeron un sistema revolucionario: las audiciones a ciegas, colocando una cortina opaca entre el jurado y el músico para evaluar exclusivamente el talento.
Sin embargo, al principio la medida falló por un detalle inesperado: el sonido de los zapatos. El jurado seguía reconociendo cuándo entraba una mujer por el ruido de sus tacones al caminar sobre el escenario de madera. La solución fue simple pero brillante: obligar a todos los intérpretes a descalzarse o instalar gruesas alfombras en el suelo para silenciar por completo las pisadas y garantizar el anonimato real.
Los resultados, analizados años después por la Premio Nobel de Economía Claudia Goldin, fueron abrumadores. Tocar tras esa cortina aumentó en un 50% la probabilidad de que una mujer pasara la primera ronda y disparó la contratación femenina hasta rozar el 40% actual. Es una lección brutal: a veces es más efectivo rediseñar el sistema eliminando el sesgo de raíz, que intentar cambiar la mente humana.
Saludos.
Los comentarios están cerrados.