Mitofsky: muestras en apuros y supuestos heroicos

Para entender a las encuestas:

Una ventaja importante de las muestras probabilísticas reside en su fundamentación en la teoría de la probabilidad. Esta teoría permite estimar los parámetros poblacionales a partir de los estimadores de la muestra, así como la exactitud de esas estimaciones. Y es gracias a esa teoría que se puede lograr ese paso “mágico”, y poco intuitivo para la gran mayoría de las personas, de estimar, por ejemplo, las preferencias electorales de 100 millones de ciudadanos a partir de una muestra de 1,200 personas y con un margen probable de error.

Ahora bien, esta teoría trabaja bajo supuestos muy extremos que nunca veremos concretados en la realidad a plenitud, aunque tienen un sólido fondo lógico. No voy a complicar esta parte y solamente le diré que, para una población determinada bajo estudio, como puede ser la población de votantes en México, siempre existirá una enorme cantidad de muestras posibles que pueden ser extraídas; una cantidad de muestras posibles que se cifra en millones de opciones. Y, a su vez, cada muestra posible le dará un estimador diferente. Déjeme le pongo un ejemplo muy sencillo y concreto para entender esto.

Ejemplo:

Suponga que solamente existen 10 mil mexicanos en edad de votar y que deseamos sondear con una muestra probabilística cuál es la intención del voto para la presidencial hoy con una simple y sola pregunta: “Si hoy fueran las elecciones, ¿por cuál partido votaría?”

Para hacer nuestra investigación numeramos a los 10 mil mexicanos, luego metemos esos números a una urna, y luego procedemos a elegir de ella 100 números al azar para obtener una muestra de tamaño 100; es decir, vamos a elegir a 100 mexicanos al azar – no del programa de TV – como muestra para nuestro estudio. Y ya elegidos, procedemos a aplicarles el cuestionario.

Supongamos que este primer ensayo nos arroja un resultado muy al estilo Televisa de, digamos, 75 % para el PRI y 25 % para los otros partidos. Si usted vuelve a extraer otros 100 números de la urna para elegir otra muestra, es muy posible que dé con otro resultado. Digamos que en este segundo ensayo obtuvo el resultado siguiente: 62 % para el PRI y 38 % para el resto – un escenario imposible para Televisa, por cierto -. En un tercer ensayo usted puede obtener 65 % PRI y 35 % el resto. Un cuarto ensayo tal vez le dé 57 % PRI y 43 % el resto, y así sucesivamente.

Si usted se mantiene realizando estos ensayos sacando números y muestras hasta agotar las posibilidades de combinación entre los 10 mil mexicanos de la población total, llegará a un número muy grande de diferentes muestras posibles, y cada una de ellas con su resultado para las preferencias electorales.

La teoría de probabilidad establece que la mayoría de todos esos posibles resultados van a tender a concentrarse alrededor del verdadero parámetro de la población con cierta dispersión; parámetro que, por cierto, no conocemos – es lo que deseamos conocer con nuestro estudio -, y que en este caso particular es la verdadera intención del voto existente en la población, los 10 mil mexicanos.

Lo que dijimos hasta aquí es solo un burdo esbozo del razonamiento que fundamenta al muestreo probabilístico. Por supuesto que en la realidad, en los hechos, cuando queremos hacer un estudio solamente extraemos una muestra y ya; no vamos a estar extrayendo muestra tras muestra toda la vida hasta agotar las posibilidades. Pero una regla fundamental para que todo esto funcione tal como dicta la teoría, es que usted no puede alterar la muestra que extraiga en cada ensayo. Es decir, una vez que usted extraiga los 100 números de una muestra aleatoriamente, no puede quitar o meter elementos de la misma a placer y a criterio personal, ni siquiera un elemento. En pocas palabras, la muestra se queda tal y como lo determinó la selección aleatoria en la urna.

La no respuesta:

Las encuestas tienen una meta ideal consistente en un 100% de respuesta. Con esto me refiero a que todo investigador busca que su encuesta capte la respuesta efectiva de todos los elementos que fueron seleccionados en el procedimiento original de muestreo. Se trata del ideal, lo deseable. Pero en la realidad esto es casi imposible de lograr. Y es que, en los hechos, toda encuesta siempre cuenta con algún grado de no respuesta, de rechazo a la entrevista.

Este problema de no respuesta o rechazo es una fuente potencial de sesgo en los estimadores de la muestra que pueden ser tan o más importante que los mismos errores de muestreo y de medición, y que pueden llegar a distorsionar los resultados de una encuesta hasta el grado de invalidarla. De ahí que gran parte de las técnicas de muestro se orienten a reducir este problema de la no respuesta a su mínima expresión.

Para clarificar esto, retomemos el ejemplo que pusimos y digamos que la muestra que hemos extraído para el estudio resultó con un 50% de rechazo a la hora de aplicarle la encuesta; es decir, la mitad de las personas en muestra no quiso participar en la encuesta. Si usted no hace nada para resolver esto y simplemente ignora el problema de no respuesta para luego empezar a hacer sus inferencias a partir de la mitad que sí respondió, su trabajo ya no tiene fundamento porque está trabajando con una muestra incompleta. Su estudio es inválido.

Algunos investigadores, sobre todo en encuestas rápidas como las electorales, suelen recurrir a un recurso muy habitual, pero poco legítimo, para resolver este problema. Este recurso consiste en sustituir a los elementos en muestra que no responden con otros elementos que sí responden pero que no estaban contemplados en la muestra original, buscando, sobre todo, mantener el tamaño de muestra meta.

Normalmente, esta práctica habitual busca establecer un mecanismo que garantice que la sustitución cumpla con ciertos requisitos y no dejarla al criterio de los encuestadores. Generalmente, el criterio de sustitución es elegir la vivienda contigua, porque esto permite suponer que los elementos originales de la muestra y los sustitutos pertenecen por lo menos al mismo nivel socioeconómico. Sin embargo, esta práctica tiene graves problemas.

En primer lugar, todo ese proceso de sustitución de elementos de la muestra termina por pervertir la muestra original, la que determinó la selección aleatoria original en la urna, y con ello es ya una muestra inválida.

En segundo lugar, ese proceso de sustitución es un error porque no elimina el problema de origen, la no respuesta, y su sesgo potencial asociado. Lo único que se logra con esta sustitución es completar la cuota de muestreo establecida como meta a través de un procedimiento artificial y sesgado, porque los sustitutos se parecen más a los que sí están dispuestos a participar. Incluso esta práctica puede a veces agravar el problema de no respuesta.

En tercer lugar, este recurso de sustitución tiene que trabajar bajo el supuesto heroico y descabellado de que los que no responden a la encuesta son exactamente iguales a los que sí responden en lo que toca a las variables bajo estudio, para con ello justificar la sustitución. Sin embargo, el problema de sesgo con estas prácticas deviene por el hecho de que sí pueden existir significativas y críticas diferencias entre los que no responden a una encuesta y los que sí responden. Y por supuesto que el grado o nivel de este sesgo potencial será mayor a medida que sea mayor la cantidad de no respuesta en la encuesta.

Existe una gran cantidad de investigación empírica que ha demostrado que sí suelen existir diferencias significativas y críticas entre los que sí responden a una encuesta y los que no responden. Por supuesto que estos estudios están referidos a casos concretos en diversas áreas de investigación, incluidos los procesos electorales. Se ha demostrado en casos concretos, por ejemplo, que una ausencia de respuesta del 10% llegó a ser suficiente para reportar sesgos significativos en una encuesta electoral al grado de hacerla inútil para lanzar inferencias o generalizaciones sobre la población objetivo. Le doy dos ejemplos que son clásicos en este tema en la bibliografía del área.

El Literary Digest se había distinguido hasta antes de 1936 por sus encuestas electorales infalibles. Y fue que en el año de 1936 echó a andar su más ambiciosa encuesta hasta entonces. Envió diez millones de cuestionarios a domicilio y los resultados llevaron a Literary a anunciar que el republicano Alf Landon ganaría las elecciones presidenciales a Frankiln D. Roosevelt con un resultado de 57% a 43%. Sin embargo, dos semanas después Roosevelt ganó las elecciones con 61 % de los votos.

¿Cuál fue el problema? El problema de Literary fue, fundamentalmente, la no respuesta. De los diez millones de cuestionarios enviados solamente algo más de dos millones regresaron debidamente llenados. Y resulta que sí había una grande y crítica diferencia entre los que sí respondieron y los que no respondieron: los primeros eran republicanos mayormente – clase media y alta - y los segundos demócratas – clase media y baja -.

En la contienda presidencial Truman-Dewey, Literary volvió a las andadas y declaró a Dewey como el virtual ganador, pero al final Truman gano la presidencia. Otra vez el problema se debió a la no respuesta. Y esta vez ya los medios hablaron de un fiasco de Literary. Gallup, el monstruo que suplió a Literary en el trono de las encuestas, también cometió un error grave en 1948 por no respuesta y por errores graves de estratificación.

Ahora bien, existe una gran cantidad de bibliografía - Cochran (1977 y 1983), Godambe and Thompson (1986), Little and Rubin (1987), Leslie Kish – que muestra cómo lidiar con este problema de la no respuesta en las encuestas.

Todo empieza por la ruta más legítima y eficiente, y que consiste en preocuparse por diseñar desde inicio un buen plan de investigación. No se debe cometer el error de pensar que la ausencia de respuesta en una encuesta es resultado único de la mala disposición de la población, de los elementos en muestra que se niegan a participar. Cierto que este factor cuenta, pero, en esencia, este problema es más bien reflejo de planes de encuestas de baja calidad y de investigadores que no conocen bien a su población objetivo.

Todo investigador que conoce bien su población objetivo siempre estará en condiciones de conocer y anticipar algunas de las causas más importantes de la falta de respuesta. Y la aplicación de estos conocimientos en el diseño de un plan de investigación le será de fundamental ayuda en eso de tomar las medidas conducentes para atenuar bastante el problema de no respuesta antes de iniciar su trabajo. Y son muchos los elementos que aportan o quitan en la calidad de una encuesta en este apartado: interés o atractivo del estudio, contenido de la encuesta, tiempo de entrevista, calidad de entrevistadores, método de recolección de datos, diseño del cuestionario y etc.

Una vez que se ha logrado un buen plan de trabajo, lo que sigue es darle seguimiento a toda no respuesta para tratar de atenuarla hasta el mínimo posible, y tratarla también a través de submuestras y modelos que permitan inferir o predecir las variables que se estudian.

Mitofsky:

En los países desarrollados suele considerarse que una encuesta electoral debe presentar al menos un 65% de respuesta para ser válida, o por lo menos persuasiva. En otras áreas las exigencias de calidad llegan al extremo de buscar un 90% o hasta un 95% de respuesta. Además, existe ahí la cultura de dar seguimiento a la no respuesta hasta atenuarla al máximo posible y proceder a los tratamientos especiales para inferir y modelar sobre ella.

En México hay un problema recurrente en la calidad de las encuestas por lo menos en lo que toca a este asunto de la no respuesta. Este fenómeno suele alcanzar niveles realmente preocupantes, a veces más allá del 35% que suele considerarse tolerable. Y para resolverla suele recurrirse a la práctica habitual que señalé antes: ignorar el problema y sustituir elementos de la muestra asumiendo igualdad de comportamientos entre los que no responden y los que sí responden.

Si usted revisa las encuestas electorales de los últimos tiempos se dará cuenta que suele haber un grave problema de no respuesta, de rechazo. Y este ha sido el caso al menos de la última encuesta de Mitofsky en torno a las preferencias electorales rumbo a las presidenciales.

Mitofsky reporta una tasa de rechazo nada más y nada menos que del 57.1 %. Es decir, su tasa de respuesta es solamente del 42.9%. Así que menos de la mitad de la muestra original participó en la encuesta. Es claro, pues, que estamos hablando de cifras que están significativamente fuera de un nivel de calidad aceptable.

No necesito ya decirle al lector los problemas que se derivan con esta práctica. Lo que apunté arriba era precisamente para visualizar este problema de las encuestas en México. Y lo cierto es que la única manera de rescatar estos resultados de Mitofsky es aceptar que se infiera a partir de una encuesta de baja calidad – a juzgar por su escasa respuesta del 42.9 % - el comportamiento de la población bajo el supuesto descabellado de que hay igualdad de comportamiento electoral entre los que sí participaron y los que no participaron.

Por otro lado, no sabemos si Mitofsky hace un seguimiento a los elementos seleccionados en la muestra original pero que no son encontrados a la hora de la visita. Si no le dan seguimiento a estos casos y solamente se limitan a sustituir con otro elemento, ya tenemos otra fuente adicional de sesgo. Y esto, porque puede haber diferencias significativas y críticas entre los elementos muestreados pero no encontrados y los que entraron luego en sustitución en la muestra.

Es mi opinión que estamos ante resultados que, en estricto sentido, no tienen bases científicas completas, que solamente son aplicables a la población que aceptó participar en la encuesta – muy al estilo de las encuestas voluntarias de internet -, y que no pueden dar lugar, por ende, a inferencias en torno a los parámetros electorales para toda la población.

Ahora bien, ventilar un estudio en estas condiciones, publicando solamente el nivel de rechazo, pero sin aclarar con toda precisión y claridad todas las deficiencias y fuentes potenciales de sesgo implicados en ese número, es algo que puede dar lugar a la formación de expectativas poco objetivas en el ciudadano respecto de las condiciones imperantes en la vida política del país. Situación que, necesariamente, luego tiene efectos negativos de orden mayúsculo. Y no es difícil entender esto si recordamos que el ciudadano promedio en México tiene una pobre o nula cultura estadística, lo cual lo pone en la imposibilidad de entender el verdadero y profundo significado de un alto rechazo del 57.1 % en una encuesta electoral.

Como muestra de estos peligros, el lector podrá ver que estos y otros resultados con semejantes problemas son difundidos por los medios sin parar mientes en lo que hemos dicho hasta ahora Y esto, creo, es algo incorrecto.

De mil ciudadanos originalmente en muestra, solamente 429 aceptaron participar – el 42.9 % -. Por otro lado, 571 ciudadanos habrán sido sustituidos bajo criterios poco o nada objetivos – supuestos -. En estas condiciones de rechazo, todo investigador debe preguntarse si está haciendo bien las cosas y, sobre todo, empezar a tomar muy en serio el hecho de que sus resultados carecen de sólidas bases objetivas y que pudieran ser radicalmente diferentes de no suceder esos niveles de rechazo.

Pero lo más llamativo de esto es que nadie en el mundo político se preocupa por estas situaciones que pueden distorsionar la percepción de la realidad en la conciencia de los mexicanos y que son de una tremenda importancia. Por lo menos no veo a un político en México ocupándose en este asunto, pese a que le sobrarían elementos para reflexionar, emitir juicios y mejorar las cosas.

¿Y usted qué piensa de esto? ¿Piensa que es posible sostener que hay igualdad de percepciones políticas entre un mexicano que rechaza una encuesta y uno que acepta participar?

Yo, en lo personal, no veo la manera en que los resultados de esta encuesta puedan ser generalizados a la población electoral en México si no es, como he dicho, a costa de supuestos muy tirados de los pelos.

Buen día.