Para muestra no basta un botón

Discutíamos mi padre y yo sobre si Marcos Witt, cantautor muy popular entre los cristianos de Latinoamérica, era más famoso que Michael Flatley1 o Evgene Plushenko2. Sin darme cuenta del esnobismo con el que hablaba, argumentaba que estos dos eran figuras internacionales, los mejores en su campo y cuya fama no se limitaba a un determinado grupo étnico o religioso. Pero bueno, también lo es Andrew Weiss3 y en definitiva, aunque este hecho lastime nuestro ego, él quedaría en
cuarto lugar de esa lista.

Mi padre entonces propuso una solución que parecía sensata: “Sal, haz una encuesta con los vecinos de la cuadra y verás que tengo razón”. Cabe aclarar que vivimos en una colonia popular, por lo que la probabilidad de encontrar a alguien que gustase de la danza o del patinaje sobre hielo era prácticamente cero; por otro lado, sabíamos que al menos dos vecinos eran cristianos. Así pues, mi padre tenía todas las de ganar. Claro está que no iba a salir a realizar tan trivial encuesta (y menos sin cobrar por ello), por lo que me limité a responder como estadístico: “Esta cuadra no es una muestra representativa”.

Y es que eso de que para muestra basta un botón no es siempre cierto. En este caso resulta evidente que 30 casas de una colonia popular de un país tercermundista no pueden representar a la población mundial.

“¿Vas a irte a encuestar al Campestre entonces?” – respondió.
La idea de mi padre no era mala en esencia, solo lo era en forma. En efecto, para saber si Marcos Witt es más famoso que Flatley o que Plushenko tendríamos que preguntarle a la gente. Claro, si quisiéramos una respuesta que nos brindase absoluta certeza, tendríamos que hacerlo con cada uno de los 5 mil millones de habitantes de la Tierra... tomaría algo de tiempo. En definitiva tenemos que tomar una muestra. Y aunque en el Campestre habría tenido mayores esperanzas de ganar, sabía que los ricos de Villahermosa, gracias a Dios, tampoco representan al mundo. ¿Cómo entonces seleccionar esa muestra? ¿Tal vez una cuadra de mi colonia y una cuadra del Campestre? No, no. Porque hay sólo un rico por cada cien pobres.
Bueno, que sean tres cuadras de mi colonia y una casa del Campestre. ¿Pero que pasaría si en la casa que yo seleccione del Campestre me responden que no conocen a Plushenko? Conclusión: la gente rica no conoce al mejor patinador del planeta.

Ese es el primer problema de representatividad que enfrenta el muestreo: determinar un tamaño de muestra que sea lo suficientemente pequeño para que la encuesta pueda realizarse, pero que tampoco sea tan pequeño como para que el resultado del estudio dependa de un solo individuo. Existen numerosas fórmulas de determinar el tamaño adecuado de la muestra cuando la población de estudio es homogénea. Pero cuando ésta no lo es, como es el caso de la humanidad, diseñar la
muestra adecuada no es tan sencillo.

Las casas encuestadoras, en sus encuestas de opinión, usan muestras de menos de 1,500 personas... ¡para representar a 60 millones! Y dicen tener márgenes de error menores al 3%. Por otra parte, aunque China es la quinta parte de la población mundial, eso no significa que el 97% de los humanos hablemos chino. ¿Por qué ese resultado tan incongruente?
Bueno, esas 1,500 personas suelen elegirse de tal forma que conforman una muestra representativa de la población nacional. Gracias a los datos del INEGI, saben qué proporción de la población nacional es hombre o mujer, viejo o joven, rico o pobre, cuántos no terminaron la primaria, cuántos tienen licenciatura, etc.... y diseñan sus muestras de tal modo que respeten esas proporciones, o al menos las de variables que son relevantes para el estudio.

Para ilustrar este punto, supongamos que se quiere saber qué fracción de la gente de Guanajuato prefiere pasar un sábado en el cine que en algún tabledance de Irapuato. El resultado de una encuesta aplicada a cinco hombres y cinco mujeres, seleccionados al azar un jueves en el Jardín Unión, diferiría por mucho del que arrojaría el encuestar a 20 estudiantes varones de la facultad de matemáticas. Y, a pesar de que la primera muestra es dos veces más pequeña que la segunda, no
tengo la menor duda de que la primera encuesta sería más confiable. Pero si quisiéramos saber el sabor de helado favorito de la población, es probable que el sexo o el daño cerebral de los matemáticos no sean factores de peso sobre sus gustos por el helado y, por lo tanto, la muestra de 20 arroje más información que la de los paseantes del Jardín.

Así, el diseño de muestreo dependerá del objetivo del estudio, pero también dependerá en gran medida de la información disponible. Si bien conocer las proporciones de sexo, edad, escolaridad, etc., nos pueden ayudar en algunos casos, habrá otros en los que se tenga que prescindir de esa separación pues no será posible hacerla. Si estuviésemos interesados en conocer qué proporción de los asistentes a un partido de fútbol sufren de depresión por problemas sentimentales, lo ideal sería encuestar sólo a los aficionados deprimidos y preguntarles la causa de su depresión. Sin embargo, esta delimitación será difícil puesto que nadie va al estadio con un letrero de , y menos si gana su equipo.

Desde luego, hay muchos más problemas que uno enfrenta al diseñar un marco muestral, pero para muestra basta un botón. En resumen, para que un estudio sea confiable, en primer lugar tiene que contar con una muestra representativa de la población a estudiar. La representatividad de la muestra se logra teniendo un tamaño apropiado, haciendo una estratificación adecuada de la población cuando ésta sea factible y relevante, y contando con información veraz. El marco muestral soporta todo el trabajo de investigación; sin él, o con uno inadecuado, el estudio simplemente se derrumba. Resultados basados en una muestra que no representa a la población son como dinero falso: papel sin ningún valor que puede traer más problemas que beneficios si se trata de utilizar.

(1) Bailarín irlandés. Creador de Lord of the Dance, espectáculo dancístico más exitoso de los últimos tiempos.
(2) Patinador ruso. Ganador de la medalla de oro en los juegos olímpicos invernales Torino 2006.
(3) Matemático de Princeton. Mayormente conocido por haber demostrado el último teorema de Fermat
.