ELECCIÓN DE LOS SUJETOS. TAMAÑO DE LA MUESTRA

Prof. Josep Mª Ramon, Departamento de Salud Pública.
Facultad de Odontología. Universidad de Barcelona

Antes de iniciar una investigación, es obligado definir de modo correcto qué sujetos van a ser incluidos, cuántos, y de que modo van a elegirse, siempre de acuerdo con los objetivos que previamente se han definido. La ausencia de planificación en este aspecto puede conducir, por ejemplo, a que los resultados del estudio no puedan generalizarse -por elección errónea de la población a estudio-, o a que las conclusiones no lleguen a ser relevantes -por incluir un número insuficiente de individuos.

Elección de los sujetos

En general, cuando se formulan los objetivos de un estudio, implícitamente se define la población objeto de interés. El conjunto de individuos al que se van a generalizar los resultados de la investigación es lo que se entiende como población diana .Por ejemplo, en un estudio cuyo objetivo principal es estimar la prevalencia de enfermedad periodontal en los adultos en edad laboral de una determinada zona geográfica, la población diana sería la totalidad de adultos en edad laboral de dicha zona.

Generalmente es imposible estudiar todos los individuos que conforman la población diana, por lo que el investigador deberá elegir un subconjunto de individuos de dicha población que le resulte accesible. Dicho subconjunto es la población a estudio (muestra) . El aspecto más importante a tener en cuenta en el momento de elegir la población a estudio es conseguir que ésta sea representativa de la población diana, es decir, que los resultados que el investigador halle en la población a estudio continúen siendo igualmente válidos para la población diana. La elección de los individuos que van a conformar la población a estudio implica definir unos criterios de inclusión y de exclusión de los participantes. La adecuación de estos criterios, no siempre tarea fácil, determinará la generalización de los resultados a la población diana. En el ejemplo anterior, se podría establecer que la población a estudio serían los trabajadores de que dispongan de un servicio médico de empresa propio, pues ello facilitaría la tarea de llevar a cabo el examen bucodental. Se asume con ello que los trabajadores de estas empresas tienen las mismas características que la totalidad de la población laboral de la zona geográfica a estudio. Los métodos empleados para obtener la muestra son las llamadas técnicas de muestreo.

Tamaño de la muestra

Después de haber definido cuál va a ser la población a estudio, hay que calcular qué tamaño mínimo debe tener la muestra para poder responder a los objetivos planteados. Hay distintas fórmulas matemáticas desarrolladas para llevar a cabo estos cálculos, dependiendo del tipo de estudio o del parámetro que se quiera estimar. Vamos a exponer los métodos del cálculo del tamaño de la muestra para estimar una proporción y una media y para llevar a cabo un contraste de hipótesis.

Estimación de parámetros

En los estudios descriptivos el cálculo del tamaño de la muestra suele ser necesario para estimar el valor de la variable de interés en la población a estudio, que, generalmente, se expresa como una proporción o como una media. Es importante señalar que antes de iniciar los cálculos, el investigador debe tener una idea aproximada del valor de la variable que espera hallar en la población. Ello requiere una análisis detallado de la bibliografía existente. Aún así, puede darse el caso de investigaciones en las que no exista ningún referente similar y, por lo tanto, se desconozca este valor. En estas situaciones es aconsejable llevar a cabo una prueba piloto que permita obtener un valor aproximado a partir de la cual se pueda hacer el cálculo definitivo.

Por otro lado, hay que tener en cuenta que cuanta más precisión se desee para la estimación, mayor deberá ser el número de individuos a incluir. Supongamos que los odontólogos de un área de salud desean investigar cuál es la prevalencia de caries dental en los niños de su área de influencia. Para el cálculo del tamaño de la muestra disponen de los datos de la Encuesta de Salud de Cataluña de 1991, que refiere una prevalencia global del 58% (P=0.58). Los investigadores están dispuestos a asumir un riesgo a de 0.05 (Za=1.96). Aplicando la fórmula 1 de la tabla A, el tamaño de la muestra puede oscilar entre 94 y 9358 individuos, según se desee una precisión baja (±0.1, o sea, que la prevalencia real de la población se halle entre el 48% y el 68%)o alta (±0.01, o sea, que la prevalencia real de la población se halle entre el 57% y el 59%).

Contraste de hipótesis

En los estudios analíticos y experimentales el investigador tiene una hipótesis de trabajo que debe comprobar mediante un contraste de hipótesis. Por ejemplo, si se pretende averiguar si la respuesta a un tratamiento A difiere de la de otro tratamiento B, la hipótesis nula sería que no existiesen diferencias entre ambos tratamientos, mientras que la hipótesis alternativa sería que sí existen. Las pruebas estadísticas que se aplican en un contraste de hipótesis intentan rechazar la hipótesis nula a favor de la hipótesis alternativa, y el tamaño de la muestra en la que se lleve a cabo el contraste debe permitir que se rechace o no se rechace con el mínimo margen de error posible.

Los elementos que intervienen en el cálculo del tamaño de la muestra y que deben ser previamente establecidos por el investigador son:

  1. Los errores de tipo I y II que se esté dispuesto a asumir
  2. El nivel de sensibilidad en la comparación
  3. La variabilidad del factor investigado

La tabla A incluye las fórmulas del cálculo del tamaño muestral en la comparación de medias y de proporciones, así como ejemplos de su aplicación.

Errores de tipo I y II

Un investigador puede cometer errores en las conclusiones de un contraste de hipótesis debido a que, al trabajar con una muestra e intervenir el azar en la inclusión de los individuos en la muestra, éstos no pueden reflejar la población de la cual proceden. Se comete un error de tipo I cuando se rechaza la hipótesis nula, siendo ésta verdadera en la población; o, lo que es lo mismo, cuando se concluye que existen diferencias entre los dos grupos que se comparan cuando en realidad no las hay. La probabilidad de cometer este error se denomina a y generalmente se considera que debe tener valores inferiores al 5% o al 1%.

Se comete un error de tipo II cuando no se rechaza la hipótesis nula, siendo ésta falsa en la población; o, lo que es lo mismo, cuando se concluye que no existen diferencias entre los dos grupos que se comparan cuando en realidad las hay. La probabilidad de cometer este error se denomina b y, generalmente, en un contraste de hipótesis se considera que debe tener valores inferiores al 20% o al 10%. El valor complementario de b (1-b) es la potencia, que expresa el poder estadístico del estudio. Por ejemplo, si el investigador decide asumir un riesgo b del 10%, en caso de que haya diferencias estadísticamente significativas entre los grupos, la probabilidad de se detecten en el estudio es del 90%.

Nivel de sensibilidad

Es la magnitud de la diferencia que se pretende detectar. Cuanto menor sea esta diferencia, mayor número de casos se necesitará incluir. El nivel de sensibilidad deberá decidirlo el investigador sobre la base de lo que se considere clínicamente relevante, y también debe responder a una visión realista. La pregunta que debe responderse el investigador es: para poder introducir el nuevo fármaco, ¿cuál es el mínimo porcentaje de beneficio que debo considerar ventajoso respecto al fármaco ya conocido? Para ello debe tener un amplio conocimiento del problema a estudio.

Variabilidad del factor estudiado

Debe conocerse de manera aproximada cuál es la variabilidad del factor a través de su varianza. Dado que un contraste de hipótesis debe tener la capacidad de demostrar una diferencia cuando existe, a mayor variabilidad del factor, es más probable que los valores de ambos grupos queden superpuestos y, por tanto, se necesitará incluir más casos que si hay poca variabilidad.

Muestreo. Técnicas de muestreo

Serán las distintas técnicas que utilizaremos para escoger a los sujetos. Existen dos grandes clases de muestreo: probabilístico y no probabilístico. En el muestreo probabilístico todos los individuos de la población tienen una determinada probabilidad de ser incluidos en la muestra; para ello se utilizan procesos aleatorios, esto es, basados en el azar.

El muestreo no probabilístico selecciona a los individuos mediante métodos en los que no interviene el azar. Un ejemplo sería el ir incluyendo en la investigación a los individuos que cumplan los criterios de inclusión conforme se pueden ir reclutando, por ejemplo, en una consulta, hasta que se tiene el número suficiente. Los muestreos no probabilísticos adolecen del peligro de que los voluntarios no representen adecuadamente a la población. Por ello, cuando un investigador plantea un muestreo no probabilístico debe poner en una balanza las ventajas de una fácil accesibilidad frente a la desventaja que supondría haber trabajado con una muestra no representativa.

Muestreo aleatorio simple

Es un muestreo probabilístico en el que todos los individuos tienen la misma probabilidad de ser escogidos. Para llevarlo a cabo se requiere la numeración previa de cada uno de los individuos de la población a estudio y después elegir los números al azar, generalmente mediante una tabla de números aleatorios. Si bien la elección al azar de los individuos garantiza la representatividad de la muestra, un inconveniente de este tipo de muestreo es que se requiere un listado completo de todos los individuos, hecho que no siempre es factible en algunas investigaciones.

Muestreo sistemático

Consiste en elegir uno de cada n individuos de la población a estudio. Por ejemplo, se plantea un estudio descriptivo que desea estimar, a partir de la revisión de historias clínicas, la proporción de fumadores entre los pacientes atendidos en la consulta odontológica de un área de salud. Suponiendo que hubiera 1.000 historias y que la muestra se ha estimado en 200 individuos, se tendría que revisar una de cada 5 historias (1.000/200). Al igual que el caso anterior, también se necesita un listado completo de todos los individuos de la población.

De mayor complejidad técnica que los anteriores, requiere dividir la población en varios estratos o grupos mutuamente excluyentes entre sí y elegir una muestra aleatoria dentro de cada estrato. Este tipo de muestreo es útil en los estudios de ámbito comunitario que precisan una muestra de la población con el mismo número de personas de ambos sexos, de diferentes grupos de edad, o de diferentes áreas de residencia, por ejemplo, con el fin de obtener una buena representatividad de todos ellos. Supongamos una hipotética investigación que pretenda analizar los hábitos de higiene bucodental de la población adulta de una determinada ciudad mediante la entrevista directa de los individuos seleccionados. La muestra se podría obtener estratificando primero por sexo y después por edad: después de dividir la población en hombres y mujeres, dentro del grupo de hombres se establecerían varios grupos de edad, y se elegiría al azar una muestra de cada uno de ellos. El mismo procedimiento se llevaría acabo en el grupo de mujeres. En este ejemplo se partiría de la base que la hipótesis de trabajo es que los hábitos en higiene bucodental pueden ser diferentes según el sexo y la edad. Como es lógico, para llevar a cabo este tipo de muestreo se precisa conocer la distribución de la población según las características por las que se desea estratificar.

Bibliografía recomendada sobre el tema

Carné X, Moreno V, Porta Serra M, Velilla E. El cálculo del número de pacientes necesarios en la planificación de un estudio clínico. Med Clin (Barc) 1989; 92:72-7.

Cuenca E., Manau C, Serra L. Odontología preventiva y comunitaria. Barcelona: Masson, 1999.

Freedman LS. Tables of the number of patients required in clinical trials using the Logrank test. Stat Med 1982; 1:121-9.

Ramon JMª (Editor). Métodos de investigación en Odontología. Barcelona: Masson, 2000.

Tabla A. Fórmulas para el cálculo del número de sujetos necesario

La fórmula para calcular el tamaño de la muestra cuando se desea estimar una proporción es:

Za2 · P · (1-P)
N = -------------------------,   
i2

 (Fórmula 1)
donde: N: número de sujetos necesarios
Za: valor de Z para el riesgo a asumido (1.96 para a=0.05)
P: valor de la proporción real que se cree que existe en la población
i: precisión con la que se desea estimar la proporción

La fórmula para calcular el tamaño de la muestra cuando se desea estimar una media es:

Za2 · s2
N = ----------------,   
i2

 (Fórmula 2)
donde: N: número de sujetos necesarios
Za: valor de Z para el riesgo a asumido (1.96 para a=0.05)
s2: varianza de la variable que se cree que existe en la población
i: precisión con la que se desea estimar la proporción

La fórmula para calcular el tamaño de la muestra cuando se desea comparar dos proporciones es:

| Za2 · Ö 2 · P · (1-P) + Zb · Ö P1 · (1-P1) + P2 · (1-P2) |2
N = ----------------------------------------------------------------------,   
(P1 - P2)2

 (Fórmula 3)
donde: N: número de sujetos necesarios
Za: valor de Z para el riesgo a asumido (1.96 para a=0.05)
Zb: valor de Z para el riesgo b asumido (1.282 para b=0.10; 0.842 para b=0.20)
P1: valor de la proporción que se cree que existe en el grupo 1
P2: valor de la proporción que se cree que existe en el grupo 2
P: media de las proporciones P1 y P2 (P1 + P2 / 2)

La fórmula para calcular el tamaño de la muestra cuando para comparar dos medias es:

2 · (Za2 + Zb2) · s2
N = -----------------------,   
d2

 (Fórmula 4)
donde: N: número de sujetos necesarios
Za: valor de Z para el riesgo a asumido (1.96 para a=0.05)
Zb: valor de Z para el riesgo b asumido (1.282 para b=0.10; 0.842 para b=0.20)
s2: varianza de la variable que se cree que existe en el grupo de referencia
d: valor mínimo de la diferencia que se desea detectar