En esta presentación (artículo) pretendo mostrar algunos conceptos básicos que es necesario tener en cuenta al diseñar tanto un experimento como un plan de muestreo. Se trata de conceptos ampliamente conocidos pero serán presentados de una forma sistematizada para poder reflexionar sobre ellos. Una muestra es un conjunto (observado) de elementos extraídos de un conjunto mayor o población (no observado) de la que se desea obtener información sobre una variable. Lo importante de una muestra estadística radica en la forma cómo se extraen sus elementos, y de una población en la forma de medir la variable de interés. Es decir, las principales cuestiones que es necesario plantearse son: ¿cuál es el objetivo del estudio?, ¿cómo se han de seleccionar los elementos de la muestra?, ¿cuántos elementos deben constituir la muestra?, ¿cómo han de estimarse las características de la población?, ¿cómo de fiables son esas estimas?

Objetivos del muestreo:

Estimación y Verificación de hipótesis

Dependiendo del objetivo del estudio, se pueden distinguir dos enfoques para el muestreo: ¿Se hace un muestreo para estimar un parámetro poblacional o para tener una estima de las diferencias entre niveles de un tratamiento?. Por ejemplo, ¿se hace un muestreo para estimar la población de Ceratitis en una variedad de naranja en la Comunidad Valenciana o para comparar que la población de mosca ha disminuido con respecto al año anterior?. Aunque existe un gran parecido en las fórmulas para contestar a esas preguntas, ambos casos representan dos objetivos o enfoques claramente diferenciados. El primer caso es característico de los estudios de encuestas o, en el ámbito de esta charla, para conocer densidad de plagas; es decir; se desea conocer valores absolutos de la variable de interés.

Por el contrario, en el segundo caso, un objetivo es estimar los valores de las medias de los tratamientos y proporcionar estimas de las diferencias entre ellas así como de sus errores típicos, de modo que se pueda tomar una decisión con respecto a una hipótesis propuesta. Igualmente, un objetivo de este tipo de estudios en el caso de muestro por etapas puede ser estimar las varianzas de los diferentes componentes del modelo para calcular posteriormente tamaños óptimos de muestra. Muchas veces se da demasiada importancia al segundo enfoque en detrimento del primero. Perry (1986) hace notar que las pruebas de significación tienen un papel limitado en Biología porque la significación está relacionada con plausibilidad, no con importancia biológica.

El resultado de una prueba depende tanto del número de repeticiones como de la magnitud del efecto estudiado; una hipótesis nula (por ejemplo, ausencia de efecto de insecticida frente a un control) puede saberse que es falsa incluso antes de hacer el experimento; por tanto, probar esa hipótesis es redundante y su nivel de significación carente de sentido pues debemos diferenciar entre lo que es la significación estadística de la significación práctica o biológica. Muchas veces, el verdadero y principal interés debería ser estimar la magnitud de los efectos de los tratamientos.

Aquí, una pregunta relevante no es si el aumento en la dosis de alimento aumenta la fecundidad sino ¿cuánto aumenta la fecundidad por cada unidad de aumento en consumo de alimento?, y, ¿a qué nivel de dosis deja de ser lineal esa relación?. En el mismo contexto, muchos autores han puesto de manifiesto los errores que se cometen al realizar comparaciones múltiples de medias como la de Duncan. De hecho, según Johnson y Berger, (1982), más de dos tercios de las casi 200 tablas y figuras presentados en Phytopathology abusaron o hicieron uso erróneo de esas pruebas.

Muestreo y Diseño de Experimentos

En general, suele verse al muestreo y al diseño de experimentos como dos disciplinas separadas. Nada más alejado de la realidad. El diseño de un experimento se puede definir como los pasos previos a la realización del mismo, dirigidos a asegurar que los datos se obtengan de tal modo que permitan realizar un análisis objetivo de los mismos encaminado a efectuar generalizaciones válidas con respecto al problema planteado. Por tanto, implícito en la definición de diseño de experimentos está el hecho de que es una forma de tomar datos; es decir, de hacer un muestreo, de modo que las generalizaciones sean válidas. Si los elementos de la población muestran un cierto grado de homogeneidad, o de heterogeneidad no atribuible a ninguna causa o estructura, se recomienda realizar un muestreo aleatorio simple; en términos de diseño este plan de muestreo es equivalente a un diseño totalmente aleatorizado.

Por el contrario, si la variabilidad de las unidades experimentales no es homogénea pero se pueden identificar partes o "estratos" que tienen una cierta homogeneidad, el muestreo recomendado es el estratificado realizando un muestreo aleatorio dentro de cada estrato. En circunstancias similares, el experimentador debería utilizar un diseño en bloques al azar de forma que los bloques serían los estratos, aleatorizando los tratamientos dentro de los bloques dado que la máxima variabilidad se encuentra entre bloques. En otras ocasiones se realiza un muestreo por etapas, por ejemplo haciendo un muestreo primero de árboles, después ramas dentro de cada árbol y, por último, hojas dentro de una misma rama. Este proceder es idéntico al diseño jerárquico o anidado. Por tanto, uno puede pensar en muestreo de la misma manera que lo haría en diseño y viceversa.

Definición y cuantificación de la variable:

Distribuciones y patrón de dispersión espacial

Una vez definidos los objetivos del estudio, es necesario cuantificar la variable de interés. Esta etapa es decisiva ya que una vez definida la forma de cuantificación, el análisis posterior de los datos queda definitivamente fijado. Por ejemplo si se estudia un ataque de Pseudomonas en diversas variedades de olivo, se puede cuantificar la variable por el peso total de los tumores o por su número, o simplemente por la presencia o no de ellos. Cada uno de estas variables tiene un tipo diferente de distribución por lo que demandará, en principio, un tipo diferente de análisis.

Así, en el caso del peso, que es una variable cuantitativa, es de esperar que se distribuya normalmente por lo que un ANOVA sería el enfoque adecuado para estudiar las diferencias entre variedades. Sin embargo, es posible que ese tipo de análisis no deba utilizarse con las otras dos formas de cuantificar la variable. La mayor parte de los estudios en entomología se basan en conteos. Este tipo de variables según se expresen en presencia/ausencia o en el número total de individuos, presentan un tipo diferente de distribución estadística. Así, si el experimento está formado por un conjunto n de pruebas independientes (cada uno de los árboles sobre los que se hace el muestreo, por ejemplo), cada una de ellas con un resultado que podemos clasificar como éxito o fracaso (presencia o ausencia de tumores) y la probabilidad de éxito es constante a lo largo de las pruebas, entonces, la variable se distribuye binomialmente.

Un caso claro de este tipo de variable es cuando la unidad de muestreo presenta o está afectada (o no) por la plaga o enfermedad, siempre que se cumpla con el requisito de independencia y de equiprobabilidad. Normalmente, este tipo de variables se expresa como porcentajes; sin embargo, no todos los porcentajes conducen a una distribución binomial. El porcentaje correspondiente a "parte de un todo" (por ejemplo el porcentaje o proporción de superficie de hoja atacada por el minador de los cítricos), no es una variable que se distribuya según una binomial. Si el tamaño de la población sobre la que se hace el muestreo no es muy grande en relación con la muestra tomada, la probabilidad de que aparezca la enfermedad variará en cada prueba ya que el muestreo es sin reemplazamiento; en este caso la variable sigue una distribución llamada hipergeométrica.

Si se utilizan conteos en valor absoluto, la distribución estadística de la variable dependerá del patrón de dispersión espacial de la plaga. Si se puede considerar que está aleatoriamente dispersa, la variable sigue una distribución Poisson. En este tipo de distribución la media y la varianza son iguales. Por el contrario, si el patrón espacial no es aleatorio sino que está formando agregados o "manchas", la distribución de frecuencias está generalmente más "extendida" por lo que la varianza es mayor que la esperada para una Poisson.

La distribución binomial negativa suele ajustarse mejor a ese tipo de distribución con colas más largas. Cuando las unidades de muestreo se toman en grupos o "clusters", y el patrón de dispersión espacial muestra agregados, la distribución beta-binomial suele usarse para caracterizar la distribución del número de unidades de muestreo afectadas en el grupo. Si la variable sigue cualquiera de estas distribuciones, el analizar los resultados mediante un ANOVA puede dar lugar a conclusiones erróneas y deben emplearse métodos alternativos como los basados en el modelo lineal generalizable (MCCULLAGH Y NELDER, 1989). Sin embargo, gracias el teorema del límite central, cualquiera que sea la distribución de la variable, la distribución de la media de las muestras tiende a una distribución normal si el tamaño de muestra es suficientemente grande.

Además, se ha demostrado que el ANOVA es bastante robusto a ligeras discrepancias de la normalidad si el diseño es equilibrado. De todos modos, esta afirmación no implica una excusa para creer que todos los análisis son correctos. Cada situación debe ser estudiada con detalle para verificar que los términos "tiende a", "suficientemente" y "ligeras" realmente se cumplen.

Tamaño de muestra

Ésta suele ser una pregunta muy repetida en la conversación investigador-estadístico. Es necesario determinar el tamaño mínimo del experimento con objeto de que el diseño sea eficiente. Sin embargo, la contestación ansiada por el investigador no es siempre fácil. A esta pregunta suelo contestar, con una serie de preguntas. Si el experimentador no conoce las respuestas, lo normal es llegar a un compromiso basado en el número máximo de unidades experimentales que es capaz de manejar de forma homogénea, siempre que el presupuesto lo permita.

Supongamos que se hace un muestreo de hojas de cítricos para estimar la cantidad de unos ácaros. Si todas las hojas tuvieran el mismo número de ácaros, bastaría con tomar solamente una hoja para obtener el valor promedio representativo del numero de ácaros por hoja en la parcela. Por el contrario, es evidente que si la variación entre hojas es grande, necesitamos tomar más de una hoja para efectuar la estima. El tamaño de muestra depende, por tanto, de la variabilidad esperada.

Por otro lado, si queremos tener una gran precisión en la estima dada por la muestra (diferencia entre el valor verdadero y el predicho por la estima) es lógico que debamos tomar una muestra de mayor tamaño que si la precisión deseada es menor. Igualmente, si necesitamos tener una gran confianza en la estimación, la muestra debe ser mayor. En menor medida, también influye en el tamaño de muestra el tamaño de la población en la que se realizará el muestreo. Por tanto, la formula que da el tamaño de muestra para estimar el valor medio con una confianza del (1 - á) por ciento es en donde ó2 es la varianza poblacional, p la precisión deseada y z (1 - á)/2 el valor de una distribución normal correspondiente a un área del (1 - á); como este valor es próximo a 2 para las confianzas usuales (90, 95, 99%), se suele aproximar por la expresión anterior. Si la varianza poblacional es desconocida, se puede aproximar por la estimación a partir de una muestra piloto o por su relación con el rango esperado; en este caso, la distribución normal debería sustituirse por un t de Student mediante un proceso iterativo. Si el tamaño poblacional N no es muy grande con relación al muestral n, la anterior fórmula debe modificarse ligeramente:

Para el caso de verificación de hipótesis, las fórmulas son algo más complejas pues es necesario determinar el contraste más interesante o crítico para el estudio pero básicamente se sustentan en el mismo concepto.

Muestreo y submuestreo

Por repetición se entiende obtener más de una observación por combinación de factores; es decir que la combinación de factores (tratamientos, bloques, etc.) más amplia se aplica a más de una unidad experimental. De la misma forma, viendo la definición al revés, y aunque a veces es complicado definirla de forma precisa, una unidad experimental es aquel ente (no necesariamente físico tal como una parcela, un árbol, etc.) que recibe la combinación de factores de forma independiente de otra unidad experimental. El punto importante a señalar es que la obtención se hace de forma independiente.

Muchas veces se confunde repetición con submuestreo de modo que cada unidad experimental se mide varias veces y, por tanto, las mediciones no son independientes. Por ejemplo, si se aplican unos tratamientos a unos árboles y se cuenta la presencia de ácaros en las hojas, las valoraciones de cada hoja no sirven para verificar las diferencias entre tratamientos sino que el factor de comparación son los árboles. Por eso cuando se está diseñando el muestreo cabe preguntarse, ¿qué es mejor, muestrear muchas hojas de pocos árboles o pocas hojas de muchos árboles? Si el interés es estudiar las diferencias entre tratamientos, un plan de muestreo que proporcione una menor varianza esperada de la media del tratamiento que otro plan alternativo, se considera que es más eficiente.

Por ejemplo para un muestreo tri-etápico (diseño jerárquico) con a árboles por tratamiento y h hojas por árbol, la varianza de la media de un tratamiento es Supongamos que se minimizan las varianzas entre árboles dentro de tratamientos y entre hojas dentro de un árbol mediante un cuidado manejo de laboratorio y campo; en la mayor parte de las veces, la varianza de la media de un tratamiento está afectada más por el número de unidades (árboles) que por el de submuestras (hojas) dentro de unidades ya que a aparece como divisor en ambas varianzas y generalmente ó2 a >> ó2 h. Por tanto, a no ser que la variación entre hojas sea mucho mayor que entre árboles, no es muy recomendable aumentar exageradamente el número de submuestras pues puede ser un despilfarro de recursos.

En términos generales, aumentar el número de muestras en la etapa más inferior (hojas en este caso) es similar a invocar la ley de los rendimientos decrecientes. La estructura jerárquica de los datos así como la naturaleza aleatoria del factor árbol no debe ser olvidada en el análisis de los datos. Este último punto suele ser causa frecuente de errores pues la mayor parte de los programas estadísticos comerciales no lo tienen en cuenta de forma rutinaria.

Muestreos repetidos en tiempo y/o espacio

Muchos experimentos deben repetirse a través del tiempo porque los efectos de los tratamientos pueden alterarse con, por ejemplo, la fenología y ciclo biológico del insecto, variaciones estacionales, o simplemente por el propio efecto temporal de la eficacia del tratamiento (generalmente insecticida u organismo depredador). Consideremos un experimento sencillo con un solo factor representando la presencia en diversas dosis de un enemigo natural del ácaro Panonychus citri y midiendo la cantidad de ácaros a la semana de aplicar el tratamiento.

El análisis es muy sencillo pero, ¿cómo se analizaría si tomamos medidas repetidamente de forma semanal a lo largo de tres semanas?. Temporalmente, las unidades experimentales pueden estar correlacionadas y más correlacionadas cuanto menor sea el intervalo entre tiempos. Entonces, la información en los muestreos sucesivos es menor que la que se obtendría en muestreos independientes. Otra pregunta de interés podría ser, ¿las diferencias entre tratamientos obtenidas en un periodo de tiempo existían ya en periodos anteriores o son creadas ex-novo?. Ambos problemas no están resueltos mediante un simple ANOVA. En el primer caso es necesario recurrir a un análisis especifico que tenga en cuenta la estructura de correlaciones en el modelo mediante un estudio de medidas repetidas (también llamados datos longitudinales en otros contextos) y en el segundo caso, mediante un análisis de covarianza (reconociendo todas las limitaciones y suposiciones que este tipo de análisis conlleva). Si se efectúa un ANOVA clásico con datos correlacionados, dependiendo de la magnitud de la correlación, generalmente ocurre que las pruebas estadísticas de significación suelen dar lugar a más significaciones de las que realmente existen; es decir, que se declararían como diferentes, efectos de tratamientos que no son tal.

En resumen, se han presentado algunos puntos sobre los que es necesario reflexionar antes de hacer un muestreo o diseñar un experimento para evitar caer en lo que Preece (1984) llamó la "aproximación ritual a la Estadística" que se da cuando las recetas estadísticas se siguen ciegamente. Perry (1997) indica que los profesionales de la Protección Vegetal pueden mejorar grandemente sus análisis si: 1. Dibujan sus datos más a menudo, especialmente en análisis preliminares. 2. Evitan en lo posible el uso rutinario y automático de paquetes estadísticos, haciendo menos análisis y dedicando más tiempo a comprobar sus cálculos. 3. Ponen más confianza en la consistencia de la repetibilidad de sus resultados. 4. Ponen más confianza en su propio juicio biológico en relación con que un posible efecto sea real Es, por tanto, preciso reconocer que cada caso es único y determinado por el estudio que lo generó, de manera que requiere un enfoque especifico y es el estadístico quien más capacitado está para emplear el método más idóneo en cada situación. En la actual época de la super-especialización, cada vez es más necesario contar con equipos interdisciplinares.

 

BIBLIOGRAFÍA

JOHNSON SB AND BERGER RD. 1982. On the status of Statistics in Phytopathology. Phytopathlogy 72: 1014-1015

MCCULLAGH P AND NELDER JA. 1989. Generalized linear models. Chapman and Hall. 511 pgs.

PERRY JN. 1986. Multiple-comparisons procedures: a dissenting view. Journal of Economic Entomology, 79: 149-1155

PERRY JN. 1997. Statistical aspects of field experiments. En Methods in ecological and agricultural entomology, Dent, DR. and AP. Walton (Eds.). CAB International 171-201

PREECE DA. 1984. Biometrics in the Third World: Science not ritual. Biometrics 40: 519-523.

Comprar Revista Phytoma 164 - DICIEMBRE 2004