Estadística no paramétrica: definición, métodos y aplicaciones

La estadística no paramétrica es un conjunto de métodos estadísticos que no dependen de supuestos rígidos sobre la distribución de los datos, como la normalidad o la homogeneidad de varianzas. A diferencia de sus contrapartes paramétricas, estas técnicas son más flexibles y se basan frecuentemente en el orden de los datos (rangos) o en sus signos, lo que las hace ideales para analizar conjuntos de datos pequeños o con valores atípicos.

Estos métodos son fundamentales en la investigación científica y social porque permiten tomar decisiones estadísticas robustas cuando los datos no cumplen con las condiciones ideales requeridas por pruebas clásicas como la prueba t de Student o el análisis de varianza (ANOVA). Su aplicación abarca desde estudios clínicos hasta análisis de mercado, ofreciendo una alternativa válida cuando la "perfección" de los datos es rara vez alcanzable.

Definición y concepto

La estadística no paramétrica constituye un conjunto de métodos de análisis que no exigen que los datos sigan una distribución de probabilidad específica, como la distribución normal. Esta característica la distingue de la estadística paramétrica, donde los supuestos sobre la forma de la distribución son fundamentales para la validez de las pruebas. Los métodos no paramétricos son esenciales cuando los supuestos clásicos fallan o cuando el tamaño de la muestra es pequeño, permitiendo al investigador extraer conclusiones robustas sin depender de la estructura rígida de los parámetros poblacionales.

El papel de los rangos y el orden

La base de muchos procedimientos no paramétricos reside en el orden de los datos más que en sus valores absolutos. En lugar de utilizar la media aritmética y la varianza, que pueden ser sensibles a valores extremos, estos métodos suelen transformar las observaciones en rangos. Un rango es la posición que ocupa un dato dentro de una serie ordenada de menor a mayor. Esta transformación reduce la influencia de los valores atípicos y permite comparar distribuciones mediante la suma de estos rangos.

La consecuencia es directa: la información se simplifica para ganar en robustez. Al centrarse en la posición relativa, el análisis se vuelve menos sensible a las distorsiones que introducen los valores extremos en las medidas de tendencia central tradicionales. Esto hace que los métodos basados en rangos sean particularmente útiles cuando los datos presentan sesgos o colas pesadas.

Clarificación terminológica: "Poco paramétrica"

El término "no paramétrica" puede resultar engañoso, ya que sugiere la ausencia total de parámetros. Sin embargo, una definición más precisa sería "poco paramétrica". Estos métodos sí utilizan parámetros, pero su número es finito y a menudo no depende directamente del tamaño de la muestra, a diferencia de los modelos paramétricos donde cada dato puede influir en la estimación de múltiples parámetros. La distinción es crucial para entender la flexibilidad de estos modelos.

Dato curioso: El término "no paramétrica" fue popularizado por el estadístico Harold Hotelling en 1931, pero muchos estadísticos modernos prefieren el término "poco paramétrica" para reflejar que los parámetros existen, aunque sean menos restrictivos que en los modelos clásicos.

Esta precisión terminológica ayuda a evitar la ilusión de que los datos no paramétricos carecen de estructura. Por el contrario, la estructura es más flexible, adaptándose a la forma de los datos en lugar de forzarlos a encajar en una distribución predefinida. La robustez de estos métodos radica en su capacidad para manejar la incertidumbre sin sacrificar la potencia estadística.

Aplicación cuando los supuestos clásicos fallan

La estadística no paramétrica es esencial cuando los supuestos de normalidad, homocedasticidad y aleatoriedad de la muestra no se cumplen. En la práctica, los datos raramente siguen una distribución perfecta, especialmente en ciencias sociales, biología y economía. Cuando los datos presentan sesgos, valores atípicos o escalas ordinales, los métodos paramétricos pueden perder potencia o generar errores de tipo I y II.

El uso de pruebas no paramétricas permite al investigador mantener la validez de las conclusiones incluso en condiciones de incertidumbre. Por ejemplo, la prueba de Mann-Whitney U compara las medianas de dos grupos sin asumir normalidad, mientras que la prueba de Kruskal-Wallis extiende esta comparación a tres o más grupos. Estas herramientas son fundamentales para el análisis de datos reales, donde la perfección estadística es la excepción y no la regla.

La elección entre métodos paramétricos y no paramétricos depende de la naturaleza de los datos y de los supuestos que se puedan defender. En muchos casos, la estadística no paramétrica ofrece una alternativa más robusta y flexible, permitiendo al investigador extraer información valiosa sin depender de supuestos rígidos que pueden no reflejar la realidad subyacente.

Historia y contexto

El desarrollo de la estadística no paramétrica no fue lineal; fue una respuesta necesaria a las limitaciones de los métodos clásicos cuando los datos se rebelaban contra la suposición de normalidad. Durante gran parte del siglo XIX y principios del XX, la prueba t de Student dominaba el panorama estadístico. Este método era elegante y potente, pero exigía que los datos se ajustaran a una distribución normal (la famosa campana de Gauss). Si los datos se desviaban ligeramente, la precisión de la prueba t disminuía drásticamente, lo que generaba incertidumbre en campos como la biología o la psicología, donde las variables raras vez eran perfectamente "normales".

Los orígenes: Pearson y el Chi-cuadrada

Uno de los primeros hitos fundamentales fue el trabajo de Karl Pearson a finales del siglo XIX. En 1900, Pearson introdujo la prueba de bondad de ajuste del Chi-cuadrada. Este método permitió evaluar si una muestra de datos seguía una distribución específica sin depender exclusivamente de la media y la varianza. Fue un avance crucial porque ofrecía una forma de cuantificar la diferencia entre lo observado y lo esperado.

La fórmula del estadístico Chi-cuadrada se expresa como:

χ2=i=1∑kEi(Oi−Ei)2

Donde O representa la frecuencia observada y E la frecuencia esperada. Aunque poderosa, esta prueba tenía sus matices. Frank Yates, en la década de 1930, introdujo una corrección para mejorar la aproximación a la distribución normal cuando los tamaños de muestra eran pequeños o las tablas de contingencia eran de 2x2. Esta corrección de continuidad ajustaba la diferencia entre lo observado y lo esperado, reduciendo el sesgo hacia arriba del estadístico. Un detalle técnico importante: la corrección de Yates a veces puede ser demasiado conservadora, lo que significa que puede hacer que sea más difícil encontrar diferencias significativas de las que realmente existen.

El auge computacional y las pruebas de rango

Durante décadas, la estadística no paramétrica permanecó algo en la sombra. La razón era práctica más que teórica: calcular las distribuciones exactas de las estadísticas de rango era laborioso. Sin computadoras, los estadísticos preferían la simplicidad de la prueba t, asumiendo que la normalidad era una buena aproximación. Sin embargo, a mediados del siglo XX, figuras como Frank Wilcoxon y Henry Mann con Quentin Whitney desarrollaron pruebas basadas en rangos en lugar de valores brutos.

La prueba de Wilcoxon para muestras apareadas y la prueba de Mann-Whitney U para muestras independientes permitían comparar grupos sin asumir normalidad. Estas pruebas eran robustas, pero su cálculo manual era tedioso. La llegada de la computación a finales del siglo XX cambió todo. De repente, calcular la distribución exacta de la estadística U o la suma de rangos de Wilcoxon dejó de ser una carga. La potencia de cálculo permitió a los investigadores aprovechar la flexibilidad de las pruebas no paramétricas, llevándolas del estatus de "segunda opción" a herramientas esenciales en la ciencia de datos moderna.

Dato curioso: La prueba de Mann-Whitney a menudo se confunde con la prueba de la suma de rangos de Wilcoxon para muestras independientes. Aunque los estadísticos son matemáticamente equivalentes (una es función lineal de la otra), se nombran en honor a dos investigadores que publicaron sus hallazgos casi simultáneamente en 1945 y 1947. Esta duplicación de nombres es un recordatorio de cómo la estadística evolucionó de forma paralela en diferentes círculos académicos.

La consecuencia es directa: hoy, la elección entre un método paramétrico y no paramétrico depende menos de la comodidad del cálculo y más de la naturaleza misma de los datos y la hipótesis de investigación. La historia de la estadística no paramétrica es, en esencia, la historia de la búsqueda de la robustez frente a la elegancia teórica.

¿Qué diferencia a la estadística no paramétrica de la paramétrica?

La distinción fundamental entre ambos enfoques radica en el nivel de confianza que el investigador tiene en la distribución de la población de origen. La estadística paramétrica asume que los datos siguen una distribución conocida, generalmente la normal, lo que permite estimar parámetros poblacionales específicos como la media y la varianza. Por el contrario, la estadística no paramétrica, a menudo llamada "libre de distribución", se apoya en el orden o la frecuencia de los datos, sacrificando algo de precisión a cambio de una mayor robustez ante las irregularidades de los datos reales.

Los supuestos de la estadística paramétrica son estrictos y, a menudo, exigentes. Requiere que las variables tengan un nivel de medición de intervalo o razón, lo que permite operaciones aritméticas significativas. Además, exige homocedasticidad, es decir, que la varianza sea similar entre los grupos comparados. Si la población no es perfectamente normal, la media muestral puede verse distorsionada fácilmente por valores extremos. La fórmula de la media aritmética ilustra esta sensibilidad:

xˉ=n1i=1∑nxi

Un solo dato atípico puede desplazar drásticamente el resultado, arrastrando la conclusión del estudio. La estadística no paramétrica evita este problema al trabajar frecuentemente con rangos o medianas, ofreciendo una alternativa más flexible cuando los datos son ordinales o cuando la normalidad se ve comprometida por asimetrías marcadas.

Dato curioso: El término "no paramétrica" puede ser engañoso. No significa que no existan parámetros, sino que estos no dependen de una forma de distribución específica (como la curva de campana). Se centra en la posición relativa de los datos más que en su valor absoluto.

La elección entre uno u otro método implica un equilibrio entre potencia estadística y robustez. La potencia se refiere a la capacidad de detectar una diferencia real cuando esta existe. Las pruebas paramétricas suelen ser más potentes si se cumplen sus supuestos, pero pierden eficacia rápidamente si estos fallan. Las pruebas no paramétricas son más robustas, es decir, mantienen su validez incluso cuando los datos se comportan de manera "extraña", aunque a veces requieren muestras ligeramente más grandes para alcanzar el mismo nivel de significancia.

Característica	Estadística Paramétrica	Estadística No Paramétrica
Tipo de datos	Intervalo y Razón	Ordinal, Intervalo y Razón
Supuestos clave	Normalidad, homocedasticidad, independencia	Pocos supuestos; a menudo solo independencia
Potencia estadística	Alta (si se cumplen los supuestos)	Moderada (puede requerir muestras más grandes)
Robustez a valores atípicos	Baja (la media es sensible)	Alta (se basa en rangos o medianas)
Ejemplos de pruebas	Prueba t de Student, ANOVA, Correlación de Pearson	Muestras de Mann-Whitney, Kruskal-Wallis, Correlación de Spearman

En la práctica académica, no existe una regla absoluta que dicte el uso de una sobre otra. Sin embargo, si los datos provienen de una escala Likert (común en ciencias sociales), que es esencialmente ordinal, forzar una prueba paramétrica puede introducir errores sistemáticos. La flexibilidad de la no paramétrica permite analizar estos datos sin perder rigor, aunque se deba aceptar que se pierde información sobre la magnitud exacta de las diferencias. La consecuencia es directa: mayor seguridad en la conclusión, aunque con menor detalle cuantitativo.

Principales pruebas y métodos no paramétricos

Los métodos no paramétricos ofrecen alternativas robustas cuando los supuestos clásicos, como la normalidad o la homocedasticidad, resultan difíciles de sostener. En lugar de depender exclusivamente de la media y la varianza, muchas de estas pruebas se basan en la distribución de los rangos de los datos ordenados. Esta transformación reduce el impacto de los valores atípicos y permite analizar datos ordinales o continuos con colas pesadas.

Comparación de dos muestras

La elección entre dos pruebas fundamentales depende de si las observaciones están emparejadas o son independientes. La prueba U de Mann-Whitney es el estándar para comparar dos muestras independientes. Evalúa si una distribución tiende a presentar valores mayores que la otra. No asume una forma específica de la distribución, sino que compara las medianas subyacentes bajo la hipótesis de que las curvas tienen forma similar.

Cuando las muestras están apareadas, como en mediciones antes y después de un tratamiento sobre los mismos sujetos, se utiliza la prueba de la suma de rangos de Wilcoxon. Este método analiza las diferencias entre pares, asignando signos a esas diferencias y luego ordenando sus valores absolutos. Es más potente que la prueba de signos cuando se desea aprovechar la magnitud de la diferencia, no solo su dirección.

Dato curioso: Aunque llevan nombres distintos, la prueba de Wilcoxon para muestras independientes y la prueba U de Mann-Whitney son estadísticamente casi idénticas. La diferencia radica principalmente en la forma de calcular el estadístico, pero los valores p resultantes suelen ser muy similares.

Comparación de tres o más grupos

Para extender el análisis a tres o más grupos independientes, la prueba de Kruskal-Wallis actúa como la alternativa no paramétrica al análisis de varianza (ANOVA) de una vía. En lugar de comparar medias, compara las medianas de los grupos mediante la suma de sus rangos combinados. Un resultado significativo indica que al menos una de las distribuciones difiere de las demás, aunque no especifica cuál es la diferente sin pruebas post-hoc.

Otros métodos esenciales

La prueba de la media de signos es el método más sencillo para muestras pareadas. Solo cuenta cuántas diferencias son positivas y cuántas son negativas, ignorando su magnitud. Es útil cuando la escala de medición es débil o cuando hay muchos empates, aunque pierde potencia en comparación con Wilcoxon.

Finalmente, la prueba de bondad de ajuste de Chi-cuadrada permite evaluar si una variable categórica sigue una distribución teórica esperada. Compara las frecuencias observadas con las frecuencias esperadas mediante el siguiente estadístico:

χ2=∑Ei(Oi−Ei)2

Donde Oi representa la frecuencia observada y Ei la frecuencia esperada para cada categoría. Esta prueba es fundamental en la tabla de contingencia para verificar la independencia entre dos variables categóricas. Su aplicación es amplia en ciencias sociales y biología, donde los datos a menudo se agrupan en clases discretas más que en valores continuos precisos.

¿Cómo se calculan las pruebas no paramétricas?

Las pruebas no paramétricas no dependen de la distribución exacta de los datos, sino de su orden relativo. El núcleo de su cálculo es la transformación de los valores originales en rangos. Este proceso reduce la influencia de valores extremos y simplifica la estructura de la muestra.

Asignación de rangos y manejo de empates

El primer paso es ordenar todos los datos de menor a mayor. Luego, se asigna un número entero a cada observación. El valor más pequeño recibe el rango 1, el siguiente el 2, y así sucesivamente. Si hay valores iguales (empates), se les asigna la media aritmética de los rangos que ocuparían. Por ejemplo, si los valores 10 y 10 ocupan las posiciones 3 y 4, ambos reciben el rango 3.5. Esto mantiene la suma total de rangos constante.

Cálculo de la estadística de prueba

Una vez asignados los rangos, se calcula una estadística resumen. En la prueba de Wilcoxon-Mann-Whitney, por ejemplo, se suman los rangos de uno de los grupos. Esta suma refleja si un grupo tiende a tener valores mayores que el otro. El cálculo es directo: se toman los rangos del grupo de interés y se suman. No se necesita la media ni la desviación estándar original.

La fórmula para la suma de rangos del grupo A es:

WA=i∈A∑Ri

Donde Ri es el rango de la observación i en el grupo A. Este valor WA es la base para comparar con el valor esperado bajo la hipótesis nula.

Determinación del valor p

El valor p indica la probabilidad de obtener una estadística tan extrema como la observada, si la hipótesis nula fuera cierta. Para muestras pequeñas, se usan tablas críticas específicas de cada prueba. Estas tablas proporcionan el umbral significativo según el tamaño de la muestra y el nivel de confianza deseado.

Dato curioso: Las tablas originales de Wilcoxon fueron calculadas manualmente a finales de los años 1930, una hazaña computacional antes de la era digital.

Para muestras grandes (generalmente n > 20 por grupo), la distribución de la estadística de prueba se aproxima a una distribución normal. Esto permite usar la aproximación de Z. La fórmula estándariza la suma de rangos restando la media esperada y dividiendo por la desviación estándar.

Z=σWW−μW

Donde μW es la media esperada de la suma de rangos y σW es su desviación estándar. Este enfoque simplifica el cálculo y permite usar tablas normales estándar.

La precisión de esta aproximación mejora con el tamaño de la muestra. Sin embargo, en muestras muy pequeñas, la discreción de los rangos puede hacer que la aproximación normal sea menos exacta. En estos casos, la tabla crítica sigue siendo preferible. La elección del método depende del tamaño de la muestra y de la precisión requerida.

Ventajas, limitaciones y cuándo usarlas

La elección entre métodos paramétricos y no paramétricos define la solidez de un análisis. Ninguna técnica es universalmente superior; cada una responde a características específicas de los datos disponibles. Entender las ventajas y limitaciones permite seleccionar la herramienta adecuada para cada contexto de investigación.

Ventajas principales

Las pruebas no paramétricas destacan por su robustez frente a valores atípicos, conocidos como outliers. En una prueba paramétrica clásica, como la prueba t de Student, un solo dato extremo puede distorsionar la media y la varianza. Los métodos no paramétricos, al depender a menudo de la mediana o de los rangos, minimizan este impacto. La consecuencia es directa: los resultados son más estables cuando la distribución de los datos no es perfectamente simétrica.

Estos métodos son ideales para datos ordinales. Cuando los datos tienen un orden natural pero las distancias entre ellos no son necesariamente iguales, la media puede ser una medida engañosa. Ejemplos típicos incluyen escalas de satisfacción (de 1 a 5) o niveles educativos. Aquí, la mediana ofrece una representación más fiel que la media aritmética. Además, requieren menos supuestos que las pruebas paramétricas. No exigen necesariamente una distribución normal, lo que reduce el riesgo de errores al validar los datos.

Consejo práctico: La pérdida de potencia estadística es real, pero a menudo sobreestimada. En muchos casos prácticos, la diferencia entre una prueba paramétrica y su contraparte no paramétrica es menor de lo que sugieren los libros de texto antiguos. Sin embargo, si los datos cumplen estrictamente los supuestos paramétricos, ignorarlos implica dejar eficiencia sobre la mesa.

Limitaciones y costos

El principal inconveniente de las pruebas no paramétricas es la menor potencia estadística. La potencia se refiere a la capacidad de detectar un efecto real cuando este existe. Si los datos siguen una distribución normal y se aplica una prueba no paramétrica, se necesita una muestra más grande para alcanzar el mismo nivel de significancia que con una prueba paramétrica. Esta pérdida de eficiencia ocurre porque muchas pruebas no paramétricas transforman los valores originales en rangos. Al convertir valores a rangos, se descarta información sobre la magnitud exacta de las diferencias. Un valor de 100 y otro de 101 pueden tener el mismo rango si están seguidos, perdiendo la sutileza de la diferencia numérica.

Cuándo elegir cada método

La decisión debe basarse en el tipo de datos y el tamaño de la muestra. Para muestras pequeñas (menos de 30 observaciones), las pruebas no paramétricas suelen ser más seguras porque la normalidad es difícil de confirmar. Para muestras grandes, el Teorema del Límite Central hace que la media sea más robusta, permitiendo el uso de pruebas paramétricas con mayor confianza. Si los datos son ordinales o la distribución es muy sesgada, las pruebas no paramétricas son la opción lógica. La clave está en no forzar los datos en un molde que no encaja, sino adaptar la prueba a la naturaleza de la información recopilada.

Aplicaciones prácticas en investigación

Los métodos no paramétricos son esenciales cuando la suposición de normalidad de los datos se rompe, lo cual ocurre frecuentemente en la investigación empírica. A diferencia de las pruebas paramétricas, que exigen que los datos sigan una distribución específica (como la campana de Gauss), las pruebas no paramétricas se basan en el rango o la ordenación de los valores. Esta flexibilidad permite analizar datos que de otro modo quedarían excluidos del análisis cuantitativo riguroso.

Psicología y Ciencias Sociales

En psicología, las escalas de Likert (por ejemplo, de 1 a 5) son el estándar para medir actitudes. Aunque a menudo se tratan como datos continuos, técnicamente son datos ordinales: sabemos que "Muy de acuerdo" es mayor que "De acuerdo", pero no necesariamente que la distancia entre ambos es idéntica a la distancia entre "De acuerdo" y "Neutro".

Dato curioso: El uso masivo de la prueba de Mann-Whitney U en psicología se debe a que permite comparar dos grupos sin asumir que la diferencia media es significativa, sino que uno tiende a tener valores mayores que el otro.

La prueba de la mediana o la prueba de Wilcoxon son preferibles aquí. Si un investigador compara la satisfacción laboral antes y después de una intervención, usar la media aritmética puede ser engañoso si la distribución es sesgada. La mediana, al ser más robusta a valores atípicos, ofrece una medida central más estable para tomar decisiones clínicas o organizacionales.

Medicina y Tiempos de Recuperación

En ensayos clínicos, los tiempos de recuperación rara vez siguen una distribución normal perfecta. A menudo presentan una cola larga hacia la derecha: la mayoría de los pacientes se recuperan en 5 días, pero unos pocos tardan 20 o 30 días debido a complicaciones. Estos valores extremos (outliers) arrastran la media hacia arriba, distorsionando la percepción de la eficacia del tratamiento.

Para comparar dos tratamientos, los médicos utilizan la prueba de Mann-Whitney U. Esta prueba evalúa si la probabilidad de que un paciente del Grupo A tenga un tiempo de recuperación menor que uno del Grupo B es mayor al azar. La estadística U se calcula sumando los rangos de los datos combinados. Si los datos están empíricamente distribuidos, la potencia de la prueba se mantiene alta incluso con muestras pequeñas.

La fórmula para la aproximación normal de la estadística U, cuando las muestras son grandes (n > 20), es:

Z=σUU−μU

Donde μU es la media esperada y σU la desviación estándar bajo la hipótesis nula. Esto permite determinar la significancia estadística sin depender exclusivamente de la media aritmética, que podría estar sesgada por pacientes con recuperación lenta.

Economía y Distribuciones de Ingresos

En economía, la distribución de los ingresos es el ejemplo clásico de asimetría. La mayoría de la población gana ingresos moderados, mientras que una pequeña élite gana cantidades desproporcionadamente altas. Esta "cola larga" hace que la media sea mucho mayor que la mediana. Si se usa una prueba t de Student (paramétrica) sin ajustar, se puede subestimar la variabilidad real.

Los economistas utilizan pruebas como la de Kolmogorov-Smirnov para comparar dos distribuciones completas de ingresos entre regiones. Esta prueba mide la distancia máxima entre las funciones de distribución acumulada de dos muestras. Es particularmente útil cuando se quiere saber si la forma de la distribución ha cambiado, no solo su centro.

La estadística D de Kolmogorov-Smirnov se define como:

D=xsup∣F1(x)−F2(x)∣

Esta métrica captura diferencias en la dispersión y la asimetría, ofreciendo una visión más completa que la simple comparación de medias. En políticas públicas, entender esta diferencia es crucial para diseñar impuestos progresivos o subsidios efectivos.

La elección entre métodos paramétricos y no paramétricos no es arbitraria; depende de la naturaleza intrínseca de los datos. Ignorar la distribución subyacente puede llevar a conclusiones erróneas, especialmente cuando los datos presentan sesgos o valores atípicos significativos.

Ejercicios resueltos

La aplicación práctica de las pruebas no paramétricas requiere seguir un algoritmo estricto. A diferencia de las pruebas paramétricas, donde a menudo basta con calcular medias y varianzas, aquí el ordenamiento de los datos es fundamental. Los siguientes ejercicios demuestran cómo transformar datos brutos en una decisión estadística sólida.

Ejercicio 1: Prueba U de Mann-Whitney

Se desea comparar el tiempo de reacción (en segundos) de dos grupos de estudiantes ante un estímulo visual. El Grupo A tiene 4 estudiantes y el Grupo B tiene 5. Los datos son: Grupo A: {12, 15, 14, 18} y Grupo B: {13, 16, 11, 17, 20}. Se asume una hipótesis nula de que ambas distribuciones son iguales.

El primer paso es combinar ambas muestras y ordenarlas de menor a mayor, asignando rangos. Si hay empates, se promedian los rangos correspondientes. La combinación ordenada es: 11, 12, 13, 14, 15, 16, 17, 18, 20.

Asignamos los rangos:

11 (Grupo B): Rango 1
12 (Grupo A): Rango 2
13 (Grupo B): Rango 3
14 (Grupo A): Rango 4
15 (Grupo A): Rango 5
16 (Grupo B): Rango 6
17 (Grupo B): Rango 7
18 (Grupo A): Rango 8
20 (Grupo B): Rango 9

Calculamos la suma de rangos para cada grupo. Para el Grupo A: RA=2+4+5+8=19. Para el Grupo B: RB=1+3+6+7+9=26.

El estadístico U se calcula para cada grupo usando la fórmula U=n1n2+2n1(n1+1)−R1. Para el Grupo A (n1=4): UA=4×5+24×5−19=20+10−19=11. Para el Grupo B (n2=5): UB=4×5+25×6−26=20+15−26=9.

El valor del estadístico U es el mínimo de ambos: U=9. Para muestras pequeñas (n1=4, n2=5), consultamos una tabla de significancia. Si el valor crítico para α=0.05 es 3, como 9 > 3, no rechazamos la hipótesis nula. Los tiempos de reacción no difieren significativamente.

Nota práctica: La prueba de Mann-Whitney no compara medias directamente, sino la probabilidad de que un valor aleatorio de un grupo sea mayor que uno del otro. Esto la hace robusta ante valores atípicos.

Ejercicio 2: Prueba de Wilcoxon para muestras pareadas

Esta prueba evalúa si hay diferencias entre dos mediciones tomadas a los mismos sujetos. Supongamos que medimos el peso de 5 pacientes antes y después de una dieta. Las diferencias (Después - Antes) son: {-2, 0, 3, -1, 4}.

Primero, eliminamos las diferencias iguales a cero. El 0 se descarta, quedando con n=4 diferencias efectivas: {-2, 3, -1, 4}. Ahora ordenamos los valores absolutos de las diferencias y asignamos rangos:

|-1| = 1: Rango 1 (Signo negativo)
|-2| = 2: Rango 2 (Signo negativo)
|3| = 3: Rango 3 (Signo positivo)
|4| = 4: Rango 4 (Signo positivo)

Calculamos la suma de rangos positivos (W+=3+4=7. W−=1+2=3.

El estadístico W es el mínimo de ambas sumas: W=3. Con n=4, el valor crítico para α=0.05 (bicaudal) suele ser 0. Como 3 > 0, la diferencia no es estadísticamente significativa con este tamaño de muestra tan pequeño. La dieta no mostró un efecto claro en este grupo reducido.

Estos ejemplos ilustran la simplicidad mecánica de las pruebas no paramétricas. La clave está en no perder la pista de los signos y los rangos. Un error común es olvidar eliminar los ceros en Wilcoxon o malordenar los datos en Mann-Whitney. La verificación manual de los rangos ahorra tiempo al interpretar los resultados.

Preguntas frecuentes

¿Qué significa que un método sea "no paramétrico"?

Significa que el método no asume que los datos siguen una distribución específica (como la curva en campana o distribución normal) y que los parámetros poblacionales (como la media o la varianza) son fijos y conocidos. Se centra más en la forma y el orden de los datos que en sus valores exactos.

¿Cuándo debo usar la estadística no paramétrica en lugar de la paramétrica?

Debes usarla cuando tu muestra sea pequeña (generalmente menos de 30 observaciones), cuando los datos estén en escala ordinal (ej. "bajo", "medio", "alto") o nominal, o cuando haya valores atípicos extremos que distorsionen la media aritmética.

¿Es la prueba de Mann-Whitney U el equivalente no paramétrico de la prueba t de Student?

Sí, es el equivalente más común. Mientras la prueba t compara las medias de dos grupos, la prueba de Mann-Whitney U compara las medianas o la distribución general de dos grupos independientes para ver si uno tiende a tener valores mayores que el otro.

¿Pierdo información al usar métodos no paramétricos?

Sí, en cierta medida. Al convertir los datos a rangos (ordenarlos de menor a mayor), los valores extremos pierden parte de su peso numérico. Por ejemplo, un valor de 100 y uno de 1000 pueden tener el mismo rango si son los más altos, lo que reduce ligeramente el poder estadístico en comparación con las pruebas paramétricas si los supuestos se cumplen.

¿Se pueden usar estos métodos con datos cuantitativos continuos?

Sí, aunque se usan mucho con datos ordinales, también son muy efectivos con datos continuos (como la edad o el peso) cuando la distribución de estos datos es sesgada o tiene colas pesadas.

Resumen

La estadística no paramétrica ofrece herramientas esenciales para el análisis de datos cuando los supuestos tradicionales de normalidad y homogeneidad fallan. Métodos como la prueba de Mann-Whitney U, Wilcoxon y Kruskal-Wallis permiten comparar grupos y evaluar relaciones mediante el uso de rangos y medianas, garantizando resultados robustos incluso con muestras pequeñas o datos atípicos.

Aunque pueden tener ligeramente menos poder estadístico que las pruebas paramétricas en condiciones ideales, su flexibilidad y facilidad de interpretación las convierten en una opción preferente en diversas disciplinas, desde la psicología hasta la biología, asegurando que la inferencia estadística no se vea sesgada por la rigidez de los supuestos distribucionales.