Estadística no paramétrica

La estadística no paramétrica es un conjunto de métodos estadísticos que no dependen de supuestos fijos sobre la distribución de los datos, como la normalidad o la homogeneidad de varianzas. A diferencia de sus contrapartes paramétricas, estas técnicas son más flexibles y se basan frecuentemente en los rangos de los valores observados o en la frecuencia de aparición de categorías, lo que las convierte en herramientas esenciales cuando el tamaño de la muestra es pequeño o cuando la variable estudiada sigue una distribución desconocida.

Estos métodos son fundamentales en campos como la biología, la psicología y las ciencias sociales, donde los datos raramente se ajustan perfectamente a una curva de campana ideal. Al reducir la dependencia de parámetros poblacionales específicos, la estadística no paramétrica ofrece una robustez que permite tomar decisiones válidas incluso cuando los datos presentan valores atípicos o siguen una distribución sesgada.

Definición y concepto

La estadística no paramétrica constituye un conjunto de métodos de análisis de datos que no dependen de supuestos estrictos sobre la distribución de la población subyacente. A diferencia de la estadística paramétrica tradicional, que exige que los datos sigan una distribución específica, generalmente la distribución normal o gaussiana, los métodos no paramétricos ofrecen mayor flexibilidad. Esta característica los convierte en herramientas esenciales cuando los datos reales se desvían de la idealización teórica o cuando el tamaño de la muestra es limitado.

Diferencias fundamentales con la estadística paramétrica

El núcleo de la distinción radica en los supuestos. La estadística parimétrica asume que los datos provienen de una población definida por un número fijo de parámetros desconocidos, como la media ( $μ$ ) y la varianza ( $σ^{2}$ ). Si estos parámetros cambian drásticamente o si la forma de la distribución no es conocida, las pruebas paramétricas pueden perder potencia o incluso resultar en errores de tipo I o II.

Los métodos no paramétricos, a menudo llamados "libres de distribución", minimizan estos supuestos. No intentan estimar parámetros de la población directamente, sino que se centran en la forma general de los datos, sus rangos o sus frecuencias. Esto implica que, aunque puedan ser ligeramente menos potentes que sus contrapartes paramétricas cuando los supuestos se cumplen perfectamente, son mucho más robustos ante valores atípicos y asimetrías.

Supuestos básicos y escalas de medición

A pesar de su nombre, la estadística no paramétrica no está exenta de supuestos. Los más críticos incluyen:

Independencia de las observaciones: Cada dato debe ser independiente de los demás, salvo en diseños específicos como las pruebas de pares.
Escala de medición: Funcionan eficazmente con datos de escala ordinal (donde el orden importa, pero no necesariamente la distancia entre valores) o continua. También son útiles para datos nominales en pruebas de bondad de ajuste.
Homocedasticidad relativa: En algunas pruebas, como la de Mann-Whitney U, se asume que las distribuciones de los grupos comparados tienen formas similares, aunque no necesariamente normales.

La robustez de estos métodos surge de su capacidad para transformar datos brutos en rangos. Por ejemplo, en lugar de usar el valor absoluto de una variable, se asigna un puesto basado en su orden ascendente. Esta transformación reduce el impacto de valores extremos que podrían distorsionar la media aritmética, que es la base de muchas pruebas paramétricas.

Dato curioso: El término "no paramétrico" puede ser engaño. En realidad, muchos de estos métodos son "poco paramétricos" o "libres de distribución", ya que a menudo asumen una distribución continua subyacente, pero no especifican cuál es exactamente.

La elección entre un enfoque paramétrico o no paramétrico depende del contexto del estudio. Si los datos presentan una fuerte asimetría o si la muestra es pequeña (inferior a 30 observaciones, según la regla general del Teorema del Límite Central), los métodos no paramétricos suelen ofrecer una inferencia más fiable. La consecuencia es directa: mayor fiabilidad en datos "sucios" o complejos, a cambio de una pérdida mínima de información cuantitativa.

Historia y evolución del método

El desarrollo de la estadística no paramétrica no fue lineal. Durante el siglo XIX, la distribución normal de Gauss dominaba casi todo, pero la realidad empírica a menudo se resistía a su simetría perfecta. El punto de inflexión llegó en 1900, cuando Karl Pearson introdujo la prueba de bondad de ajuste Chi-cuadrado. Esta herramienta permitió evaluar si una muestra provenía de una distribución específica sin depender exclusivamente de la media y la varianza, sentando las bases para cuestionar el reinado absoluto de los parámetros.

El verdadero auge, sin embargo, ocurrió durante el siglo XX, impulsado por la necesidad de comparar grupos cuando los datos eran escasos o los supuestos de normalidad eran frágiles. En este contexto, Frank Wilcoxon emergió como una figura clave. En 1932, publicó un artículo seminal en la revista Biometrika presentando una prueba de rangos para muestras emparejadas. Wilcoxon buscaba una alternativa robusta a la prueba t de Student, especialmente útil cuando los datos seguían una distribución leptocúrtica (con colas más pesadas). Su enfoque era elegante: en lugar de usar los valores brutos, se ordenaban por tamaño. Esta simpleza encubría una potencia estadística considerable, aunque su adopción fue lenta debido a la complejidad de calcular los rangos a mano.

La consolidación con Mann, Whitney y Kruskal

La metodología de Wilcoxon no permaneció estática. En 1945, Henry Mann y Donald Whitney propusieron una prueba para muestras independientes que, aunque matemáticamente equivalente a la prueba de suma de rangos de Wilcoxon, ofrecía una interpretación más intuitiva basada en la probabilidad de que un valor de un grupo fuera mayor que uno del otro. Poco después, en 1951, William Kruskal y Wallis extendieron el concepto a más de dos grupos, creando lo que se conoce como la prueba ANOVA de rangos. Estos avances permitieron a los investigadores analizar datos ordinales y continuos sin depender tan estrictamente de la media aritmética.

La fórmula de la prueba Chi-cuadrado de Pearson, fundamental para entender la desviación entre lo observado y lo esperado, se expresa como:

χ^{2} = i = 1 \sum k \frac{( O _{i} - E _{i} ) ^{2}}{E _{i}}

Donde O_i representa la frecuencia observada y E_i la frecuencia esperada bajo la hipótesis nula.

Dato curioso: Antes de la era digital, calcular una prueba de Wilcoxon para 30 observaciones podía llevar horas de trabajo manual. Los investigadores a menudo usaban tablas extensas impresas en los márgenes de los artículos científicos para ahorrar tiempo.

La revolución computacional

A pesar de su robustez, la estadística no paramétrica sufrió de una etiqueta de "segunda clase" durante décadas. La razón era práctica: los cálculos eran tediosos. Con el advenimiento de la computación en las décadas de 1980 y 1990, esta barrera se derrumbó. Los ordenadores podían ordenar miles de datos en milisegundos, haciendo que las pruebas basadas en rangos fueran casi tan rápidas de calcular que las paramétricas.

Esto permitió el auge de métodos aún más flexibles, como la prueba de la media aleatorizada (permutaciones), que depende casi enteramente de la potencia de procesamiento. Hoy en día, la elección entre un método paramétrico y no paramétrico depende menos de la comodidad del cálculo y más de la estructura subyacente de los datos y la hipótesis específica que se desea contrastar. La evolución histórica muestra un viaje desde la simplicidad teórica hacia la potencia práctica impulsada por la tecnología.

¿Qué diferencia a la estadística no paramétrica de la paramétrica?

La distinción fundamental entre ambos enfoques radica en qué tan estricto es el modelo sobre la "forma" de la distribución de los datos. La estadística paramétrica asume que los datos provienen de una distribución específica (generalmente la normal) definida por un número finito de parámetros. La no paramétrica relaja estas exigencias, dependiendo más de la ordenación de los valores que de su magnitud exacta.

El equilibrio entre potencia y robustez

Al elegir un método, se negocia entre precisión y flexibilidad. La potencia estadística es la capacidad de detectar una diferencia real cuando existe. Las pruebas paramétricas suelen tener mayor potencia si se cumplen sus supuestos, porque utilizan toda la información numérica de los datos. Sin embargo, si la distribución de los datos se desvía de lo esperado, esa ventaja se desvanece.

La robustez es la capacidad de mantener la validez ante pequeñas desviaciones. Las pruebas no paramétricas son más robustas a valores atípicos (outliers) y a asimetrías. Si tienes datos muy "sucios" o con colas largas, la no paramétrica ofrece una seguridad mayor, aunque a costa de perder algo de sensibilidad para detectar efectos sutiles.

Dato curioso: Muchas pruebas no paramétricas son llamadas "de rangos". Esto significa que convierten los valores originales en su posición ordenada. El valor más pequeño es 1, el siguiente 2, y así sucesivamente. La magnitud exacta importa menos que el orden relativo.

Ejemplo práctico: Prueba t vs. Mann-Whitney

Imagina que comparas las notas de dos clases de matemáticas. Si las notas están distribuidas en una curva de campana simétrica y ambas clases tienen una variabilidad similar, la prueba t de Student es eficiente. Usa la media y la varianza de cada grupo para calcular la diferencia.

En cambio, si una clase tiene un estudiante genio con nota perfecta y otro con una nota reidora, la media se distorsiona. Aquí, la prueba U de Mann-Whitney resulta más adecuada. No compara las medias directamente, sino que evalúa si un valor elegido al azar de la Clase A tiende a ser mayor que uno de la Clase B. Es una comparación de probabilidades basada en la ordenación.

Característica	Estadística Paramétrica	Estadística No Paramétrica
Supuestos principales	Distribución conocida (ej. Normalidad), homocedasticidad (varianzas iguales).	Distribución libre (poca estructura), independencia de observaciones.
Tipo de datos	Escala de intervalo o razón (ej. peso, altura).	Ordinal (ej. nivel de satisfacción) o intervalo con outliers.
Potencia estadística	Mayor potencia si los supuestos se cumplen.	Ligeramente menor potencia si los datos son perfectamente normales.
Robustez	Sensible a valores atípicos y asimetrías.	Muy resistente a valores atípicos y formas de distribución extrañas.
Ejemplos de pruebas	Prueba t de Student, ANOVA, Regresión lineal simple.	Prueba U de Mann-Whitney, Prueba de Kruskal-Wallis, Prueba de Wilcoxon.

La elección no es solo técnica, sino contextual. Si el costo de cometer un error tipo I (falso positivo) es alto y los datos son limpios, la paramétrica gana. Si los datos provienen de escalas subjetivas o muestras pequeñas con formas inciertas, la no paramétrica ofrece una defensa sólida contra las sorpresas de la distribución.

Pruebas no paramétricas más utilizadas

Las pruebas no paramétricas son herramientas estadísticas que permiten analizar datos sin asumir necesariamente una distribución normal subyacente, lo que las hace ideales para conjuntos de datos pequeños o con valores atípicos. A diferencia de las pruebas paramétricas clásicas, como la prueba t de Student, estas técnicas suelen basarse en los rangos de los datos o en las frecuencias observadas. Esto reduce la influencia de los valores extremos y aumenta la robustez del análisis.

Prueba de los signos y Wilcoxon

La prueba de los signos es una de las formas más simples de comparar dos muestras emparejadas. Su mecanismo se basa en contar cuántas veces una observación es mayor que la otra, ignorando el tamaño de la diferencia. Es útil cuando el orden importa más que la magnitud exacta.

La prueba de Wilcoxon para muestras pareadas ofrece mayor potencia al considerar tanto el signo como la magnitud de las diferencias. Se calculan las diferencias entre pares, se ordenan por valor absoluto (rangos) y se suman los rangos de las diferencias positivas y negativas. El estadístico resultante depende de la suma menor de estos rangos. Es el equivalente directo a la prueba t para datos no normales.

Por otro lado, la prueba de Wilcoxon de sumas de rangos (a menudo confundida con Mann-Whitney U) se utiliza para comparar dos muestras independientes. Ambos grupos se combinan y se ordenan de menor a mayor. Se suman los rangos de cada grupo por separado. Si las dos poblaciones son similares, las sumas de rangos deberían ser cercanas entre sí.

Mann-Whitney U y Kruskal-Wallis

La prueba de Mann-Whitney U es estadísticamente equivalente a la prueba de Wilcoxon de sumas de rangos para dos muestras independientes, aunque el cálculo del estadístico U es ligeramente diferente. Se utiliza para determinar si dos poblaciones independientes tienen la misma distribución. Es especialmente útil cuando los datos son ordinales o cuando la variable continua tiene una distribución asimétrica.

Cuando se necesitan comparar tres o más grupos independientes, se emplea la prueba de Kruskal-Wallis. Esta prueba es la extensión no paramétrica del análisis de varianza (ANOVA) de una vía. En lugar de comparar medias, compara las medianas de los grupos. Se ordenan todos los datos de los grupos juntos y se calcula la suma de rangos para cada grupo. Un valor alto del estadístico H indica que al menos uno de los grupos tiende a tener valores mayores que los demás.

Chi-cuadrado de independencia

La prueba de Chi-cuadrado de independencia evalúa si existe una relación significativa entre dos variables categóricas. Se organiza la información en una tabla de contingencia que muestra las frecuencias observadas. Luego, se calculan las frecuencias esperadas bajo la hipótesis de que las variables son independientes.

El estadístico se obtiene sumando las diferencias al cuadrado entre las frecuencias observadas y esperadas, divididas por las frecuencias esperadas. La fórmula general es:

χ^{2} = \sum \frac{( O _{i} - E _{i} ) ^{2}}{E _{i}}

Donde $O_{i}$ representa la frecuencia observada y $E_{i}$ la frecuencia esperada. Un valor alto de Chi-cuadrado sugiere que las diferencias entre lo observado y lo esperado son grandes, lo que lleva a rechazar la hipótesis de independencia.

Dato curioso: Aunque la prueba de Chi-cuadrado fue desarrollada por Karl Pearson a finales del siglo XIX, su aplicación más famosa en la genética fue utilizada por Gregor Mendel para validar sus leyes de herencia, aunque algunos estadísticos modernos han debatido si sus datos eran "demasiado buenos para ser ciertos".

La elección de la prueba adecuada depende del diseño del estudio y del nivel de medición de las variables. Es fundamental verificar los supuestos de cada prueba para evitar errores de tipo I o II. La interpretación correcta de estos resultados permite tomar decisiones fundamentadas incluso cuando los datos no siguen una distribución perfecta.

¿Cómo se calculan las pruebas de rangos?

Las pruebas no paramétricas no analizan los valores brutos directamente, sino su posición relativa dentro del conjunto de datos. Este proceso de transformación convierte las mediciones originales en una secuencia ordenada, lo que reduce el peso de los valores extremos y simplifica la distribución subyacente. El primer paso consiste en ordenar todas las observaciones de menor a mayor, independientemente de si pertenecen al grupo A o al grupo B.

Una vez ordenados, se asigna un número entero a cada posición. El valor más pequeño recibe el rango 1, el siguiente el 2, y así sucesivamente hasta llegar al tamaño total de la muestra. Esta numeración es la base de casi todas las pruebas de rangos, como la prueba de Mann-Whitney U o la de Wilcoxon.

Manejo de empates y la media arrollada

La complejidad surge cuando dos o más observaciones tienen exactamente el mismo valor. A este fenómeno se le llama "empate" o "ex aequo". Si se asignara el mismo número a ambos, se perdería información sobre el tamaño de la muestra. Para resolverlo, se utiliza la media arrollada.

El procedimiento es mecánico: se identifican las posiciones que ocupan los valores iguales y se calcula el promedio de esas posiciones. Este promedio se asigna a cada uno de los valores empatados. Esto asegura que la suma total de los rangos siga siendo coherente con el tamaño de la muestra.

Dato curioso: En conjuntos de datos muy grandes con pocos empates, la corrección por empates puede parecer mínima, pero en muestras pequeñas, un solo empate puede cambiar drásticamente el valor del estadístico final.

Ejemplo numérico de asignación

Consideremos una muestra pequeña de cinco datos: [10, 20, 20, 30, 40]. Al ordenarlos, vemos que los valores 20 aparecen dos veces. Ocupan las posiciones 2 y 3 en la secuencia ordenada. Para calcular su rango, sumamos las posiciones (2 + 3 = 5) y dividimos por el número de valores empatados (2).

El cálculo es:

Rango del empate = \frac{2 + 3}{2} = 2.5

Por lo tanto, ambos valores de 20 reciben el rango 2.5. El valor 10, al ser el primero, tiene rango 1. El valor 30, al ser el cuarto, tiene rango 4. El valor 40, al ser el quinto, tiene rango 5. La secuencia de rangos resultante es [1, 2.5, 2.5, 4, 5].

Lógica de la suma de rangos

La potencia de estas pruebas reside en la suma de estos rangos. Si dos grupos son similares, sus rangos deberían estar mezclados de forma homogénea. Si un grupo tiende a tener valores mayores, sus rangos serán sistemáticamente más altos. La suma de rangos resume esta tendencia en un solo número.

Para verificar la consistencia, la suma total de todos los rangos en una muestra de tamaño $n$ debe cumplir con una fórmula específica. Esta suma teórica sirve como punto de referencia para evaluar si la suma observada en un grupo es significativamente mayor o menor de lo esperado por azar.

La suma total de los rangos $R_{t o t a l}$ se calcula como:

R_{t o t a l} = \frac{n ( n + 1 )}{2}

En nuestro ejemplo anterior con $n = 5$ , la suma teórica es $\frac{5 ( 6 )}{2} = 15$ . Si sumamos nuestros rangos asignados: $1 + 2.5 + 2.5 + 4 + 5 = 15$ . La coincidencia confirma que la asignación fue correcta. Este control es fundamental antes de aplicar el estadístico de prueba final.

La consecuencia es directa: al trabajar con rangos, se reduce la influencia de las "colas" de la distribución. Un valor atípicamente alto no distorsiona el resultado tanto como lo haría en una prueba paramétrica clásica, donde el valor bruto podría ser enorme. Esta robustez es la principal ventaja de la transformación a rangos.

Aplicaciones prácticas en ciencias sociales y biología

La suposición de normalidad, central en muchas pruebas paramétricas, suele ser una idealización que choca con la realidad empírica. En las ciencias sociales y biológicas, los datos rara vez se comportan como la "campana de Gauss" perfecta. Esta desviación no es un error de medición, sino una característica inherente a los fenómenos estudiados, lo que convierte a la estadística no paramétrica en una herramienta indispensable para la inferencia robusta.

Datos ordinales y escalas de medición

En psicología y sociología, la dependencia de escalas Likert (por ejemplo, de "Muy de acuerdo" a "Muy en desacuerdo) genera datos ordinales. Aunque a menudo se tratan como intervalos, la distancia entre "Neutral" y "De acuerdo" no es necesariamente igual a la que hay entre "De acuerdo" y "Muy de acuerdo". Aplicar una prueba t de Student aquí puede ser arbitrario.

Debate actual: ¿Deben tratarse las escalas de 5 o 7 puntos como datos continuos o discretos? La respuesta depende del tamaño de la muestra y de la distribución subyacente, pero el riesgo de sobreinterpretación es alto si se ignora la naturaleza ordinal.

La prueba de Mann-Whitney U o la de Wilcoxon son alternativas más seguras porque se basan en los rangos de los datos, no en sus valores absolutos. Esto reduce la influencia de valores atípicos y permite comparar medianas en lugar de medias, ofreciendo una visión más clara de la tendencia central en distribuciones asimétricas.

Supervivencia y tiempos hasta el evento

En biología y medicina, el análisis de supervivencia es fundamental para entender cuánto tiempo transcurre hasta que ocurre un evento específico, como la muerte de un paciente o la recurrencia de una enfermedad. Los datos de supervivencia presentan dos desafíos únicos: la censura (cuando el paciente abandona el estudio antes del evento) y la asimetría (muchos pacientes sobreviven poco tiempo, otros muchos años).

La curva de Kaplan-Meier es el estándar para estimar la función de supervivencia. No asume una distribución subyacente específica, lo que la hace extremadamente flexible. La estimación de la probabilidad de supervivencia en el tiempo t se calcula como:

\hat{S} (t) = t_{i} \leq t \prod (1 - \frac{d _{i}}{n _{i}})

Donde $d_{i}$ es el número de eventos en el tiempo $t_{i}$ y $n_{i}$ es el número de individuos en riesgo en ese momento. Esta fórmula multiplica las probabilidades de supervivencia en cada instante crítico, ajustándose dinámicamente a los datos observados.

Asimetría en economía y biología

Los ingresos en economía siguen frecuentemente una distribución de colas pesadas, como la distribución de Pareto o Log-Normal. Un pequeño porcentaje de individuos concentra una gran parte de la riqueza, lo que desplaza la media hacia la derecha y la hace menos representativa que la mediana. Ignorar esta asimetría lleva a errores sistemáticos en la toma de decisiones políticas y empresariales.

En biología, el tamaño de las poblaciones de especies o la abundancia de especies en un ecosistema también muestran esta tendencia. La prueba de Kolmogorov-Smirnov permite comparar dos distribuciones empíricas sin asumir normalidad, evaluando la máxima distancia entre sus funciones de distribución acumulada. Esta capacidad de adaptación hace que los métodos no paramétricos sean más que un recurso secundario: son a menudo la opción principal para capturar la complejidad de los datos reales.

Ventajas, limitaciones y críticas

Las técnicas no paramétricas no son una panacea universal, sino herramientas específicas diseñadas para sobrevivir cuando los datos se comportan de manera caprichosa. Su mayor fortaleza radica en la robustez. A diferencia de los métodos clásicos, que exigen que los datos sigan una distribución normal (la famosa campana de Gauss), los métodos no paramétricos toleran colas pesadas, valores atípicos y asimetrías. Esta flexibilidad los hace ideales para datos ordinales, donde la distancia entre "muy bueno" y "bueno" no es necesariamente igual a la distancia entre "bueno" y "regular".

La simplicidad de los supuestos facilita la interpretación en campos como la psicología o la sociología. Sin embargo, esta libertad tiene un precio. La principal limitación es la pérdida de potencia estadística. Cuando los supuestos paramétricos se cumplen realmente, las pruebas no paramétricas suelen ser menos eficientes. Esto significa que, para detectar el mismo efecto con la misma certeza, se necesita una muestra más grande. Al convertir valores brutos en rangos, se descarta información numérica detallada. Un valor de 100 y uno de 101 pueden tener el mismo rango, perdiendo así la magnitud de la diferencia.

Debate actual: ¿Es la prueba t de Student demasiado robusta como para necesitar siempre la alternativa no paramétrica? Muchos estadísticos argumentan que, gracias al Teorema del Límite Central, la prueba t resiste bien las desviaciones de la normalidad en muestras grandes, cuestionando la necesidad sistemática de usar la prueba de Mann-Whitney U.

Esta discusión refleja un cambio en la práctica estadística moderna. Históricamente, se prefería la no paramétrica por seguridad. Hoy, con el auge de la potencia de cálculo, se comparan directamente la eficiencia y la potencia. Si los datos son métricos y la distribución no es extremadamente sesgada, la prueba t puede ofrecer mayor poder para detectar diferencias sutiles. La elección ya no es automática, sino estratégica.

La consecuencia es directa: el estadístico debe analizar la distribución antes de elegir. No se trata solo de comodidad, sino de precisión. Ignorar la potencia estadística puede llevar a errores de segundo tipo, donde se considera que dos grupos son iguales cuando en realidad difieren. Por otro lado, forzar un modelo paramétrico sobre datos muy sesgados puede inflar los errores de primer tipo. El equilibrio requiere juicio crítico, no solo aplicar la fórmula que parece más sencilla.

Ejercicios resueltos

Ejemplo 1: Comparación de dos muestras independientes (Mann-Whitney U)

Se desea evaluar si un nuevo fármaco reduce más el tiempo de recuperación que el estándar. Se midió el tiempo (en días) en dos grupos pequeños: Grupo A (nuevo, n=5): 3, 4, 5, 7, 8. Grupo B (estándar, n=5): 6, 7, 9, 10, 12.

La hipótesis nula establece que las medianas de ambos grupos son iguales. La alternativa es que difieren. Se ordenan todos los datos juntos y se asignan rangos:

3 (A, R1), 4 (A, R2), 5 (A, R3), 6 (B, R4), 7 (A, R5.5), 7 (B, R5.5), 8 (A, R7), 9 (B, R8), 10 (B, R9), 12 (B, R10). Nota: los empates en 7 comparten el rango promedio (5+6)/2 = 5.5.

Se suman los rangos de cada grupo. Para el Grupo A: 1 + 2 + 3 + 5.5 + 7 = 18.5. Para el Grupo B: 4 + 5.5 + 8 + 9 + 10 = 36.5. Verificación: 18.5 + 36.5 = 55, que coincide con la suma de rangos totales.

El estadístico U se calcula para cada grupo. Para A: $U_{A} = n_{A} n_{B} + \frac{n _{A} ( n _{A} + 1 )}{2} - R_{A}$ . Sustituyendo: $U_{A} = 25 + 15 - 18.5 = 21.5$ . Para B: $U_{B} = 25 + 15 - 36.5 = 3.5$ .

El valor de prueba es el menor de ambos: U = 3.5. Para n1=5 y n2=5 con un nivel de significancia del 5%, el valor crítico de las tablas es 2. Como 3.5 > 2, no se rechaza la hipótesis nula. La diferencia no es estadísticamente significativa con esta muestra pequeña.

Ejemplo 2: Muestras pareadas (Prueba de signos)

Se mide el peso de 6 pacientes antes y después de una dieta. Las diferencias (Después - Antes) son: -2, -1, 0, +3, -4, +1. Queremos saber si el peso disminuyó significativamente.

La hipótesis nula indica que la mediana de las diferencias es cero. Se ignoran los ceros. Quedan 5 diferencias no nulas. Se cuentan los signos positivos y negativos. Signos positivos (+): 2 (los valores +3 y +1). Signos negativos (-): 3 (los valores -2, -1, -4).

El estadístico S es el menor de las frecuencias de signos. Aquí, S = 2. El número de pares efectivos es N = 5. Para una prueba bilateral con N=5 y un nivel del 5%, el valor crítico es 0. Esto significa que para rechazar la nula, uno de los signos debe aparecer 0 veces.

Como S = 2 es mayor que el valor crítico de 0, no se rechaza la hipótesis nula. Aunque hay más signos negativos, la muestra es muy pequeña para afirmar con un 95% de confianza que la dieta funciona. La evidencia sugiere una tendencia, pero no es concluyente estadísticamente.

Dato curioso: La prueba de signos es la más antigua de las pruebas no paramétricas. Se usaba incluso antes de que se formalizara la prueba de Wilcoxon, simplemente contando qué lado "ganaba" en las diferencias.

Es fundamental recordar que el poder estadístico de estas pruebas aumenta con el tamaño de la muestra. Con solo 5 o 6 datos, es difícil detectar diferencias sutiles.

Preguntas frecuentes

¿Cuándo debo usar estadística no paramétrica en lugar de la paramétrica?

Debes utilizar métodos no paramétricos cuando tus datos no siguen una distribución normal, cuando el tamaño de la muestra es pequeño (generalmente menos de 30 observaciones) o cuando la variable es de tipo ordinal o nominal. También son ideales cuando hay valores atípicos extremos que podrían distorsionar la media en una prueba paramétrica.

¿Qué significa que una prueba sea "robusta"?

Una prueba es robusta cuando sus resultados siguen siendo válidos incluso si uno de los supuestos originales (como la normalidad) se desvía ligeramente. Las pruebas no paramétricas suelen ser más robustas porque se basan en la posición relativa de los datos (rangos) más que en su valor absoluto.

¿Pierdo mucha información al convertir datos en rangos?

Al convertir valores en rangos, se pierde algo de información sobre la magnitud exacta de las diferencias entre observaciones. Sin embargo, esta pérdida suele ser menor que el error introducido por una mala suposición de distribución en las pruebas paramétricas, especialmente con muestras pequeñas.

¿Es la prueba de Mann-Whitney equivalente a la prueba t de Student?

Sí, la prueba de Mann-Whitney U es considerada la alternativa no paramétrica directa a la prueba t de Student para dos muestras independientes. Mientras la prueba t compara medias, Mann-Whitney compara las medianas o las distribuciones generales de los dos grupos.

¿Se pueden usar estas pruebas con datos cuantitativos continuos?

Sí, aunque son muy populares con datos ordinales (como escalas de Likert), las pruebas no paramétricas funcionan perfectamente con datos cuantitativos continuos, especialmente cuando la suposición de normalidad (distribución de Gauss) parece forzada.

Resumen

La estadística no paramétrica ofrece un enfoque flexible para el análisis de datos al minimizar los supuestos sobre la distribución poblacional, lo que la hace ideal para muestras pequeñas o datos con valores atípicos. Métodos como la prueba de Mann-Whitney, Wilcoxon y Kruskal-Wallis permiten comparar medianas y distribuciones mediante el uso de rangos, proporcionando resultados robustos en campos como la biología y las ciencias sociales.

Aunque implican una ligera pérdida de información al transformar valores en posiciones relativas, estas pruebas evitan errores comunes asociados con la suposición de normalidad. Su aplicación correcta requiere entender cuándo la flexibilidad supera a la potencia estadística de los métodos clásicos, asegurando conclusiones válidas incluso en condiciones de incertidumbre.