Estadística bayesiana

Definición y concepto

La estadística bayesiana se define como un subconjunto del campo de la estadística donde la evidencia sobre el verdadero estado del mundo se expresa en términos de grados de creencia o, más específicamente, las probabilidades bayesianas. Esta aproximación difiere de otras técnicas estadísticas que no se basan en "grados de creencia", ofreciendo una interpretación particular dentro de la serie de interpretaciones existentes de la probabilidad. Al adoptar esta perspectiva, los parámetros desconocidos se tratan como variables aleatorias, lo que permite cuantificar la incertidumbre mediante distribuciones de probabilidad actualizables a medida que nueva evidencia se incorpora al modelo.

Interpretación de la probabilidad y grados de creencia

La interpretación bayesiana de la probabilidad es solo una de varias interpretaciones disponibles en el ámbito estadístico. Mientras que otras técnicas pueden depender de frecuencias relativas o enfoques frecuentistas, la estadística bayesiana se fundamenta en la noción de grados de creencia. Esto significa que la probabilidad refleja el nivel de confianza o certeza que un observador tiene sobre un evento o parámetro, dada la información disponible. Tal interpretación permite una flexibilidad significativa al modelar la incertidumbre, ya que los grados de creencia pueden actualizarse de manera coherente cuando se obtienen nuevos datos, integrando así la evidencia previa con la información reciente.

Formulación de distribuciones previas y modelado

Un aspecto central de la estadística bayesiana es la necesidad de formular distribuciones previas para los parámetros desconocidos, incluyendo hiper-parámetros. Estas distribuciones previas representan el conocimiento o la incertidumbre inicial sobre los parámetros antes de observar los datos. La inclusión de hiper-parámetros permite una mayor flexibilidad en el modelado, ya que estos parámetros adicionales pueden capturar características específicas de las distribuciones previas. El proceso de actualización de estas distribuciones mediante la evidencia observada es fundamental para la inferencia bayesiana, permitiendo una estimación más precisa y adaptativa de los parámetros de interés.

¿Qué diferencia a la inferencia bayesiana de la frecuentista?

La inferencia bayesiana constituye un enfoque metodológico distinto al frecuentista, diferenciándose fundamentalmente en cómo interpreta y utiliza la probabilidad para resumir las pruebas disponibles. Mientras que otras técnicas estadísticas pueden basarse en frecuencias a largo plazo o repeticiones ideales, la estadística bayesiana se fundamenta en la expresión de la evidencia sobre el verdadero estado del mundo mediante grados de creencia o probabilidades bayesianas. Esta interpretación específica de la probabilidad permite tratar los parámetros desconocidos no como fijos, sino como variables aleatorias sujetas a actualización conforme se incorporan nuevos datos.

Comparación conceptual de enfoques

La tabla siguiente resume las diferencias estructurales entre ambos enfoques basándose en las definiciones proporcionadas. La clave de la distinción radica en la naturaleza de la evidencia y el tratamiento de los parámetros.

Característica	Inferencia Bayesiana	Otros enfoques (ej. Frecuentista)
Interpretación de la probabilidad	Grados de creencia o probabilidades bayesianas.	Otras interpretaciones (no basadas en grados de creencia).
Expresión de la evidencia	Evidencia sobre el verdadero estado del mundo expresada en términos de grados de creencia.	Resumen de pruebas basado en otras técnicas estadísticas.
Tratamiento de parámetros	Requiere la formulación de distribuciones previas para los parámetros desconocidos.	Parámetros tratados sin necesidad de distribuciones previas explícitas (según el contexto de otras técnicas).
Componentes adicionales	Incluye la consideración de hiper-parámetros en las distribuciones previas.	No necesariamente requiere la estructuración jerárquica de hiper-parámetros.

La necesidad de formular distribuciones previas para los parámetros desconocidos, incluyendo sus hiper-parámetros, es un requisito central en el marco bayesiano. Esto implica que el análisis comienza con un estado inicial de conocimiento o incertidumbre que se actualiza con los datos observados. En contraste, las técnicas estadísticas que no se basan en "grados de creencia" utilizan mecanismos diferentes para resumir las pruebas, a menudo dependiendo de propiedades asintóticas o de la frecuencia de ocurrencia en muestras repetidas, sin incorporar explícitamente una creencia previa cuantificada sobre el estado del mundo.

Modelado estadístico y distribuciones previas

El modelado estadístico bayesiano se distingue fundamentalmente por su enfoque en la cuantificación de la incertidumbre a través de grados de creencia. A diferencia de otros enfoques estadísticos que pueden tratar los parámetros como fijos pero desconocidos, la estadística bayesiana requiere la formulación explícita de distribuciones previas para los parámetros desconocidos. Esta característica única implica que antes de observar cualquier dato, el analista debe expresar su conocimiento o ignorancia inicial sobre los parámetros del modelo mediante una distribución de probabilidad. Esta distribución previa captura la incertidumbre inherente al estado del mundo antes de la recolección de evidencia empírica.

Integración de distribuciones previas y parámetros

La integración de estas distribuciones en el modelo estadístico permite una actualización sistemática del conocimiento a medida que llegan nuevos datos. Los parámetros desconocidos no son valores puntuales estáticos, sino variables aleatorias que evolucionan. La distribución previa actúa como el punto de partida de este proceso de inferencia. Al combinar la información previa con la verosimilitud de los datos observados, se obtiene una distribución posterior que refleja el grado de creencia actualizado sobre los parámetros. Este mecanismo asegura que toda la información disponible, tanto la inicial como la empírica, se utilice de manera coherente en la toma de decisiones y la inferencia científica.

El papel de los hiper-parámetros y distribuciones hyper-prior

En muchos modelos complejos, los parámetros previos no están completamente determinados por sí mismos, sino que dependen de otros parámetros denominados hiper-parámetros. Estos hiper-parámetros permiten una mayor flexibilidad en la especificación de la incertidumbre inicial. Para completar la jerarquía del modelo, a menudo se requieren distribuciones 'hyper-prior' para estos hiper-parámetros. Esto significa que se asignan distribuciones de probabilidad a los hiper-parámetros, creando una estructura multinivel que puede capturar matices sutiles en la información previa. El uso de hiper-parámetros y sus respectivas distribuciones permite modelar situaciones donde la información previa es parcial o donde se desea incorporar una estructura de dependencia entre varios parámetros del modelo.

Diseño de experimentos bayesianos

El diseño de experimentos bayesianos representa una evolución significativa en la metodología científica, alejándose de la rigidez de los enfoques frecuentistas tradicionales para adoptar una flexibilidad adaptativa basada en la actualización continua de la evidencia. En este marco, el diseño no se concibe únicamente como una estructura estática para recopilar datos, sino como un proceso dinámico donde las creencias anteriores sobre los parámetros desconocidos juegan un papel central en la toma de decisiones. Esta integración permite a los investigadores cuantificar la incertidumbre de manera más intuitiva, expresando la evidencia sobre el estado verdadero del mundo mediante grados de creencia o probabilidades bayesianas, tal como se establece en los fundamentos de esta rama de la estadística.

Influencia de las distribuciones previas

La piedra angular del diseño experimental bayesiano es la formulación explícita de distribuciones previas para los parámetros de interés. Estas distribuciones incorporan el conocimiento existente antes de que comience la recolección de datos, actuando como un punto de partida cuantitativo que guía la selección del tamaño de la muestra, la elección de los tratamientos y la estructura general del experimento. Al incluir hiper-parámetros, los modelos pueden capturar la complejidad de sistemas donde la incertidumbre no es uniforme. Este enfoque permite optimizar el diseño para maximizar la información ganada, asegurando que cada dato recolectado reduzca eficazmente la varianza de las estimaciones posteriores, en lugar de simplemente cumplir con criterios de potencia estadística tradicionales.

Análisis secuencial y actualización de creencias

Una ventaja distintiva de la inferencia bayesiana es la capacidad natural para realizar análisis secuenciales. A diferencia de los diseños fijos, donde el tamaño de la muestra a menudo se determina antes del inicio del estudio, el enfoque bayesiano permite evaluar los datos a medida que se acumulan. Tras cada etapa experimental, las creencias se actualizan utilizando el teorema de Bayes, transformando la distribución previa en una distribución posterior que se convierte en la previa para la siguiente etapa. Esta iteración permite detener el experimento prematuramente si la evidencia se vuelve convincente o extenderlo si la incertidumbre persiste, ofreciendo una eficiencia superior en entornos donde los recursos son limitados o el coste de la observación es elevado.

Eficiencia de recursos y el problema del bandido con múltiples brazos

La aplicación más emblemática de la eficiencia en el uso de recursos dentro del diseño bayesiano es el problema del bandido con múltiples brazos. Este escenario ilustra cómo asignar recursos limitados entre varias opciones competitivas para maximizar la recompensa acumulada. En un contexto experimental, cada "brazo" representa un tratamiento o condición diferente. El diseño bayesiano utiliza las distribuciones posteriores para equilibrar la exploración (probar opciones menos conocidas para reducir la incertidumbre) y la explotación (asignar más recursos a las opciones que parecen ser las mejores según las creencias actuales). Esta estrategia dinámica es particularmente útil en ensayos clínicos y pruebas A/B, donde la asignación estática de participantes puede resultar en una mayor exposición a tratamientos subóptimos. El avance tecnológico en la computación, especialmente el desarrollo de técnicas Monte Carlo de cadenas de Markov, ha sido fundamental para hacer viable esta complejidad computacional, permitiendo la evaluación rápida de distribuciones posteriores en tiempo real durante el transcurso del experimento.

Gráficos estadísticos y validación computacional

La exploración de datos y la validación de modelos en la estadística bayesiana dependen en gran medida de la representación gráfica. Dado que la evidencia sobre el verdadero estado del mundo se expresa en términos de grados de creencia o probabilidades bayesianas, los gráficos permiten visualizar estas distribuciones de manera intuitiva. La interpretación de la probabilidad como grado de creencia requiere herramientas visuales para comprender la incertidumbre inherente a los parámetros desconocidos. Los gráficos estadísticos sirven como puente entre la formulación matemática de las distribuciones previas y la interpretación práctica de los resultados.

Validación de técnicas Monte Carlo de cadenas de Markov

El avance tecnológico en la computación ha impulsado la popularidad de la estadística bayesiana, especialmente a través de las técnicas Monte Carlo de cadenas de Markov. Estas técnicas permiten aproximar las distribuciones posteriores cuando los cálculos analíticos se vuelven complejos. Sin embargo, la precisión de estas aproximaciones requiere controles gráficos rigurosos para validar los cálculos. Los gráficos de trazado de las cadenas, por ejemplo, ayudan a verificar la convergencia de las muestras hacia la distribución objetivo. La visualización de las trayectorias de los parámetros a lo largo de las iteraciones permite detectar estacionariedad y mezcla adecuada de las cadenas.

Los controles gráficos son esenciales para asegurar que las distribuciones posteriores expresadas reflejan fielmente la evidencia actualizada. Sin estas validaciones visuales, los resultados de las simulaciones Monte Carlo podrían estar sujetos a errores sistemáticos o a una convergencia lenta. La representación gráfica de las densidades posteriores permite comparar directamente las distribuciones previas con las posteriores, destacando cómo la evidencia ha modificado los grados de creencia iniciales. Esta comparación visual es crucial para interpretar el impacto de los datos en los parámetros desconocidos.

Además, los gráficos de diagnóstico como los histogramas de las muestras y los gráficos de densidad suavizada facilitan la evaluación de la forma y la dispersión de las distribuciones posteriores. Estos elementos visuales ayudan a identificar valores atípicos, asimetrías o colas pesadas que podrían influir en las inferencias finales. La validación computacional mediante gráficos asegura que los modelos bayesianos sean robustos y que las conclusiones derivadas de las probabilidades bayesianas estén respaldadas por una evidencia visual clara y coherente.

Aplicaciones en diversas ramas científicas

La aplicación de la estadística bayesiana se ha expandido significativamente en diversas ramas científicas, permitiendo un análisis más robusto y flexible de los datos empíricos. Esta metodología ofrece ventajas distintivas frente a enfoques clásicos, especialmente en contextos donde los supuestos tradicionales resultan limitantes o difíciles de justificar.

Flexibilidad en el modelado y supuestos estadísticos

Una de las principales ventajas del enfoque bayesiano es la capacidad de eliminar la dependencia estricta de supuestos de homocedasticidad y distribución normal en los datos. En muchos estudios científicos, especialmente en ciencias sociales y biológicas, los datos rara vez siguen una distribución perfectamente normal o presentan una varianza constante a lo largo de las observaciones. La estadística bayesiana permite incorporar estos desvíos mediante la formulación de distribuciones previas para los parámetros desconocidos, incluyendo hiper-parámetros que capturan la variabilidad adicional.

Esta flexibilidad es particularmente valiosa ante diferentes tamaños de muestra. Mientras que los métodos frecuentistas a menudo requieren muestras grandes para garantizar la validez del teorema del límite central, los modelos bayesianos pueden aprovechar la información previa para obtener estimaciones precisas incluso con muestras más pequeñas. Esto hace que la inferencia bayesiana sea una herramienta poderosa en estudios exploratorios o en campos donde la recolección de datos es costosa o compleja.

Análisis de escalas Likert y datos ordinales

El análisis de escalas Likert, ampliamente utilizado en psicometría y ciencias sociales, se beneficia directamente de la inferencia bayesiana. Las escalas Likert generan datos ordinales que a menudo se tratan como intervalares en los modelos clásicos, introduciendo posibles sesgos. Los modelos jerárquicos bayesianos permiten modelar la estructura latente de estas escalas, incorporando la incertidumbre en los parámetros de ubicación y escala. Este enfoque proporciona intervalos de credibilidad más intuitivos y permite la integración de información previa sobre la distribución de las respuestas.

Metaanálisis y síntesis de evidencia

El metaanálisis bayesiano ha ganado prominencia como herramienta para la síntesis de evidencia científica. A diferencia de los metaanálisis frecuentistas, que a menudo dependen de supuestos fijos sobre la heterogeneidad entre estudios, los modelos bayesianos permiten tratar la heterogeneidad como una variable aleatoria con su propia distribución previa. Esto facilita la cuantificación de la incertidumbre en la magnitud del efecto combinado y permite la incorporación de información previa sobre la calidad de los estudios individuales. La capacidad de actualizar las estimaciones a medida que nuevos estudios se añaden al cuerpo de evidencia hace que este enfoque sea particularmente adecuado para la medicina basada en la evidencia y las revisiones sistemáticas.

Pruebas de asociación y análisis multivariado

En el ámbito de las pruebas de asociación, la estadística bayesiana ofrece marcos para evaluar la fuerza de la evidencia a favor o en contra de una hipótesis nula mediante factores de Bayes. Estos factores proporcionan una medida directa de la evidencia relativa entre dos hipótesis complementarias, ofreciendo una interpretación más directa que los valores p tradicionales. En el análisis multivariado, los modelos bayesianos permiten manejar la colinealidad entre variables y la dimensionalidad elevada mediante la incorporación de regularización a través de distribuciones previas. Técnicas como la regresión de Ridge o Lasso pueden interpretarse naturalmente dentro del marco bayesiano, donde los parámetros de penalización se tratan como hiper-parámetros con distribuciones previas.

El avance tecnológico en la computación, especialmente el desarrollo de técnicas Monte Carlo de cadenas de Markov, ha sido fundamental para la popularidad de estas aplicaciones. Estas técnicas permiten la aproximación de distribuciones posteriores complejas que, de otro modo, resultarían difíciles de calcular analíticamente, abriendo nuevas posibilidades para el modelado estadístico en prácticamente todas las disciplinas científicas.

Ejercicios resueltos

Ejemplo 1: Diagnóstico médico simplificado

Consideremos un escenario donde se evalúa la presencia de una enfermedad rara. La distribución previa asigna una probabilidad inicial de que el paciente esté enfermo. Supongamos que esta creencia inicial es del 5%. La prueba diagnóstica tiene una verosimilitud específica: si el paciente tiene la enfermedad, la prueba resulta positiva con una probabilidad del 90%. Si el paciente está sano, la prueba resulta positiva (falso positivo) con una probabilidad del 2%.

Para calcular la probabilidad posterior de que el paciente tenga la enfermedad dado un resultado positivo, aplicamos el teorema de Bayes. El numerador es el producto de la probabilidad previa de estar enfermo y la verosimilitud de un resultado positivo dado que se está enfermo. Esto resulta en 0.05 multiplicado por 0.90, igual a 0.045.

El denominador requiere considerar todas las vías para obtener un resultado positivo. Esto incluye el caso anterior (enfermo y positivo) y el caso de estar sano y obtener un falso positivo. La probabilidad de estar sano es 0.95. Multiplicando por la verosimilitud de falso positivo (0.02), obtenemos 0.019. Sumando ambos términos, el denominador es 0.045 más 0.019, igual a 0.064.

La probabilidad posterior es el cociente entre 0.045 y 0.064. El resultado es aproximadamente 0.703. Esto indica que, tras observar el dato, el grado de creencia en la enfermedad sube del 5% inicial a un 70.3%.

Ejemplo 2: Calidad de una moneda

En un ejercicio de inferencia sobre un parámetro continuo, se lanza una moneda sospechosa de no ser justa. El parámetro desconocido es la probabilidad de obtener cara, denotada como theta. Se elige una distribución previa uniforme entre 0 y 1, lo que implica que todos los valores de theta son igualmente probables antes de ver los datos.

Se lanzan la moneda tres veces y se obtienen tres caras consecutivas. La verosimilitud de estos datos, dado theta, es theta elevado al cubo, ya que cada lanzamiento es independiente. La distribución posterior es proporcional al producto de la previa y la verosimilitud.

Como la previa es constante en el intervalo, la forma de la posterior sigue la función theta al cubo. Para normalizar esta distribución, se integra theta al cubo de 0 a 1, lo que da 0.25. La función de densidad posterior final es cuatro veces theta al cubo. La media de esta distribución posterior, que representa la estimación puntual de la probabilidad de cara, se calcula integrando theta multiplicado por la densidad posterior. El resultado es 0.8, indicando que la mejor estimación actual de la justicia de la moneda es 0.8.

Véase también

Referencias

#matemáticas #Ciencia de Datos #probabilidad #estadística bayesiana #inferencia bayesiana