Estadística matemática

La estadística matemática es la rama de las matemáticas que se encarga de recopilar, analizar, interpretar y presentar datos para extraer conclusiones sobre una población a partir de una muestra. A diferencia de la simple recolección de números, esta disciplina proporciona el marco teórico riguroso necesario para cuantificar la incertidumbre y tomar decisiones fundamentadas en entornos con variabilidad inherente.

Su importancia radica en que sirve como puente entre los datos crudos y el conocimiento científico, permitiendo a investigadores, economistas y científicos de datos distinguir entre el ruido aleatorio y las señales significativas. Sin los fundamentos de la estadística matemática, el análisis de datos carecería de la solidez necesaria para generalizar resultados más allá de los casos observados.

Definición y concepto

La estadística matemática constituye el marco teórico riguroso que sustenta la toma de decisiones bajo incertidumbre. A diferencia de la estadística descriptiva, que se limita a resumir y visualizar datos mediante medidas de tendencia central o dispersión, la estadística matemática busca generalizar los hallazgos de un conjunto de datos a un contexto más amplio. Esta rama no se conforma con describir lo que se observa; intenta explicar por qué ocurre y predecir lo que podría suceder. La distinción es fundamental: la descriptiva organiza el pasado; la matemática infiere el futuro.

Este campo se fundamenta en dos pilares del análisis matemático: la teoría de la probabilidad y el análisis real. La probabilidad proporciona el lenguaje para cuantificar la incertidumbre, mientras que el análisis real ofrece las herramientas para estudiar el comportamiento de las funciones y las secuencias a medida que el tamaño de los datos crece. Sin este andamiaje, la inferencia estadística sería simplemente una colección de reglas empíricas sin garantía de validez asintótica.

Modelos fundamentales: Población, Muestra y Variable Aleatoria

Para construir cualquier modelo estadístico, es necesario definir claramente tres conceptos interconectados. La población representa el conjunto total de elementos o individuos que comparten una característica común y que son objeto de estudio. Puede ser finita, como el número de estudiantes en una universidad específica en 2026, o infinita, como la secuencia continua de mediciones de temperatura en un punto geográfico.

La muestra es un subconjunto representativo extraído de esa población. Dado que medir cada elemento de una población suele ser costoso o incluso imposible, la muestra actúa como la ventana a través de la cual observamos la realidad. La calidad de la inferencia depende críticamente de cómo se selecciona esta muestra y de su tamaño relativo a la población total.

El puente matemático que conecta la muestra con la población es la variable aleatoria. Esta es una función que asigna un valor numérico a cada resultado posible de un experimento aleatorio. Formalmente, una variable aleatoria discreta X puede definirse sobre un espacio muestral Ω. Su comportamiento se describe mediante una función de distribución, como la función de densidad de probabilidad f(x), que indica la probabilidad de que la variable tome un valor específico o caiga dentro de un intervalo dado.

Dato curioso: El concepto de "variable aleatoria" no siempre fue central. En los inicios de la estadística, los datos se veían como valores fijos con errores; fue la integración del cálculo de probabilidades en el siglo XX lo que transformó cada dato en una realización de una función aleatoria.

La inferencia estadística utiliza la información contenida en la muestra para estimar parámetros desconocidos de la población. Por ejemplo, si queremos conocer la media poblacional μ, utilizamos la media muestral xˉ como estimador. La precisión de esta estimación mejora a medida que aumenta el tamaño de la muestra n, un principio conocido como la ley de los grandes números. Este proceso permite cuantificar el error inherente a la generalización, transformando la intuición en una medida matemática de confianza.

La robustez de estos modelos depende de supuestos claros sobre la distribución subyacente. Si la variable aleatoria sigue una distribución normal, muchas propiedades matemáticas se simplifican, permitiendo el uso de pruebas clásicas. Sin embargo, en la práctica, la elección del modelo adecuado requiere analizar la naturaleza de los datos y la estructura del error. La estadística matemática, por tanto, no es solo cálculo; es la arquitectura lógica que valida si nuestras conclusiones son estadísticamente significativas o simplemente el fruto del azar.

¿Qué diferencia a la estadística matemática de la estadística descriptiva?

La distinción entre estadística descriptiva y estadística matemática radica en el grado de abstracción y el objetivo final del análisis. La estadística descriptiva se limita a resumir y organizar datos observados sin inferir más allá de lo visto. Calcula medidas como la media muestral o la varianza para dar forma a un conjunto específico de datos. Es una herramienta de síntesis pura. Por el contrario, la estadística matemática utiliza el lenguaje del cálculo y la teoría de la probabilidad para generalizar. Busca extraer conclusiones sobre una población completa a partir de una muestra representativa.

El rol del modelo de probabilidad

La estadística descriptiva trata los datos como valores fijos. Si tienes las alturas de treinta estudiantes, calculas su promedio y listo. No hay suposición sobre de dónde vinieron esos datos más allá de ser una muestra. La estadística matemática introduce un modelo subyacente. Asume que cada dato es una realización de una variable aleatoria. Esto implica que si repites el experimento, obtendrás valores ligeramente distintos debido al azar.

Este enfoque permite cuantificar la incertidumbre. En lugar de decir simplemente "la media es 170 cm", el estadístico matemático pregunta: "¿Cuál es la probabilidad de que la media real de la población esté entre 168 y 172 cm?". Para responder, se necesita una distribución de probabilidad, como la normal o la binomial, que actúa como el esqueleto teórico de los datos.

Verosimilitud y la función de verosimilitud

Un concepto central que distingue a la estadística matemática es la función de verosimilitud. Mide qué tan "probables" son los datos observados dado un conjunto específico de parámetros del modelo. No es exactamente lo mismo que la probabilidad, aunque está relacionada. Mientras la probabilidad predice los datos basándose en los parámetros, la verosimilitud evalúa los parámetros basándose en los datos.

La función de verosimilitud, denotada generalmente como L(θ∣x), toma los datos observados x y los parámetros desconocidos θ. El objetivo es encontrar el valor de θ que maximiza esta función. Este método, conocido como máxima verosimilitud, es una de las herramientas más potentes para estimar parámetros poblacionales. Permite transformar una colección de números en una historia coherente sobre la población de la que provienen.

Dato curioso: El concepto de verosimilitud fue formalizado por el estadístico alemán Carl Friedrich Gauss en el siglo XIX, aunque fue Ronald Fisher quien lo consolidó como una piedra angular de la inferencia estadística moderna a principios del siglo XX.

Comparativa práctica

Considera un ejemplo concreto. Un investigador mide el tiempo de reacción de 50 usuarios ante una interfaz web. La estadística descriptiva calcularía la media (digamos, 2.5 segundos) y la desviación estándar. Esto resume el rendimiento de esos 50 usuarios específicos. Es útil para un informe rápido.

La estadística matemática iría más lejos. Asumiría que los tiempos de reacción siguen una distribución normal con media μ y varianza σ2. Utilizaría la función de verosimilitud para estimar μ y σ2 para toda la población de usuarios potenciales. Podría entonces calcular un intervalo de confianza para afirmar, con un 95% de seguridad, que la media real de la población está dentro de un rango específico. Esto permite tomar decisiones generales, como rediseñar la interfaz para todos los usuarios, no solo para los 50 evaluados.

La consecuencia es directa. La descriptiva describe el pasado inmediato; la matemática proyecta hacia el futuro y hacia lo no observado. Ambas son necesarias, pero operan en niveles diferentes de abstracción. La descriptiva es la base de datos; la matemática es el motor de inferencia.

Contexto histórico y desarrollo

La estadística matemática no surgió de la nada, sino que evolucionó desde la necesidad práctica de cuantificar la incertidumbre. Sus raíces más profundas se encuentran en los juegos de azar del siglo XVII, donde matemáticos como Blaise Pascal y Pierre de Fermat comenzaron a analizar la probabilidad mediante el intercambio de cartas. Sin embargo, fue Jacobo Bernoulli quien dio el primer paso hacia la formalización con su obra La teoría de la probabilidad, publicada póstumamente en 1713. En ella, estableció el Teorema del Límite, demostrando que a medida que aumenta el número de ensayos, la frecuencia relativa de un suceso se acerca a su probabilidad teórica. Este concepto sentó las bases para tratar la incertidumbre no como un caos absoluto, sino como una magnitud medible.

Piense en un dado perfecto. Lanzarlo una sola vez es casi aleatorio, pero lanzarlo mil veces revela un patrón. Bernoulli capturó esa intuición. La consecuencia es directa: la repetición genera orden.

Durante el siglo XVIII, Pierre-Simon Laplace expandió estas ideas aplicándolas a la astronomía y la demografía. Introdujo el concepto de la probabilidad a posteriori, permitiendo inferir causas a partir de efectos observados. Esta transición fue crucial: la estadística dejó de ser solo una herramienta para predecir el futuro inmediato (como en los juegos) para convertirse en un método para entender fenómenos naturales complejos. Laplace utilizó el método de los cuadrados mínimos, aunque sin una demostración rigurosa de su optimalidad, lo que abrió la puerta a la búsqueda de fundamentos más sólidos.

La era de la inferencia: Fisher, Neyman y Pearson

El gran salto hacia la rigurosidad matemática ocurrió en el siglo XX, liderado por tres figuras clave: Ronald Fisher, Jerzy Neyman y Egon Pearson. Antes de ellos, la estadística era a menudo una colección de métodos prácticos sin una teoría unificada. Fisher introdujo el concepto de verosimilitud y estableció los principios del diseño experimental aleatorio, transformando la estadística de una ciencia descriptiva a una ciencia inferencial.

Dato curioso: El famoso valor de significancia p < 0.05, tan utilizado hoy en día, fue elegido por Fisher en parte por conveniencia práctica, no por una razón matemática profunda. Él lo describió como un "punto de corte conveniente" para decidir si un resultado era digno de atención.

Posteriormente, Jerzy Neyman y Egon Pearson desarrollaron la teoría de la prueba de hipótesis, introduciendo conceptos como la potencia estadística y los errores de tipo I y II. Su enfoque era más estructurado que el de Fisher, centrado en la toma de decisiones bajo incertidumbre. Mientras Fisher se preguntaba "¿Qué tan fuerte es la evidencia?", Neyman y Pearson preguntaban "¿Qué decisión debemos tomar?". Esta distinción sigue siendo una de las mayores fuentes de debate en la metodología científica actual.

La formalización axiomática permitió tratar la estadística como una rama del análisis real y la teoría de la medida. Las variables aleatorias dejaron de ser meras cantidades numéricas para convertirse en funciones medibles sobre espacios de muestra. Esto permitió definir con precisión conceptos como la convergencia y la esperanza matemática. La ecuación de la esperanza para una variable discreta X, por ejemplo, se expresa como:

E[X]=i∑xiP(X=xi)

Esta base matemática robusta permitió que la estadística se integrara profundamente en otras disciplinas, desde la física cuántica hasta la economía. La transición de una "ciencia de los datos" intuitiva a una disciplina matemática rigurosa no fue lineal, sino el resultado de décadas de refinamiento conceptual. Hoy, la estadística matemática proporciona el andamio sobre el cual se construyen las inferencias en casi todas las ciencias empíricas.

¿Cuáles son los pilares teóricos de la inferencia estadística?

La inferencia estadística no es un conjunto de recetas aisladas, sino una estructura lógica rigurosa que permite extraer conclusiones sobre un todo a partir de una parte. Para que esta deducción tenga solidez matemática, se apoya en tres pilares fundamentales que interactúan entre sí. Sin estos cimientos, los cálculos serían meras operaciones aritméticas sin significado probabilístico.

El modelo de probabilidad y el parámetro

Todo análisis comienza con un modelo de probabilidad. Este no es más que una familia de distribuciones de probabilidad elegidas para describir el comportamiento de la variable de estudio. Imaginemos que medimos la estatura de una población. No elegimos al azar una distribución; seleccionamos, por ejemplo, la familia normal porque su forma de campana se ajusta a la variabilidad biológica. Sin embargo, la familia normal tiene infinitas variantes. ¿Cuál es la correcta? Aquí entra el parámetro.

El parámetro es la cantidad desconocida que identifica a una distribución específica dentro de la familia. En el caso de la distribución normal, los parámetros suelen ser la media (μ) y la varianza (σ2). El conjunto de todos los valores posibles que puede tomar el parámetro se denomina espacio paramétrico. El objetivo de la inferencia es, precisamente, acotar o estimar qué valor dentro de ese espacio corresponde a la realidad observada.

La muestra aleatoria como puente

Para conectar el mundo abstracto de los parámetros con los datos concretos, necesitamos una muestra aleatoria. No basta con tomar cualquier conjunto de datos; deben ser independientes e idénticamente distribuidos (i.i.d.) según el modelo elegido. Esto significa que cada observación aporta información nueva y que ninguna está sesgada por la selección previa.

Debate actual: La suposición de independencia es a menudo la más frágil. En datos económicos o series de tiempo, una observación rara vez es totalmente independiente de la anterior. Ignorar esta correlación puede llevar a errores sistemáticos en la inferencia.

Verosimilitud: la función puente

Una vez obtenida la muestra, se utiliza la función de verosimilitud para medir qué tan "probables" son los datos observados para distintos valores del parámetro. No confunda probabilidad con verosimilitud: la primera predice datos futuros dados los parámetros; la segunda evalúa los parámetros dados los datos.

Si tenemos una muestra X1,X2,...,Xn con función de densidad f(x;θ), la verosimilitud L(θ) se define como el producto de las densidades evaluadas en cada dato:

L(θ)=i=1∏nf(Xi;θ)

Esta función transforma los datos crudos en una herramienta de decisión. El valor de θ que maximiza L(θ) es el que hace que nuestra muestra sea más probable bajo el modelo. Así, la verosimilitud cierra el círculo: toma la muestra aleatoria, la filtra a través del modelo de probabilidad y señala al parámetro más plausible. La consecuencia es directa: sin verosimilitud, los datos son ruidos; con ella, son evidencia.

Métodos de estimación de parámetros

La inferencia estadística busca deducir características de una población completa a partir de una muestra limitada. El núcleo de este proceso es la estimación de parámetros: encontrar un valor numérico que mejor represente una magnitud desconocida, como la media o la varianza. No existe una única forma correcta de hacerlo, pero dos enfoques dominan la teoría clásica por su solidez y aplicabilidad.

Máxima Verosimilitud

El método de la Máxima Verosimilitud (MLE, por sus siglas en inglés) se basa en la lógica de lo "más probable". Imagina lanzar una moneda al aire 10 veces y obtener 8 caras. Intuitivamente, asumirías que la moneda está sesgada hacia las caras. Este método formaliza esa intuición. Se define una función de verosimilitud que mide qué tan "probable" es observar los datos obtenidos para cada posible valor del parámetro desconocido.

El objetivo es encontrar el valor del parámetro que maximiza esta función. Matemáticamente, si tenemos una muestra independiente e idénticamente distribuida, la función de verosimilitud es el producto de las densidades de probabilidad evaluadas en cada dato. Para simplificar los cálculos, a menudo se toma el logaritmo de la función, convirtiendo el producto en una suma. El valor que hace que la derivada sea cero suele ser el ganador. Este método es poderoso porque, bajo condiciones generales, ofrece estimadores muy precisos a medida que crece el tamaño de la muestra.

Método de los Momentos

El Método de los Momentos ofrece un enfoque más directo y a veces más sencillo computacionalmente. En lugar de maximizar una función, iguala los momentos muestrales con los momentos teóricos de la distribución. El primer momento es simplemente la media; el segundo momento centrado es la varianza.

El procedimiento es mecánico: primero, calculas la media de tus datos. Luego, expresas la media teórica de la distribución en función del parámetro desconocido. Finalmente, igualas ambas cantidades y resuelves la ecuación. Si la distribución tiene dos parámetros, usas la media y la varianza. Este método fue popularizado por Karl Pearson a finales del siglo XIX y sigue siendo útil cuando la función de verosimilitud es compleja o cuando se necesita una solución rápida sin depender tanto de la forma exacta de la distribución.

Propiedades de los estimadores

No todos los estimadores son iguales. Para evaluar la calidad de un método, los estadísticos analizan tres propiedades fundamentales que determinan la fiabilidad de los resultados a largo plazo.

Sin sesgo: Un estimador es insesgado si su valor esperado coincide exactamente con el verdadero parámetro. Si repites el experimento infinitas veces, el promedio de tus estimaciones convergerá al valor real. El sesgo indica un error sistemático.
Consistencia: Esta propiedad asegura que, a medida que el tamaño de la muestra aumenta hacia el infinito, la estimación se acerca cada vez más al valor verdadero. Un estimador consistente no garantiza la precisión en muestras pequeñas, pero sí en grandes volúmenes de datos.
Eficiencia: Entre varios estimadores insesgados, el más eficiente es aquel que tiene la menor varianza. Esto significa que las estimaciones están más agrupadas alrededor del valor verdadero, ofreciendo mayor precisión con menos datos.

Debate actual: Aunque la Máxima Verosimilitud es a menudo más eficiente que el Método de los Momentos, no siempre es la más robusta. En presencia de valores atípicos o errores de medición, el Método de los Momentos puede ofrecer resultados más estables, lo que hace que la elección del método dependa tanto de la teoría como de la naturaleza ruidosa de los datos.

La elección entre estos métodos no es arbitraria. Depende del equilibrio deseado entre precisión teórica, facilidad de cálculo y robustez ante las imperfecciones de los datos reales.

Contraste de hipótesis y pruebas estadísticas

El contraste de hipótesis constituye el núcleo de la inferencia estadística. Su propósito es evaluar la evidencia proporcionada por los datos para decidir entre dos afirmaciones rivales sobre un parámetro poblacional. No se trata de probar que una hipótesis sea "cierta" con absoluta certeza, sino de determinar si los datos son suficientemente incoherentes con una suposición inicial para rechazarla. Este proceso permite tomar decisiones cuantificables bajo incertidumbre.

Formulación de las hipótesis

Toda prueba estadística comienza estableciendo dos hipótesis mutuamente excluyentes. La hipótesis nula, denotada como H0, representa el estado de cosas por defecto o la ausencia de efecto. Por ejemplo, al probar un nuevo fármaco, H0 podría ser que la media de recuperación con el fármaco es igual a la media con el placebo. La hipótesis alternativa, H1 o Ha, es lo que el investigador intenta demostrar, como que el fármaco acelera la recuperación. La carga de la prueba recae sobre H1.

Tipos de errores en la decisión

Al decidir rechazar o no rechazar H0, siempre existe el riesgo de equivocarse. Existen dos tipos fundamentales de errores. El error de Tipo I, o falso positivo, ocurre cuando se rechaza H0 siendo cierta. Es como condenar a un culpable cuando en realidad era inocente. Su probabilidad se denota comúnmente con α (alfa). El error de Tipo II, o falso negativo, sucede cuando se deja de rechazar H0 siendo falsa. Equivale a absolver a un culpable. Su probabilidad se simboliza con β (beta). Reducir uno suele aumentar el otro, por lo que el equilibrio depende del costo relativo de cada error en el contexto específico.

El valor p y la interpretación moderna

El valor p es la probabilidad de observar un estadístico de prueba tan extremo o más que el obtenido, asumiendo que H0 es cierta. No es la probabilidad de que H0 sea cierta, un error común. En 2026, la interpretación del valor p ha evolucionado más allá de la dicotomía rígida de "significativo" (p < 0.05) frente a "no significativo". Las guías actuales, como las de la Asociación Estadística Americana, fomentan ver el valor p como un continuo de evidencia. Un valor p muy bajo sugiere que los datos son poco probables bajo la hipótesis nula, pero no cuantifica el tamaño del efecto ni su relevancia práctica.

Debate actual: La ciencia está experimentando una "crisis de reproducibilidad" en parte debido al uso excesivo del umbral de 0.05. Muchos investigadores abogan por reportar el valor p exacto junto con intervalos de confianza y tamaños del efecto para evitar decisiones binarias prematuras.

La consecuencia es directa: un valor p pequeño no prueba automáticamente la hipótesis alternativa, solo indica que los datos actuales son inusuales bajo la nula. La interpretación correcta requiere contexto, tamaño de la muestra y conocimiento del dominio. Ignorar estos matices lleva a falsas descubrimientos y a una sobreestimación de la fuerza de la evidencia. La estadística moderna exige una mirada más matizada y menos dogmática que la del siglo XX.

Aplicaciones en ciencia de datos y economía

La estadística matemática deja de ser un conjunto de teoremas abstractos cuando se aplica a la toma de decisiones bajo incertidumbre. En ciencia de datos y economía, la teoría proporciona el andamio riguroso que diferencia una correlación significativa de un mero ruido aleatorio. La conexión entre la verosimilitud y los datos masivos es fundamental para entender por qué ciertos modelos prevalecen sobre otros en entornos competitivos.

Regresión lineal y estimación de parámetros

En economía, la regresión lineal no es solo una línea recta que ajusta puntos; es frecuentemente la expresión práctica del Método de Máxima Verosimilitud (MLE). Cuando se asume que los errores del modelo siguen una distribución normal, maximizar la función de verosimilitud equivale a minimizar la suma de los cuadrados de los residuos. Este vínculo teórico permite a los economistas cuantificar el impacto de una variable, como la tasa de interés, sobre otra, como la inflación, con intervalos de confianza precisos. La consecuencia es directa: las políticas monetarias se basan en estos ajustes estadísticos.

El MLE ofrece propiedades asintóticas deseables, como la eficiencia, lo que significa que, con suficientes datos, el estimador converge rápidamente al valor verdadero del parámetro. Esto es crucial en macroeconomía, donde los datos a menudo son costosos de obtener y los errores de medición pueden sesgar las predicciones a largo plazo.

Pruebas de hipótesis en tecnología y salud

Las pruebas de hipótesis son el motor detrás de la validación empírica en sectores de alta velocidad. En los ensayos clínicos, la prueba t de Student o la prueba Z permiten determinar si un nuevo fármaco supera significativamente al placebo, controlando el error tipo I (falsos positivos). Un error aquí puede significar la aprobación de un medicamento con efectos secundarios leves o la deserción de uno curativo.

En el sector tecnológico, el A/B testing aplica estos mismos principios a escala masiva. Las plataformas comparan dos versiones de una interfaz de usuario para medir cambios sutiles en la tasa de conversión. Aquí, el poder estadístico de la prueba es vital para detectar diferencias pequeñas con una muestra grande, asegurando que el cambio no sea fruto del azar. Pero hay un matiz: sin una hipótesis nula bien definida, los datos pueden contar cualquier historia.

Dato curioso: El concepto de "significancia estadística" (p < 0.05) fue popularizado por Ronald Fisher en la agricultura, pero su aplicación en el A/B testing moderno a menudo sufre de la "paradoja de la significancia", donde una diferencia mínima es estadísticamente significativa pero económicamente irrelevante.

Comparación de métodos de estimación

Elegir entre el Método de Máxima Verosimilitud y el Método de los Momentos depende del equilibrio entre precisión y velocidad de cálculo. La siguiente tabla resume las diferencias clave:

Criterio	Máxima Verosimilitud (MLE)	Método de los Momentos (MM)
Complejidad computacional	Alta (requiere derivadas o iteración)	Baja (a menudo solución cerrada)
Eficiencia asintótica	Alta (menor varianza en muestras grandes)	Moderada (puede perder información)
Dependencia de la distribución	Alta (requiere definir la función de densidad)	Baja (solo requiere momentos existentes)
Robustez al outlier	Baja (sensibles a valores atípicos)	Mayor (dependiendo de los momentos usados)

La elección del método define la robustez del modelo final. En grandes volúmenes de datos, la eficiencia del MLE suele justificar su costo computacional, mientras que en datos "sucios" o con distribuciones desconocidas, el Método de los Momentos ofrece una alternativa más flexible y rápida de implementar.

Ejercicios resueltos

La teoría estadística cobra sentido cuando se aplica a datos concretos. Los ejercicios prácticos permiten verificar la comprensión de los procedimientos y la correcta manipulación de las fórmulas. A continuación, se presentan dos ejemplos fundamentales: la estimación puntual y el contraste de hipótesis.

Estimación por máxima verosimilitud

Considérese una muestra aleatoria simple X1,X2,…,Xn extraída de una distribución normal con media μ desconocida y varianza σ2 conocida. El objetivo es hallar el estimador por máxima verosimilitud (EMV) de μ. La función de verosimilitud L(μ) es el producto de las densidades de probabilidad individuales:

L(μ)=i=1∏n2πσ21e−2σ2(xi−μ)2

Para simplificar los cálculos, se toma el logaritmo natural de la función de verosimilitud, obteniendo la log-verosimilitud ℓ(μ):

ℓ(μ)=−2nln(2πσ2)−2σ21i=1∑n(xi−μ)2

Se deriva ℓ(μ) con respecto a μ e igualamos a cero para encontrar el punto crítico:

dμdℓ=σ21i=1∑n(xi−μ)=0

Despejando μ, se obtiene que la suma de las desviaciones es nula:

i=1∑nxi−nμ=0⟹μ^=n1i=1∑nxi

El estimador por máxima verosimilitud de la media es simplemente la media muestral. Este resultado es intuitivo pero fundamental en inferencia.

Dato curioso: La elegancia de este resultado radica en que el EMV de la media no depende del valor de la varianza conocida. La forma de la curva cambia, pero el pico de la verosimilitud siempre cae en el promedio de los datos.

Contraste de hipótesis para una proporción

Se desea verificar si la proporción de defectos en una producción es del 5%. Se toma una muestra de n=200 unidades, encontrándose 14 defectuosas. Se plantea el contraste de hipótesis simple:

Hipótesis nula H0:p=0.05
Hipótesis alternativa H1:p=0.05

El estadístico de prueba Z se calcula estandarizando la proporción muestral p^=14/200=0.07:

Z=np0(1−p0)p^−p0

Sustituyendo los valores numéricos:

Z=2000.05×0.950.07−0.05=0.00023750.02≈0.015410.02≈1.298

El valor del estadístico Z es aproximadamente 1.30. Para obtener el valor p (nivel de significancia observado) en un contraste bilateral, se calcula la probabilidad de que una variable normal estándar esté fuera de los intervalos ±1.298:

\text{Valor } p = 2 \times P(Z > 1.298) \approx 2 \times 0.0968 = 0.1936">

Con un valor p de 0.1936, si se fija un nivel de significancia α=0.05, se concluye que p > \alpha. Por tanto, no hay suficiente evidencia para rechazar la hipótesis nula. La proporción de defectos podría ser efectivamente del 5%. La diferencia observada se atribuye al azar muestral.

Preguntas frecuentes

¿Cuál es la diferencia principal entre estadística descriptiva e inferencial?

La estadística descriptiva resume y organiza los datos de una muestra específica (como calcular la media o la desviación estándar), mientras que la estadística inferencial utiliza esos datos para hacer predicciones o generalizaciones sobre una población más amplia, cuantificando el error posible en esas generalizaciones.

¿Por qué se llama "estadística matemática" y no solo "estadística"?

El término "estadística matemática" se usa para enfatizar el rigor teórico y los fundamentos de la teoría de la probabilidad que sustentan los métodos estadísticos. Distingue la estructura lógica y las demostraciones formales de la aplicación práctica o empírica de las técnicas estadísticas.

¿Qué es un parámetro en estadística?

Un parámetro es una característica numérica fija que describe a toda una población, como la media poblacional (μ) o la varianza poblacional (σ²). A diferencia de una estadística, que es un valor calculado a partir de una muestra, el parámetro suele ser desconocido y se busca estimarlo.

¿Qué significa el nivel de significancia (α) en una prueba de hipótesis?

El nivel de significancia, comúnmente denotado por α (alfa), es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera (error tipo I). Un valor típico es 0.05, lo que implica un 5% de riesgo de cometer ese error al afirmar que hay un efecto cuando en realidad no lo hay.

¿Cómo se relaciona la estadística con la ciencia de datos?

La estadística matemática proporciona la base teórica para los modelos utilizados en la ciencia de datos. Mientras que la ciencia de datos a menudo se enfoca en la predicción y la escalabilidad de los datos, la estadística ofrece las herramientas para entender la incertidumbre, la correlación y la causalidad dentro de esos modelos.

Resumen

La estadística matemática es fundamental para transformar datos en conocimiento accionable mediante el uso de la teoría de la probabilidad. Sus pilares incluyen la estimación de parámetros, el contraste de hipótesis y la comprensión de la distribución de los datos, permitiendo generalizar hallazgos de una muestra a una población completa.

Desde sus orígenes en la astronomía y la demografía hasta su papel central en la ciencia de datos moderna y la economía, esta disciplina ofrece las herramientas necesarias para cuantificar la incertidumbre. Dominar sus conceptos básicos es esencial para interpretar correctamente estudios científicos, tendencias económicas y modelos predictivos en el siglo XXI.