En estadística, una variable es cualquier característica, atributo o propiedad de un individuo, objeto o fenómeno que puede tomar distintos valores y, por lo tanto, puede variar de un caso a otro. Las variables son la unidad básica de medición en cualquier estudio empírico; sin ellas, los datos serían simplemente una colección de números sin contexto o categorías sin significado.

Comprender qué es una variable y cómo se clasifica es fundamental para diseñar una buena investigación, elegir la prueba estadística adecuada y evitar errores de interpretación. Desde la edad de un estudiante hasta el nivel de satisfacción de un cliente, todo lo que se mide en estadística se resume en una variable bien definida.

Definición y concepto

Una variable estadística es un atributo, cualidad o característica medible que puede tomar distintos valores entre los elementos de una población o muestra. En el contexto de un estudio, representa la información específica que se recopila para analizar patrones, tendencias o relaciones. Por ejemplo, si se investiga el rendimiento académico de una clase, la variable podría ser la "nota final", que varía de un estudiante a otro.

Es fundamental distinguir la variable de la constante. Mientras que una variable cambia su valor dependiendo del sujeto o momento de la observación, una constante mantiene un mismo valor a lo largo de todo el conjunto de datos. En la misma investigación sobre notas, el "año lectivo" podría tratarse como una constante si todos los estudiantes pertenecen al mismo curso, ya que su valor no varía dentro de ese grupo específico.

La unidad básica de medición

La variable constituye la unidad fundamental de medición en cualquier estudio estadístico. Sin variables, los datos serían simplemente una colección desordenada de números o etiquetas sin contexto. Cada dato recogido es, en esencia, una manifestación concreta de una variable. La precisión con la que se define esta unidad determina la calidad de la información obtenida. Si la variable está mal definida, el ruido en los datos aumenta y la capacidad de extraer conclusiones claras disminuye.

Sabías que: La elección incorrecta del tipo de variable es uno de los errores más comunes en la investigación. Medir la "edad" como una variable categórica (ej. "mayor de 30") cuando podría ser numérica continua (ej. "32 años") puede perder información valiosa para el análisis.

Impacto en el análisis posterior

La selección del tipo de variable no es solo un detalle técnico; es una decisión estratégica que determina las herramientas matemáticas disponibles para el análisis. No se puede aplicar cualquier prueba estadística a cualquier tipo de dato. Por ejemplo, calcular la media aritmética de una variable categórica nominal, como el "color de ojos", tiene poco sentido si no se asignan valores numéricos arbitrarios. En cambio, para una variable cuantitativa, como el "peso corporal", la media proporciona un resumen central claro.

Las variables se clasifican principalmente en cualitativas (o categóricas) y cuantitativas (o numéricas). Las cualitativas describen características no numéricas, como el género o la profesión. Las cuantitativas expresan cantidades y permiten operaciones matemáticas directas. Dentro de las cuantitativas, se distinguen las discretas (valores contables, como el número de hijos) y las continuas (valores medibles en un intervalo, como la altura).

Esta clasificación dicta si se utiliza la media, la mediana o la moda como medida de tendencia central, y si se aplica una prueba de Chi-cuadrado o una prueba t-Student. Entender esta relación es crucial para evitar errores de interpretación. Un análisis estadístico robusto comienza con una definición precisa de qué se está midiendo y cómo se comporta esa medición. La consecuencia es directa: una buena definición de variable facilita el camino hacia conclusiones válidas.

¿Cómo se clasifican las variables estadísticas?. Imagen: Image by LadyofHats + my own editing / Wikimedia Commons / Public domain

¿Cómo se clasifican las variables estadísticas?

La clasificación de variables estadísticas no es arbitraria. Depende fundamentalmente del nivel de medición, un concepto propuesto por el psicólogo y estadístico Stanley Smith Stevens en 1946. Esta jerarquía determina qué operaciones matemáticas son válidas sobre los datos y, por extensión, qué pruebas estadísticas se pueden aplicar. Confundir una escala con otra es uno de los errores más comunes en el análisis de datos.

Las cuatro escalas de medición

Existen cuatro niveles jerárquicos, cada uno añadiendo propiedades a los anteriores. La base es la escala nominal, donde los datos son simplemente etiquetas sin orden intrínseco. Un ejemplo claro es el color de ojos: decir que el "azul" es mayor que el "verde" carece de sentido matemático, aunque se puedan numerar (1, 2, 3). Aquí, la suma de dos colores no produce un tercer color significativo.

Subiendo un peldaño, encontramos la escala ordinal. Aquí existe un orden claro, pero la distancia entre los valores no es necesariamente constante. Las calificaciones escolares (Sobresaliente, Notable, Aprobado) ilustran esto perfectamente. La diferencia entre un Aprobado y un Notable no es necesariamente igual a la diferencia entre un Notable y un Sobresaliente, pero sabemos que uno está por encima del otro.

Las escalas de intervalo introducen la propiedad de la distancia constante. La diferencia entre 10 y 20 es idéntica a la diferencia entre 30 y 40. Sin embargo, carecen de un cero absoluto. La temperatura en grados Celsius es el ejemplo clásico: 0 °C no significa "ausencia total de calor", sino el punto de congelación del agua. Por tanto, decir que 20 °C es el "doble de caliente" que 10 °C es una afirmación válida solo si se considera la distancia, no la proporción absoluta.

La escala de razón es la más rica en información. Posee orden, distancia constante y, crucialmente, un cero absoluto que indica la ausencia total de la magnitud medida. El peso, la estatura o la edad entran en esta categoría. Un objeto de 0 kg pesa nada, y un objeto de 20 kg pesa exactamente el doble que uno de 10 kg. Esto permite el uso de la razón como operación matemática válida.

Dato curioso: La distinción entre intervalo y razón es vital en física. Si usas la escala Kelvin para la temperatura, pasas de intervalo a razón porque el cero absoluto (0 K) sí representa la ausencia de energía térmica, permitiendo decir que 273 K es el doble de frío que 136.5 K.

La elección de la escala limita el análisis. No se puede calcular la media aritmética de datos nominales (¿cuál es la media entre "Rojo" y "Azul"?) sin perder información. Por el contrario, en una escala de razón, casi todas las operaciones estadísticas son válidas.

Escala Propiedades Ejemplo Operación válida
Nominal Etiqueta, igualdad Color, Género, ID de empleado Moda, Chi-cuadrado
Ordinal Orden, desigualdad Calificación (A, B, C), Nivel de dolor Mediana, Percentiles
Intervalo Distancia constante, cero arbitrario Temperatura (°C), Año calendario Media, Desviación estándar
Razón Cero absoluto, proporción Peso, Altura, Edad, Ingreso Todas las anteriores + Razón

Comprender estas diferencias evita errores garrafales al interpretar resultados. Aplicar una prueba paramétrica a datos ordinales puede funcionar, pero tratar datos nominales como si fueran de razón distorsiona la realidad. La precisión en la clasificación es el primer paso hacia un análisis robusto.

Variables cualitativas y cuantitativas

La clasificación de variables es el primer paso en cualquier análisis estadístico, ya que determina qué herramientas matemáticas se aplican correctamente. Esta división binaria separa los datos en dos grandes familias: las variables cualitativas, que describen atributos o características, y las variables cuantitativas, que miden magnitudes numéricas. Comprender esta distinción evita errores comunes, como calcular la media de datos que, técnicamente, solo deberían contarse.

Variables cualitativas (categóricas)

Las variables cualitativas responden a la pregunta "de qué tipo es". No implican una magnitud numérica inherente, aunque a menudo se asignan números para facilitar su procesamiento en hojas de cálculo. Se dividen en dos subtipos según exista o no un orden lógico entre sus categorías.

Las variables nominales son las más simples. Sus categorías son mutuamente excluyentes pero carecen de jerarquía natural. El color de ojos (azul, verde, marrón) o la nacionalidad (española, mexicana, japonesa) son ejemplos clásicos. Decir que "azul" es mayor que "verde" carece de sentido estadístico. Aquí, la moda es la medida de tendencia central más útil, mientras que la media aritmética suele ser un valor intermedio sin interpretación clara.

En cambio, las variables ordinales introducen un orden jerárquico. Las categorías se pueden clasificar de menor a mayor, pero la distancia entre ellas no necesariamente es igual. Un ejemplo típico es el nivel de satisfacción en una encuesta (Muy bajo, Bajo, Medio, Alto, Muy alto). Aunque "Alto" sigue a "Medio", no podemos afirmar que la diferencia entre "Bajo" y "Medio" sea idéntica a la que hay entre "Medio" y "Alto". Esto limita el uso de operaciones aritméticas complejas.

Dato curioso: Muchos estudiantes cometen el error de tratar los códigos postales como variables cuantitativas porque están compuestos por números. Sin embargo, son variables nominales: restar un código postal a otro no produce una distancia geográfica significativa.

Variables cuantitativas (numéricas)

Las variables cuantitativas expresan una cantidad medible. Permiten operaciones matemáticas directas, como sumar, restar o calcular promedios. Esta categoría se subdivide en discretas y continuas, una distinción fundamental que depende de cómo se obtiene el dato.

Una variable discreta toma valores aislados y contables. Generalmente, el resultado de una cuenta. El número de hijos en una familia es el ejemplo por excelencia: una familia puede tener 2 o 3 hijos, pero rara vez se dice que tiene 2.5 hijos, a menos que se haga una media de varios grupos. Otros ejemplos incluyen el número de fallos en una línea de producción o las caras que salen al lanzar un dado. Estas variables suelen modelarse mediante distribuciones como la de Poisson o la Binomial.

Las variables continuas, por el contrario, pueden asumir cualquier valor dentro de un intervalo. Son el resultado de una medición, lo que implica que, teóricamente, pueden tener infinitos decimales. El peso de una persona, la temperatura ambiente o el tiempo que tarda un corredor en cruzar la meta son continuos. Si medimos el peso como 70 kg, eso es una aproximación; con una báscula más precisa, podríamos obtener 70.234 kg. La precisión depende del instrumento, no de la naturaleza de la variable.

La diferencia clave radica en la naturaleza del dato: si puedes contar los valores posibles uno por uno, es discreto. Si puedes medirlo y encontrar valores intermedios infinitos, es continuo. Esta distinción afecta directamente a la elección de la prueba estadística adecuada.

En la práctica, a veces se convierten unas en otras. Por ejemplo, si agrupamos la edad continua en rangos de 5 años (20-24, 25-29), la variable se comporta como si fuera ordinal o discreta. Esta transformación es común en encuestas para simplificar el análisis, pero conlleva una pérdida de información detallada. La consecuencia es directa: mayor simplicidad analítica, menor precisión descriptiva.

Historia de la medición estadística

El concepto de variable estadística no siempre fue tan riguroso como lo es en la actualidad. En sus inicios, la medición se trataba casi como una extensión directa de la geometría euclidiana, donde las distancias eran lo único que importaba. Esta visión cambió drásticamente durante la segunda mitad del siglo XIX, impulsada por la necesidad de cuantificar lo que parecía ser lo más subjetivo: la mente humana y la herencia biológica.

De la correlación a la distribución normal

François Arago ya había introducido nociones de variabilidad en la astronomía, pero fue Francis Galton quien sentó las bases de la estadística descriptiva moderna al estudiar la herencia. Galton no solo identificó la "regresión a la media", sino que trató de cuantificar la relación entre variables mediante el coeficiente de correlación. Su trabajo demostró que las variables no eran entidades aisladas, sino que podían moverse juntas de manera predecible.

Karl Pearson perfeccionó este enfoque matemático. Él formalizó la idea de que una variable aleatoria podía resumirse mediante su media y su varianza, asumiendo que la mayoría de los fenómenos seguían la distribución normal. Para Pearson, la variable era esencialmente un número continuo. Esta visión fue poderosa pero limitada: trataba las categorías y los órdenes como si fueran distancias lineales, a veces forzando los datos para que encajaran en el molde gaussiano.

Sabías que: El coeficiente de correlación de Pearson, aquel símbolo r que aparece en casi toda tabla de datos, fue diseñado originalmente para medir la relación entre la altura de los padres y la de los hijos, no necesariamente para medir cualquier par de números.

El problema con este enfoque era la suposición implícita de que todas las escalas eran iguales. Sumar dos temperaturas o dos pesos tiene un significado físico diferente, pero matemáticamente se trataban de forma idéntica. Esta confusión generó errores sistemáticos en la psicofísica y en la economía aplicada.

La revolución de las escalas de Stevens

La distinción fundamental llegó en 1946 con el artículo "On the Theory of Scales of Measurement" de Stanley Smith Stevens. Stevens no inventó las escalas, pero las clasificó lógicamente, demostrando que el tipo de variable determina las operaciones matemáticas válidas sobre ella. Esta clasificación separó las variables cuantitativas en dos tipos principales: de intervalo y de razón.

La diferencia es sutil pero crítica. Una variable de intervalo, como la temperatura en grados Celsius, tiene distancias iguales entre puntos, pero carece de un cero absoluto significativo. Cero grados no significa "ausencia total de calor". Por lo tanto, decir que 20°C es el doble de caliente que 10°C es, estrictamente hablando, una afirmación matemática válida pero física engañosa si no se considera la escala.

En cambio, una variable de razón, como la longitud o el peso, tiene un cero absoluto. Aquí, las proporciones tienen sentido real. Dos metros son el doble de un metro. Esta distinción permitió a los estadísticos elegir las pruebas correctas. Por ejemplo, la media geométrica es más adecuada para datos de razón con distribución sesgada, mientras que la media aritmética funciona bien en intervalos.

Stevens también incluyó las escalas nominales y de orden. Las nominales (como el género o el color) solo permiten contar frecuencias. Las de orden (como las notas de la escuela: A, B, C) permiten saber cuál es mayor, pero no cuánto mayor es. Antes de Stevens, los investigadores a menudo trataban las notas de la escuela como si fueran distancias iguales, cometiendo errores al calcular promedios.

Esta formalización cambió la psicofísica. Antes, se asumía que la percepción humana era lineal. Con las escalas de razón, se pudo demostrar que la percepción sigue leyes de potencia. La relación entre el estímulo físico y la sensación percibida no es una simple suma, sino una multiplicación. Esto llevó a la ley de Stevens, que describe cómo la magnitud percibida () se relaciona con la intensidad del estímulo ():

Donde es una constante y es el exponente que varía según el sentido (vista, oído, tacto). Esta fórmula solo funciona si se entiende que la intensidad del estímulo es una variable de razón, con un cero absoluto. Si se tratara como intervalo, el exponente perdería su significado físico.

La consecuencia es directa: la elección de la escala de medición no es un detalle menor, es la base de todo el análisis. Una mala elección lleva a promedios engañosos y a conclusiones falsas. En la estadística moderna, antes de aplicar cualquier prueba, el primer paso es identificar el nivel de medición de la variable. Esta disciplina, nacida de la necesidad de ordenar el caos de los datos, sigue siendo la herramienta más poderosa para distinguir entre el ruido y la señal en la investigación científica.

¿Qué diferencia las variables dependientes e independientes?. Imagen: Image by LadyofHats + my own editing / Wikimedia Commons / Public domain

¿Qué diferencia las variables dependientes e independientes?

La distinción entre variables depende de su función causal o predictiva dentro de un modelo. No se trata solo de nombres, sino de la dirección de la relación que se está estudiando. En el diseño experimental y el análisis de regresión, esta jerarquía define cómo se mide el efecto de un cambio sobre otro.

Roles en el modelo: predictores y respuestas

La variable independiente, también llamada predictora o explicativa, es aquella que el investigador manipula o selecciona para observar su impacto. Se considera la "causa" hipotética o el factor de entrada. Por el contrario, la variable dependiente, o variable criterio, es el resultado que se mide. Su valor "depende" de los cambios en la independiente. Esta relación se formaliza en la regresión lineal simple:

En esta ecuación, representa la variable independiente y la dependiente. El coeficiente indica cuánto cambia por cada unidad que aumenta . Entender esta dirección es crucial: invertir las variables cambia completamente la interpretación del modelo.

El ruido del entorno: control y confusión

Rara vez la relación entre dos variables es perfecta. Existen factores externos que pueden distorsionar los resultados si no se gestionan. Las variables de control son aquellas que se mantienen constantes durante el experimento para aislar el efecto de la variable independiente. Por otro lado, las variables intervinientes o confusoras son factores que afectan tanto a la independiente como a la dependiente, creando una relación aparente que podría no ser causal.

Dato curioso: La famosa correlación entre el consumo de helado y los ahogamientos en playas se debe a una variable confusora: la temperatura. El calor aumenta tanto la compra de helados como la cantidad de bañistas, sin que uno cause directamente al otro.

Ejemplo práctico: estudio clínico

Imagina un ensayo clínico para probar un nuevo fármaco contra la presión arterial. Aquí, la dosis del fármaco es la variable independiente (el investigador decide quién recibe 10 mg y quién 20 mg). La presión arterial medida después de una semana es la variable dependiente (el resultado que se observa). Sin embargo, la edad de los pacientes actúa como variable confusora, ya que la presión tiende a subir con la edad independientemente de la dosis. Para controlar esto, los investigadores podrían agrupar a los pacientes por rangos de edad o incluir la edad como una segunda variable independiente en un modelo de regresión múltiple. La precisión del estudio depende de identificar estos actores ocultos.

Aplicaciones prácticas en investigación

La selección adecuada de la variable determina la estructura misma del análisis estadístico. No se trata solo de etiquetar datos, sino de definir qué información matemática se extrae de ellos. Una variable mal clasificada puede convertir un análisis complejo en una aproximación burda, o viceversa, simplificar excesivamente una relación rica en matices. La precisión en esta etapa inicial evita que el ruido domine a la señal.

Selección de pruebas según el tipo de variable

Las pruebas estadísticas no son universales; dependen de la escala de medición. Para variables nominales, donde el orden no importa (como el color de ojos o la marca de automóvil), la prueba de Chi-cuadrado es estándar. Evalúa si la distribución observada difiere significativamente de la esperada. En cambio, para variables de intervalo o razón, como la temperatura o el salario, la prueba T de Student permite comparar medias. Esta distinción es fundamental porque usar una prueba paramétrica en datos puramente nominales introduce errores de interpretación sistemáticos.

Dato curioso: La prueba T de Student debe su nombre a William Sealy Gosset, quien la publicó bajo el seudónimo "Student" en 1908 para que su empleador, la cervecería Guinness, mantuviera el secreto de su método de control de calidad.

Codificación de datos y bases de datos

La forma en que se codifican las variables en una base de datos influye en su manipulación posterior. Por ejemplo, codificar el género como 0 y 1 (dicotomía) facilita cálculos rápidos, como la media, que indica la proporción del grupo "1". Sin embargo, si se codifica como categorías textuales ("Hombre", "Mujer", "Otro"), se requiere una transformación previa para muchos modelos estadísticos. La consistencia en la codificación evita errores de agrupamiento y mejora la eficiencia del procesamiento. Un código claro permite a otros investigadores entender los datos sin necesidad de una leyenda extensa.

Errores comunes: confundir orden con distancia

Un error frecuente es tratar una variable ordinal como si fuera de intervalo. Las variables ordinales tienen un orden claro (por ejemplo, "Bajo", "Medio", "Alto"), pero la distancia entre los niveles no necesariamente es igual. Asumir que la diferencia entre "Bajo" y "Medio" es la misma que entre "Medio" y "Alto" introduce sesgos. Esto es crítico en escalas de Likert (como "Muy de acuerdo" a "Muy de acuerdo"), donde muchos investigadores calculan la media como si los puntos tuvieran valores numéricos equidistantes. Aunque esta práctica es común, estadísticamente es una aproximación que puede distorsionar los resultados si la distribución no es simétrica.

La consecuencia es directa: al forzar una variable ordinal a comportarse como de intervalo, se gana en simplicidad matemática pero se pierde en precisión conceptual. Verificar la naturaleza de la distancia entre categorías antes de elegir la prueba estadística es un paso que separa un análisis robusto de uno superficial.

Ejercicios resueltos

Ejercicio 1: Clasificación de variables en un estudio de mercado

Un investigador analiza datos de clientes de una tienda minorista. Debes clasificar las siguientes cinco variables según su naturaleza (cuantitativa o cualitativa) y, si es cualitativa, su nivel de medición (nominal u ordinal).

La clasificación requiere analizar si los datos permiten operaciones matemáticas significativas. El código postal es numérico, pero sumar dos códigos no tiene sentido estadístico; por tanto, es cualitativa nominal. El nivel de satisfacción tiene un orden inherente, lo que la hace cualitativa ordinal. El monto gastado y el tiempo de espera son medidas continuas con unidad definida, por lo que son cuantitativas continuas. La marca de café es una etiqueta sin orden jerárquico, clasificándose como cualitativa nominal.

Ejercicio 2: Escala de medición para satisfacción laboral

Una empresa introduce un nuevo indicador: "Índice de Bienestar Empleado", calculado mediante una encuesta de 1 a 10 puntos. Se debate si tratar este dato como escala de intervalo o de razón. Analiza cuál es la escala más adecuada y por qué.

Las escalas de razón requieren un cero absoluto significativo, donde "cero" implica la ausencia total del atributo medido. En una escala de satisfacción de 1 a 10, el "1" no significa "ausancia total de satisfacción" en el sentido físico, sino un nivel bajo. Además, la diferencia entre 2 y 3 puntos puede no ser perceptualmente igual a la diferencia entre 8 y 9 puntos. Por estas razones, la escala de intervalo es la más precisa para este tipo de datos de encuesta, aunque en la práctica estadística básica a menudo se trata como cuantitativa continua para simplificar los cálculos.

Debate actual: Muchos estadísticos argumentan que tratar datos ordinales (como escalas de Likert) como de intervalo es una "aproximación útil" pero no estrictamente rigurosa, lo que puede afectar la validez de pruebas paramétricas como la prueba t de Student.

Ejercicio 3: Variables dependientes e independientes

Identifica las variables en la siguiente hipótesis de investigación: "El aumento de las horas de estudio diarias mejora las calificaciones finales de los estudiantes de secundaria."

La variable independiente es aquella que se manipula o se considera la causa. En este caso, son las "horas de estudio diarias". Es el factor que varía para observar su efecto. La variable dependiente es el resultado o efecto que se mide. Aquí, son las "calificaciones finales". Estas dependen de la cantidad de horas estudiadas. Es crucial distinguir que la relación propuesta es de causalidad potencial, no necesariamente de correlación perfecta, ya que otros factores como el sueño o la nutrición también influyen.

Comprender esta distinción es fundamental para diseñar experimentos y seleccionar las pruebas estadísticas adecuadas. La consecuencia es directa: si confundes ambas, tu análisis de regresión podría invertirse, llevando a conclusiones erróneas sobre la relación entre las variables.

Preguntas frecuentes

¿Cuál es la diferencia entre variable cualitativa y cuantitativa?

Una variable cualitativa describe una cualidad o característica (como el color de ojos o la marca de un coche), mientras que una variable cuantitativa expresa una cantidad numérica (como la estatura en centímetros o el salario mensual).

¿Qué es una variable dependiente y cuál es su función?

La variable dependiente es el resultado que se mide en un estudio para ver cómo cambia en respuesta a otra variable. Es el "efecto" que se observa. Por ejemplo, en un estudio sobre fertilizantes, el crecimiento de la planta sería la variable dependiente.

¿Puede una variable ser a la vez cualitativa y cuantitativa?

Sí, dependiendo de cómo se mida. El "nivel educativo" puede ser cualitativa (Primaria, Secundaria, Universidad) si se trata como categorías, o cuantitativa (1, 2, 3) si se asignan valores numéricos con orden jerárquico, lo que la convierte en una variable ordinal.

¿Por qué es importante clasificar las variables antes de analizar los datos?

La clasificación determina qué pruebas estadísticas se pueden aplicar. Por ejemplo, no se puede calcular la media aritmética de una variable cualitativa nominal (como el color) de la misma forma que se hace con una variable cuantitativa continua (como el peso).

¿Qué es una variable continua?

Es un tipo de variable cuantitativa que puede tomar cualquier valor dentro de un rango, incluyendo decimales. Por ejemplo, el tiempo de carrera en una maratón puede ser 2 horas, 30 minutos y 45,5 segundos, dependiendo de la precisión del reloj.

Resumen

Las variables son los bloques constructivos de la estadística, permitiendo medir y comparar características de una población. Se clasifican principalmente en cualitativas (nominales y ordinales) y cuantitativas (discretas y continuas), y en estudios experimentales se distinguen como independientes (causa) o dependientes (efecto).

Una correcta identificación y clasificación de las variables es esencial para seleccionar las herramientas estadísticas adecuadas, interpretar los resultados con precisión y evitar errores comunes en la investigación científica y aplicada.

Véase también