Las variables para el aprendizaje automático son los datos estructurados que alimentan a los modelos de inteligencia artificial para que estos puedan aprender patrones, tomar decisiones y realizar predicciones. En el contexto de la ciencia de datos, estas variables (también llamadas características o atributos) son la materia prima esencial; sin una selección y preparación adecuada de las mismas, incluso el algoritmo más sofisticado puede caer en el fenómeno conocido como Garbage In, Garbage Out (basura entra, basura sale).

El manejo eficiente de estas variables implica entender su naturaleza matemática, su relación con la variable objetivo y cómo interactúan entre sí. Esta disciplina, conocida como ingeniería de características, determina en gran medida el rendimiento de un modelo predictivo, influyendo directamente en su precisión, velocidad de cálculo y capacidad de generalización a nuevos datos no vistos anteriormente.

Definición y concepto

En el contexto del aprendizaje automático, una variable, frecuentemente denominada característica o feature, representa una propiedad medible o observable de los datos que el modelo utiliza para realizar predicciones o tomar decisiones. Estas variables constituyen la entrada del sistema, actuando como los indicadores que permiten al algoritmo discernir patrones, agrupar datos similares o predecir resultados futuros. No se trata simplemente de números aislados, sino de representaciones estructuradas de la realidad que el modelo intenta comprender.

Es fundamental distinguir claramente entre las variables de entrada y la variable objetivo, conocida como target. Mientras que las características son las pistas disponibles, la variable objetivo es la respuesta que el modelo busca predecir. En un escenario de clasificación para detectar correos electrónicos como "spam", las características podrían incluir la longitud del asunto, la presencia de palabras clave como "oferta" o "urgente", y el remitente. La variable objetivo, en cambio, es el estado final: "spam" o "no spam". El algoritmo aprende la relación funcional entre el conjunto de características y este objetivo.

De los datos crudos a las características procesadas

Los datos en su estado inicial, o datos crudos, rara vez son inmediatamente útiles para los algoritmos de aprendizaje automático sin un proceso previo de transformación. Un dato crudo es una observación sin procesar, como una marca de tiempo específica o una cadena de texto larga. Una característica, por otro lado, es el resultado de aplicar ingeniería de características (feature engineering), un proceso que convierte esos datos brutos en entradas significativas.

Consideremos el ejemplo de la edad de un usuario. Como dato crudo, la edad puede ser simplemente el número de años transcurridos desde su nacimiento. Sin embargo, para un modelo que predice la suscripción a un servicio de streaming, la edad puede transformarse en características más informativas. Podría dividirse en rangos etarios, como "18-24 años" o "25-34 años", o incluso convertirse en una variable categórica que indica si el usuario está en edad laboral o jubilada. Esta transformación permite al modelo capturar no solo la magnitud numérica, sino también el significado contextual de la edad.

Dato curioso: La calidad de las características suele importar más que la complejidad del algoritmo. Un modelo simple con características bien seleccionadas a menudo supera a un modelo complejo con datos ruidosos.

La selección y transformación adecuadas de características pueden reducir la dimensionalidad de los datos, eliminando el ruido y mejorando la capacidad de generalización del modelo. Esto significa que el modelo no solo se desempeña bien con los datos de entrenamiento, sino que también mantiene su precisión al enfrentar nuevos datos. La ingeniería de características requiere tanto conocimiento del dominio específico como intuición estadística para extraer la máxima información de los datos disponibles.

¿Qué tipos de variables existen en el aprendizaje automático?

La clasificación de las variables es el primer filtro que determina cómo un algoritmo procesará la información. En aprendizaje automático, no todos los datos se comportan igual; distinguirlos correctamente evita errores de escalado y mejora la precisión del modelo. Las variables se dividen en dos grandes familias: cuantitativas (numéricas) y cualitativas (categóricas). Esta distinción no es solo semántica, sino funcional.

Variables cuantitativas

Las variables cuantitativas toman valores numéricos con significado matemático. Se subdividen en continuas y discretas. Las variables continuas pueden asumir cualquier valor dentro de un rango, como la temperatura o el peso. Las discretas toman valores enteros, a menudo contables, como el número de hijos o errores en un proceso. El tratamiento de estas variables suele requerir normalización o estandarización para que los modelos basados en distancia, como el vecino más cercano, no sean dominados por escalas mayores.

Variables cualitativas

Las variables cualitativas describen atributos o categorías. Las nominales carecen de orden inherente, como el color del ojo o la marca de un coche. Las ordinales sí poseen una jerarquía natural, como la calificación escolar (Sobresaliente, Notable, Aprobado) o el nivel de satisfacción del cliente. Un error común es tratar las variables ordinales como nominales, perdiendo información de orden, o como continuas, asumiendo distancias iguales entre categorías cuando no las hay.

Tipo de variable Ejemplo Tratamiento típico en ML
Cuantitativa continua Edad (años) Estandarización (Z-score) o normalización (Min-Max)
Cuantitativa discreta Número de compras A veces se trata como continua; otras veces como categórica si hay pocos valores
Cualitativa nominal País de origen Codificación One-Hot (dummy variables)
Cualitativa ordinal Nivel de educación Codificación de etiquetas (Label Encoding) o binaria
Dato curioso: La elección del tipo de variable puede cambiar completamente la complejidad computacional. Una variable nominal con 100 categorías se convierte en 100 columnas con One-Hot, mientras que una ordinal solo añade una columna numérica.

El impacto en la elección del modelo es directo. Los árboles de decisión manejan bien las variables categóricas sin necesidad de codificación extensa, mientras que la regresión lineal requiere que las variables independientes sean principalmente cuantitativas o correctamente codificadas. Ignorar la naturaleza de la variable puede introducir ruido significativo. Por ejemplo, aplicar una media a una variable nominal como "Color" es estadísticamente débil, aunque matemáticamente posible tras codificación. La precisión del modelo depende de respetar la estructura inherente de los datos.

Historia y evolución del ingeniería de características

De la regresión lineal a la era de los datos masivos

Los orígenes de la ingeniería de características (feature engineering) se remontan a la estadística clásica, donde la selección de variables era un proceso manual y dependiente del experto. En la regresión lineal simple, el objetivo era encontrar la recta que mejor ajustaba los datos mediante el método de mínimos cuadrados. Esta técnica buscaba minimizar la suma de las diferencias al cuadrado entre los valores observados y los predichos:

En este contexto, la calidad del modelo dependía casi enteramente de la variable independiente . Si el experto elegía una variable mal medida o poco relevante, el coeficiente perdería su poder explicativo. La consecuencia es directa: el modelo era tan bueno como la variable que lo alimentaba.

Durante las décadas de 1970 y 1980, con el auge del árbol de decisión y el vecino más cercano, la ingeniería de características se volvió más sistemática. Los ingenieros comenzaban a transformar variables categóricas en numéricas (codificación one-hot) o a crear interacciones entre variables. Este proceso era intensivo en tiempo y requería un conocimiento profundo del dominio, ya que cada nueva característica debía ser justificada estadísticamente.

El cambio de paradigma con el aprendizaje profundo

La llegada del aprendizaje profundo (deep learning) a principios del siglo XXI transformó radicalmente este enfoque. Las redes neuronales, especialmente las redes convolucionales (CNN) y las redes recurrentes (RNN), introdujeron la capacidad de extraer características automáticamente de los datos crudos. Ya no era necesario que un experto definiera manualmente qué significaba un "borde" en una imagen o una "palabra clave" en un texto; la red aprendía estas representaciones mediante capas sucesivas de abstracción.

Debate actual: Aunque el aprendizaje automático reduce la carga manual, la ingeniería de características no ha muerto. En dominios complejos como la medicina o las finanzas, combinar el conocimiento del experto con la capacidad de las redes neuronales suele superar a los modelos puramente automáticos.

Este cambio no eliminó la necesidad de entender los datos, sino que desplazó el esfuerzo. En lugar de crear características, los ingenieros se centraron en la arquitectura de la red y en la normalización de los datos de entrada. La flexibilidad de las redes neuronales permitió manejar datos no estructurados, como imágenes y texto, con una eficiencia que los métodos clásicos apenas alcanzaban.

¿Cómo se seleccionan las variables más relevantes?

Seleccionar las variables adecuadas es crucial porque no todos los datos aportan información útil. Incluir demasiadas características puede saturar el modelo, mientras que pocas pueden dejar información clave fuera. Existen tres enfoques principales para resolver este problema: filtros, envolturas y métodos integrados.

Métodos de filtro

Los métodos de filtro evalúan las características de forma independiente del algoritmo de aprendizaje final. Se basan en medidas estadísticas para calificar cada variable. La correlación es una técnica común; mide la relación lineal entre una variable independiente y la variable objetivo. Una alta correlación sugiere que la variable aporta información predictiva significativa.

Dato curioso: La correlación no implica causalidad. Dos variables pueden moverse juntas por pura coincidencia estadística, lo que puede engañar a un modelo si no se analiza con cuidado.

Otra técnica es la prueba de significancia estadística, como la prueba t para regresión o la prueba chi-cuadrado para clasificación. Estas pruebas ayudan a determinar si la relación observada es estadísticamente significativa o simplemente ruido aleatorio.

Métodos de envoltura

Los métodos de envoltura tratan la selección de características como un problema de búsqueda. Evalúan subconjuntos de variables utilizando el propio modelo de aprendizaje como función de costo. La selección hacia adelante comienza con una variable y añade la que más mejora el rendimiento en cada paso. Por el contrario, la selección hacia atrás parte de todas las variables y elimina la menos significativa iterativamente.

Estos métodos son más precisos que los filtros porque consideran las interacciones entre variables, pero son computacionalmente más costosos. Son ideales cuando el número de características no es excesivamente grande.

Métodos integrados

Los métodos integrados incorporan la selección de características dentro del proceso de entrenamiento del modelo. El Lasso (Least Absolute Shrinkage and Selection Operator) es un ejemplo destacado. Aplica una penalización a la magnitud de los coeficientes del modelo, forzando a algunos de ellos a ser exactamente cero. Esto elimina automáticamente las variables menos relevantes.

La función de costo del Lasso incluye el término de penalización:

Donde controla la fuerza de la penalización y son los coeficientes. Otro método integrado es la importancia de características en los árboles de decisión, que mide cuánto reduce cada variable la impureza del nodo.

La maldición de la dimensionalidad

La maldición de la dimensionalidad se refiere a los problemas que surgen al trabajar con datos de muchas dimensiones. A medida que aumenta el número de características, el volumen del espacio de datos crece exponencialmente, lo que hace que los datos parezcan más dispersos. Esto dificulta la generalización del modelo y aumenta el riesgo de sobreajuste.

En espacios de alta dimensión, la distancia entre puntos de datos tiende a volverse menos significativa, lo que afecta a algoritmos basados en la distancia, como el vecino más cercano. La selección adecuada de variables mitiga este efecto, concentrando la información en las dimensiones más informativas y mejorando la eficiencia del modelo.

Técnicas de transformación y escalado. Imagen: joshu from nyc, usa / Wikimedia Commons / CC BY-SA 2.0

Técnicas de transformación y escalado

Los algoritmos de aprendizaje automático rara vez procesan los datos tal como salen de la base de datos. La mayoría de los modelos matemáticos asumen implícitamente que las variables numéricas están en escalas comparables o siguen distribuciones específicas. Si una variable mide la edad (0-100) y otra el salario anual (20.000-200.000), el algoritmo podría interpretar erróneamente que el salario es mil veces más importante, simplemente por su magnitud. Corregir estas desproporciones es fundamental para la precisión del modelo.

Escalado numérico

Existen dos técnicas principales para ajustar el rango de los datos numéricos. La elección entre ellas depende de la distribución de la variable y del algoritmo utilizado.

La normalización Min-Max comprime todos los valores dentro de un intervalo fijo, habitualmente entre 0 y 1. Esta técnica es útil cuando el algoritmo no asume ninguna distribución subyacente, como en las redes neuronales o los algoritmos basados en la distancia euclidiana (K-Vecinos Más Cercanos). La fórmula es:

El riesgo de Min-Max es su sensibilidad a los valores atípicos. Un solo dato extremo puede comprimir el resto de la información en un rango muy pequeño, perdiendo detalle. Por eso, si tus datos tienen colas largas o valores extremos, esta técnica puede distorsionar la señal.

La estandarización (o puntuación Z), por otro lado, centra los datos en torno a la media y los escala por la desviación estándar. No tiene un límite superior o inferior fijo, lo que la hace más robusta frente a valores atípicos. Es la opción preferida para algoritmos que asumen normalidad, como la Regresión Lineal o el Análisis de Componentes Principales (PCA).

Donde μ es la media y σ la desviación estándar. Esta técnica preserva la forma de la distribución original, solo la traslada y la estira. La consecuencia es directa: los coeficientes del modelo se vuelven más interpretables porque están en unidades de desviación estándar.

Codificación de variables categóricas

Las máquinas entienden números, no etiquetas. Una variable como "Color" con valores {Rojo, Verde, Azul) debe convertirse en formato numérico sin introducir sesgos artificiales.

El Label Encoding asigna un número entero único a cada categoría (Rojo=0, Verde=1, Azul=2). Es simple y eficiente en espacio, pero introduce un orden implícito: el modelo podría pensar que el Azul (2) es el doble de "algo" que el Rojo (0), aunque no haya relación ordinal. Úsalo solo cuando las categorías tengan un orden natural, como "Bajo, Medio, Alto".

El One-Hot Encoding crea una nueva columna binaria (0 o 1) para cada categoría. Si tienes tres colores, creas tres columnas. Esto elimina el orden falso, pero aumenta la dimensionalidad de los datos. Si tienes muchas categorías (por ejemplo, "Ciudad" con 100 valores), puedes terminar con 100 columnas nuevas, lo que puede ralentizar el cálculo y provocar la "maldición de la dimensionalidad".

Dato curioso: En el One-Hot Encoding, a menudo se elimina una de las columnas para evitar la multicolinealidad perfecta. Si sabes que una fila es 0 en todas las demás categorías, la última es innecesaria. Este detalle, conocido como "trampa de la variable dummy", es crucial en la regresión lineal clásica.

Manejo de valores atípicos

Los valores atípicos (outliers) son observaciones que se desvían significativamente del patrón general. No siempre son errores; a veces son la señal más importante. Un sueldo de 5 millones en una muestra de 500.000 puede ser un error de tipeo o el CEO de la empresa.

Antes de decidir qué hacer, visualiza los datos con un diagrama de caja o calcula la puntuación Z. Si la puntuación Z es mayor a 3 o menor a -3, el dato está a más de tres desviaciones estándar de la media. En distribuciones normales, esto ocurre solo en el 0.3% de los casos.

Las estrategias comunes son:

No elimines valores atípicos a ciegas. En detección de fraudes, el valor atípico es exactamente lo que buscas. Eliminarlo sería matar al mensajero. Analiza el contexto del negocio antes de aplicar cualquier transformación. La preparación de variables no es solo matemática; es interpretación de datos.

Aplicaciones prácticas en modelos predictivos

La selección y transformación de variables no es un mero trámite previo al entrenamiento de un modelo; define la arquitectura misma de la predicción. Un dato crudo mal interpretado puede convertir una variable predictiva poderosa en ruido estadístico. La forma en que las variables se comportan cambia radicalmente dependiendo del algoritmo elegido.

Regresión lineal y la sensibilidad a los supuestos

En la regresión lineal, las variables explicativas deben cumplir con ciertas condiciones para que los coeficientes sean estimadores insesgados y eficientes. Una de las suposiciones más críticas es la linealidad entre la variable dependiente y las independientes. Si esta relación es no lineal y no se transforma la variable (por ejemplo, aplicando un logaritmo), el error estándar aumenta y el poder explicativo del modelo disminuye.

Además, la multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas. Esto infla la varianza de los coeficientes, haciendo que pequeños cambios en los datos produzcan grandes oscilaciones en las predicciones. La fórmula para el coeficiente de regresión simple ilustra esta dependencia directa:

Si el denominador se vuelve pequeño debido a la falta de variabilidad o a la superposición con otra variable, el valor de β1 se vuelve inestable. La consecuencia es directa: el modelo pierde fiabilidad.

Árboles de decisión y la naturaleza de los cortes

A diferencia de la regresión lineal, los árboles de decisión (como CART o Random Forest) son menos sensibles a la escala de las variables, pero muy dependientes de la calidad de los "puntos de corte". Cada nodo del árbol divide los datos basándose en el valor de una variable que maximiza la pureza de las hojas resultantes (generalmente usando la impureza de Gini o la entropía).

Una mala elección de variables aquí significa incluir características ruidosas que crean ramas innecesarias. Esto lleva al sobreajuste (overfitting), donde el modelo memoriza el ruido en lugar de aprender la tendencia general. Si una variable categórica tiene muchas categorías poco frecuentes, el árbol puede crear divisiones específicas para cada una, perdiendo capacidad de generalización para nuevos datos.

Dato curioso: Los árboles de decisión son invariantes a transformaciones monótonas. Si duplicas todos los valores de "edad" en un árbol, las decisiones de división permanecen idénticas, a diferencia de lo que ocurre en una regresión lineal sin estandarizar.

Redes neuronales y la importancia del escalado

En las redes neuronales, especialmente aquellas con funciones de activación sigmoide o tangente hiperbólica, el escalado de variables es crítico. Si las entradas tienen rangos muy diferentes (por ejemplo, "edad" entre 20-60 y "ingresos" entre 1000-5000), el descenso de gradiente puede volverse lento y oscilante.

Esto se debe a que las capas ocultas reciben señales desproporcionadas. La normalización (escalar datos a media 0 y desviación estándar 1) o la estandarización (escalar a un rango como [0,1]) ayudan a que el modelo converga más rápido. Sin esto, las variables con mayor magnitud dominan las ponderaciones iniciales, obligando a las otras a luchar por influencia.

Una mala elección de variables en redes neuronales también incluye la inclusión de características redundantes que aumentan la dimensionalidad sin añadir información nueva, un fenómeno conocido como la "maldición de la dimensionalidad". Esto requiere más datos de entrenamiento para mantener la misma precisión, aumentando el costo computacional y el riesgo de sobreajuste. La precisión del modelo depende tanto de la calidad de los datos como de cómo se preparan para el algoritmo específico.

Ejercicios resueltos

La teoría cobra sentido cuando se aplica a datos reales. Los siguientes ejercicios demuestran cómo transformar variables crudas para que un algoritmo de aprendizaje automático pueda procesarlas con precisión. Cada paso muestra el mecanismo subyacente, no solo el resultado final.

Estandarización de datos numéricos

Supongamos que medimos la estatura (en centímetros) de cuatro estudiantes: 160, 165, 170 y 175. Muchos algoritmos, como el descenso de gradiente, funcionan mejor cuando las características tienen media cero y desviación estándar uno. Este proceso se llama estandarización o normalización Z.

Primero, calculamos la media () del conjunto:

Luego, calculamos la desviación estándar (). Para ello, restamos la media a cada valor, elevamos al cuadrado, sumamos, dividimos por (para una muestra) y sacamos la raíz cuadrada:

Finalmente, aplicamos la fórmula de estandarización al primer dato (160 cm):

El valor -1.16 indica que esa estatura está aproximadamente una unidad de desviación estándar por debajo de la media. Repetir este cálculo para los otros tres valores nos da el conjunto estandarizado: {-1.16, -0.39, 0.39, 1.16}.

Codificación One-Hot para variables categóricas

Los algoritmos a menudo tratan los números como magnitudes continuas. Si codificamos colores como Rojo=1, Verde=2 y Azul=3, el modelo podría pensar que el Azul es el doble de "valor" que el Rojo, o que está más cerca del Verde. La codificación One-Hot elimina esta jerarquía artificial creando columnas binarias.

Tomemos una variable "Color" con tres categorías: Rojo, Verde y Azul. Creamos tres nuevas columnas: "Es_Rojo", "Es_Verde" y "Es_Azul". Si una fila tiene el color "Verde", su vector se convierte en [0, 1, 0].

Esta transformación convierte la variable en tres características independientes. El modelo ahora ve que "Verde" implica la ausencia total de "Rojo" y "Azul", sin implicar ningún orden numérico. Es fundamental para modelos como la regresión lineal simple o las redes neuronales profundas.

Dato curioso: Si tienes 100 categorías distintas, la codificación One-Hot crea 100 columnas nuevas. Esto se conoce como la "maldición de la dimensionalidad", donde el espacio de datos se vuelve tan disperso que el modelo necesita más datos para aprender eficazmente.

Interpretación de coeficientes en regresión logística

En una regresión logística, los coeficientes indican cómo cambia la probabilidad de que ocurra un evento cuando una variable aumenta en una unidad. Consideremos un modelo que predice si un estudiante aprueba un examen (1 = Aprobado, 0 = Suspenso) basado en las horas estudiadas.

Supongamos que el coeficiente de la variable "Horas_Estudiadas" es 0.5. Esto no significa que la probabilidad aumente en 0.5 directamente, sino que la "odds" (probabilidad dividida por 1 menos la probabilidad) se multiplica por .

Esto significa que por cada hora adicional de estudio, las probabilidades de aprobar se multiplican por 1.65. Si inicialmente las odds eran 1 (50% de probabilidad), tras estudiar una hora más, las odds pasan a ser 1.65, lo que equivale a una probabilidad aproximada del 62%. La relación es exponencial, no lineal directa. Entender esta distinción evita errores comunes al comunicar resultados a no expertos.

Preguntas frecuentes

¿Cuál es la diferencia entre una variable independiente y una variable dependiente?

La variable independiente (o característica) es la entrada del modelo, es decir, el dato que utilizamos para predecir. La variable dependiente (o objetivo) es el resultado que queremos predecir. Por ejemplo, para predecir el precio de una casa, el tamaño en metros cuadrados es la variable independiente y el precio final es la variable dependiente.

¿Qué son las variables categóricas y cómo se manejan?

Son variables que representan grupos o etiquetas sin un orden numérico inherente, como "Color" (Rojo, Azul, Verde) o "Ciudad". Los modelos de aprendizaje automático a menudo requieren transformarlas en números mediante técnicas como la codificación One-Hot (crear una columna binaria por cada categoría) o la codificación por etiquetas (asignar un número entero a cada categoría).

¿Por qué es necesario escalar las variables numéricas?

Muchos algoritmos, como la Regresión Lineal o las Máquinas de Soporte Vectorales (SVM), son sensibles a la magnitud de los datos. Si una variable varía entre 0 y 1000 y otra entre 0 y 1, la primera podría dominar el cálculo de distancias o gradientes. El escalado (como la normalización o estandarización) pone todas las variables en una escala comparable, acelerando la convergencia y mejorando la precisión.

¿Qué es la multicolinealidad y por qué es un problema?

La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí (por ejemplo, "edad en años" y "edad en meses"). Esto puede inestabilizar los coeficientes del modelo, haciendo difícil determinar el impacto individual de cada variable y aumentando el error estándar, lo que reduce la fiabilidad de las predicciones.

¿Cómo se decide qué variables eliminar de un conjunto de datos?

Se utilizan técnicas de selección de características como la prueba de significancia estadística (valor p), la importancia de características basada en árboles de decisión (como en Random Forest) o métodos de envoltura (Wrapper methods) como la selección hacia adelante o hacia atrás. El objetivo es mantener solo aquellas variables que aportan información única y relevante para reducir la complejidad del modelo.

Resumen

Las variables en el aprendizaje automático son los pilares fundamentales que determinan la calidad de las predicciones. Su correcta identificación, clasificación (numéricas, categóricas, continuas o discretas) y transformación son pasos críticos antes de alimentar cualquier algoritmo. La ingeniería de características no es solo un proceso técnico, sino una mezcla de intuición del dominio y rigor estadístico.

La selección adecuada de variables reduce el ruido, minimiza el sobreajuste (overfitting) y mejora la eficiencia computacional. Dominar técnicas como el escalado, la codificación y la reducción de dimensionalidad permite a los científicos de datos extraer el máximo valor de los datos, transformando datos crudos en información accionable y modelos robustos capaces de generalizar en entornos reales.

Referencias

  1. «variables for machine learning» en Wikipedia en español
  2. An Introduction to Statistical Learning with Applications in R (ISLR) — Stanford University
  3. Elements of Statistical Learning — Stanford University
  4. Feature Engineering and Selection: A Practical Approach for Predictive Models — O'Reilly Media
  5. The Elements of Statistical Learning: Data Mining, Inference, and Prediction — Springer