Machine learning no supervisado

El aprendizaje no supervisado es una rama fundamental del aprendizaje automático en la que los algoritmos descubren patrones ocultos en datos sin etiquetar, sin necesidad de una respuesta correcta predefinida. A diferencia del aprendizaje supervisado, donde el modelo se entrena con pares de entrada y salida, aquí el sistema explora la estructura interna de los datos para agrupar elementos similares o reducir su complejidad.

Esta capacidad de encontrar orden en el caos es esencial para el análisis exploratorio de datos, la segmentación de mercados y el procesamiento del lenguaje natural. Al permitir que los datos "hablen por sí mismos", el aprendizaje no supervisado ofrece una flexibilidad única para descubrir insights que los métodos tradicionales podrían pasar por alto.

Definición y concepto

A diferencia del aprendizaje supervisado, donde el modelo aprende mapeando entradas a salidas conocidas, aquí el sistema debe explorar la estructura interna de los datos por sí mismo. No hay un "supervisor" que indique si la predicción es correcta o incorrecta en tiempo real.

La diferencia técnica es crucial. En el aprendizaje supervisado, cada punto de datos tiene una etiqueta asociada, como una imagen de un gato etiquetada como "gato". En el no supervisado, las etiquetas existen como características medibles, pero la variable objetivo es desconocida o implícita. El algoritmo debe agrupar o reducir estos datos basándose únicamente en su similitud matemática.

Imagina un estudiante que lee un libro de texto sin mirar la clave de respuestas al final. El estudiante lee las frases, nota qué palabras aparecen juntas y empieza a intuir el significado del contexto. No sabe si su interpretación es la definitiva hasta que compara su razonamiento con otros datos. Esta analogía ilustra cómo el modelo busca coherencia interna en lugar de validar contra una verdad externa.

Mecanismo de funcionamiento

Los algoritmos no supervisados operan principalmente mediante la medición de distancias o probabilidades entre puntos de datos. El objetivo suele ser minimizar la variabilidad dentro de un grupo o maximizar la diferencia entre grupos. Esto permite identificar estructuras naturales que el ojo humano podría pasar por alto en grandes conjuntos de información.

Un ejemplo común es el agrupamiento o clustering. El algoritmo toma un conjunto de clientes de una tienda y los agrupa según sus hábitos de compra, sin saber previamente cuántos tipos de clientes existen. El resultado puede ser tres grupos distintos: compradores frecuentes, compradores estacionales y compradores ocasionales. Estas categorías emergen del análisis, no se imponen desde afuera.

Dato curioso: El aprendizaje no supervisado es a menudo más costoso computacionalmente que el supervisado porque requiere evaluar la relación entre casi todos los pares de datos, lo que hace que la escalabilidad sea un desafío constante.

La reducción de dimensionalidad es otra técnica clave. Cuando los datos tienen muchas características (variables), el algoritmo intenta resumirlos en pocas dimensiones sin perder información esencial. Esto ayuda a visualizar datos complejos y a eliminar el ruido que puede distraer al modelo.

La precisión de estos métodos es más difícil de medir que en el aprendizaje supervisado. No siempre hay una métrica única como el "error cuadrático medio". A menudo, la validez del resultado depende de la interpretación humana del patrón descubierto. Esta subjetividad es tanto una ventaja como una limitación.

En resumen, el aprendizaje no supervisado transforma datos crudos en información estructurada mediante la exploración de similitudes. Es la herramienta ideal cuando se desconoce qué buscar, permitiendo que los datos hablen por sí mismos y revelen historias ocultas en el ruido estadístico.

¿Cuáles son las principales ramas del aprendizaje no supervisado?

El aprendizaje no supervisado se estructura principalmente en tres pilares metodológicos: el agrupamiento, la reducción de dimensionalidad y la detección de anomalías. Cada uno aborda el problema de la estructura oculta desde una perspectiva distinta, transformando datos crudos en información accionable sin necesidad de etiquetas previas.

Agrupamiento (Clustering)

El objetivo del agrupamiento es particionar un conjunto de datos en subgrupos, llamados clústeres, de modo que los elementos dentro de un mismo grupo sean más similares entre sí que con los de otros grupos. Los algoritmos más comunes, como K-medias o el vecino más cercano, utilizan medidas de distancia para cuantificar esta similitud. La distancia euclidiana es la métrica estándar en espacios continuos.

d(x,y)=i=1∑n(xi−yi)2

Esta técnica es fundamental en marketing para la segmentación de clientes o en biología para la clasificación de especies. Sin embargo, elegir el número óptimo de grupos a menudo requiere intuición o métodos heurísticos, lo que introduce un grado de subjetividad en el análisis.

Reducción de dimensionalidad

Cuando los datos poseen demasiadas características (variables), el ruido y la redundancia dificultan el análisis. La reducción de dimensionalidad proyecta estos datos en un espacio de menor dimensión, conservando la mayor cantidad de información posible. El Análisis de Componentes Principales (PCA) es el método más emblemático. Identifica las direcciones de máxima varianza en los datos y proyecta la información sobre ellas.

Dato curioso: El PCA fue desarrollado originalmente por Karl Pearson en 1901 y luego refinado por Harold Hotelling en la década de 1930. Su utilidad trasciende el aprendizaje automático, siendo esencial en genética de poblaciones y finanzas.

Esta proyección permite visualizar datos complejos en dos o tres dimensiones y acelera el cálculo de otros algoritmos al reducir la carga computacional. La pérdida de información es el precio a pagar por la simplicidad.

Detección de anomalías

La detección de anomalías, o outlier detection, busca identificar puntos de datos que se desvían significativamente del patrón general. A diferencia del agrupamiento, donde cada punto pertenece a un grupo, aquí el foco está en los "intrusos". Los algoritmos evalúan la densidad local o la distancia a los vecinos para asignar un puntaje de rareza. Un punto con baja densidad circundante se considera una anomalía.

Esta rama es crítica en la detección de fraudes bancarios, donde una transacción inusual puede señalar un error o una entrada de datos extraña. También se aplica en el mantenimiento predictivo de maquinaria industrial. La eficacia depende de definir qué constituye una "desviación" significativa, lo cual varía según el contexto del problema.

Algoritmos de agrupamiento: K-means y Jerárquico

Los algoritmos de agrupamiento, o clustering, buscan descubrir estructuras ocultas en datos sin etiquetar. El objetivo es agrupar puntos similares entre sí y separar los distintos. Dos enfoques clásicos son K-means y el agrupamiento jerárquico, cada uno con mecanismos matemáticos distintos para definir esa similitud.

Funcionamiento de K-means

K-means es un algoritmo particional que divide los datos en k grupos predefinidos. El proceso comienza seleccionando k puntos iniciales como centroides. Cada observación se asigna al centroide más cercano, calculando generalmente la distancia euclidiana. Una vez asignadas las observaciones, los centroides se recalculan como la media aritmética de los puntos en su grupo. Este ciclo de asignación y actualización continúa hasta que los centroides se estabilizan.

La distancia euclidiana entre dos puntos p y q en un espacio de n dimensiones se define como:

d(p,q)=i=1∑n(qi−pi)2

Este método es eficiente pero sensible a valores atípicos y a la elección inicial de los centroides. No funciona bien si los grupos tienen formas no esféricas o tamaños muy dispares.

Agrupamiento Jerárquico y Dendrogramas

A diferencia de K-means, el agrupamiento jerárquico construye una jerarquía de grupos. En el enfoque aglomerativo (de abajo hacia arriba), cada punto comienza como un grupo individual. En cada paso, los dos grupos más similares se fusionan. Este proceso se repite hasta que todos los puntos forman un solo grupo grande.

El resultado se visualiza mediante un dendrograma, un árbol que muestra las fusiones sucesivas. La altura de cada rama indica la distancia a la que se unieron los grupos. Cortar el dendrograma en una altura específica define el número de grupos finales. Esta técnica permite explorar múltiples niveles de granularidad sin tener que ejecutar el algoritmo varias veces.

Dato curioso: El agrupamiento jerárquico fue uno de los primeros métodos utilizados en taxonomía biológica para clasificar especies antes de la era del gran dato, demostrando su utilidad intuitiva para organizar la complejidad natural.

Comparativa de Algoritmos de Agrupamiento

La elección del algoritmo depende de la naturaleza de los datos y los recursos computacionales. A continuación se presenta una comparación entre K-means, el agrupamiento jerárquico y DBSCAN (Density-Based Spatial Clustering of Applications with Noise), otro método común basado en densidad.

Algoritmo	Complejidad Temporal	Tipo de Dato Ideal	Fortalezas Principales
K-means	O(n * k * d * i)	Numerico, escalado	Escalabilidad, simplicidad
Jerárquico	O(n^3) o O(n^2 log n)	Numerico, pequeño/medio	Dendrograma visual, sin necesidad de definir k inicialmente
DBSCAN	O(n log n) con índice	Numerico, con ruido	Formas arbitrarias, detección de ruido

Donde n es el número de muestras, k el número de grupos, d la dimensión y i el número de iteraciones. K-means suele ser más rápido para grandes conjuntos de datos, mientras que el jerárquico ofrece mayor flexibilidad interpretativa pero consume más memoria. DBSCAN destaca por su capacidad para manejar ruido y formas no convexas, aunque es sensible a la elección de parámetros de densidad.

Reducción de dimensionalidad: PCA y t-SNE

La reducción de dimensionalidad aborda el problema de los datos excesivos. Cuando un conjunto de datos tiene cientos de características, los algoritmos pierden eficiencia y la interpretación humana se vuelve casi imposible. El objetivo es comprimir la información manteniendo la estructura esencial de los datos. No se trata solo de eliminar columnas al azar, sino de encontrar las direcciones donde los datos varían más. Esto permite representar la misma información con menos dimensiones sin perder el significado subyacente.

Análisis de Componentes Principales (PCA)

El Análisis de Componentes Principales es una técnica lineal clásica. PCA busca nuevas variables, llamadas componentes principales, que son combinaciones lineales de las características originales. Estas nuevas variables son ortogonales entre sí, lo que significa que son estadísticamente independientes. El primer componente principal captura la mayor varianza posible en los datos. El segundo componente captura la mayor varianza restante, siendo ortogonal al primero. Este proceso continúa hasta agotar las dimensiones necesarias.

Matemáticamente, PCA proyecta los datos sobre un nuevo espacio de características. La proyección se calcula multiplicando la matriz de datos centrados por la matriz de vectores propios. Esta operación se expresa como:

Y=XW

Donde X es la matriz de datos originales, W contiene los vectores propios de la matriz de covarianza y Y es la matriz de datos proyectados. La elección de cuántos componentes conservar depende de cuánto de la varianza total se desea explicar. A menudo, el 95% de la información se concentra en solo unas pocas componentes principales. Esto simplifica enormemente el modelo sin perder precisión significativa.

t-SNE para visualización no lineal

El t-Distributed Stochastic Neighbor Embedding, o t-SNE, es una técnica diseñada específicamente para visualizar datos de alta dimensión en dos o tres dimensiones. A diferencia de PCA, que es lineal, t-SNE es no lineal. Esto significa que puede capturar estructuras complejas y agrupamientos que una simple proyección lineal podría aplastar o distorsionar. t-SNE funciona convirtiendo las similitudes entre puntos de datos de alta dimensión en probabilidades. Luego, busca una configuración en baja dimensión que minimice la diferencia entre estas probabilidades y las de los puntos proyectados.

La función de costo de t-SNE se basa en la divergencia de Kullback-Leibler entre la distribución de probabilidades en el espacio original y en el espacio reducido. Esta métrica mide cuánto se desvía una distribución de otra. Minimizar esta divergencia asegura que los puntos cercanos en el espacio original permanezcan cercanos en la visualización. Sin embargo, t-SNE tiene un costo computacional elevado. Es más lento que PCA y sensible a la elección de la "perplexidad", un parámetro que controla el equilibrio entre atención local y global.

Debate actual: Aunque t-SNE es excelente para visualizar agrupamientos, no conserva bien las distancias globales entre grupos. Dos clústeres que parecen lejanos en el gráfico podrían estar más cerca en el espacio original que otros dos que parecen cercanos. Por ello, no debe usarse para inferir distancias absolutas, sino para identificar estructuras locales.

Ejemplo práctico de reducción

Imagina un conjunto de datos con 100 características, como mediciones de expresión génica en células. Visualizar 100 ejes es casi imposible para el ojo humano. Aplicando PCA, podríamos reducir estas 100 dimensiones a solo 2 componentes principales que expliquen el 80% de la varianza total. Cada célula se representa ahora como un punto en un gráfico de dos ejes. Si aplicamos t-SNE a esas mismas 100 características, podríamos obtener una visualización donde las células similares se agrupan en islas distintas. Esto revela patrones ocultos, como subtipos de células que no eran evidentes en los datos crudos.

La elección entre PCA y t-SNE depende del objetivo. PCA es rápido, interpretable y conserva la estructura global. Es ideal para preprocesamiento antes de otros algoritmos. t-SNE es más lento, pero revela estructuras locales complejas. Es la herramienta preferida para la exploración visual inicial de datos complejos. Ninguna es superior en todos los casos; su poder radica en complementariedad. Comprender estas diferencias permite seleccionar la herramienta adecuada para cada problema de aprendizaje automático no supervisado.

¿Cómo se evalúa un modelo sin etiquetas conocidas?

La evaluación en el aprendizaje no supervisado presenta una paradoja fundamental: si no existe una "verdad" externa, ¿cómo sabemos si el modelo ha encontrado un patrón real o simplemente ha inventado uno? En el aprendizaje supervisado, comparamos la predicción con la etiqueta correcta. Aquí, debemos confiar en la coherencia interna de los datos. La pregunta cambia de "¿cuánto se parece a la respuesta?" a "¿qué tan bien agrupados están los puntos entre sí?".

Métricas de coherencia interna

Las métricas más comunes miden dos propiedades opuestas: la compactación (qué tan cerca están los puntos dentro de un mismo grupo) y la separación (qué tan lejos están los grupos unos de otros). Un buen modelo maximiza ambas simultáneamente.

La Inercia es la métrica por defecto en el algoritmo K-means. Representa la suma de las distancias cuadradas de cada punto a su centroide asignado. Una inercia baja indica que los puntos están muy pegados a su centro. Sin embargo, tiene un defecto grave: siempre disminuye al aumentar el número de grupos, incluso si los datos son ruidosos. Por eso, rara vez se usa sola; suele graficarse contra el número de clusters para encontrar el "codo" en la curva.

Debate actual: La dependencia de la Inercia hace que K-means tienda a sobreajustar si no se valida con otras métricas, creando grupos artificiales para reducir la distancia media.

Para corregir esta visión limitada, existe el Índice de Silueta. Esta métrica evalúa cada punto individualmente comparando su cohesión interna con su separación externa. El resultado es un valor entre -1 y 1. Un valor cercano a 1 indica que el punto está bien asignado a su grupo y lejos de los vecinos. Un valor cercano a 0 sugiere que el punto está en la frontera entre dos grupos. Un valor negativo indica que el punto probablemente está en el grupo equivocado. Es robusta porque considera la forma de los grupos, no solo su tamaño.

Otra alternativa es el Índice de Davies-Bouldin. A diferencia de la Silueta, este índice busca minimizar su valor. Calcula la relación media entre la dispersión dentro de cada grupo y la distancia entre los centros de los grupos adyacentes. Un índice bajo significa que los grupos están bien separados y son compactos. Es útil cuando se necesita una comparación rápida entre diferentes particiones, aunque puede ser sensible a la forma geométrica de los clusters.

La elección de la métrica depende del objetivo. Si buscas interpretar la estructura natural de los datos, la Silueta ofrece una visión detallada. Si optimizas un modelo K-means rápido, la Inercia es práctica pero requiere precaución. Ninguna métrica es perfecta; la validación visual sigue siendo esencial para confirmar que las matemáticas coinciden con la intuición humana.

Aplicaciones prácticas en la industria

El aprendizaje no supervisado transforma datos crudos en estructuras interpretables, permitiendo a las industrias descubrir patrones ocultos sin necesidad de etiquetas previas. A diferencia de la clasificación tradicional, donde se sabe qué se busca, aquí el algoritmo explora la distribución de los datos para revelar su forma inherente. Esta capacidad es fundamental para optimizar recursos y predecir comportamientos en entornos con alta incertidumbre.

Segmentación de clientes mediante análisis RFM

En el marketing, la segmentación basada en el análisis RFM (Recencia, Frecuencia y Monto) utiliza técnicas como el agrupamiento K-medias para dividir la base de clientes. En lugar de tratar a todos los compradores por igual, el modelo agrupa a los usuarios según su comportamiento histórico de compra. Un cliente que compra a menudo pero gastando poco puede pertenecer a un grupo distinto al que compra raramente pero con alto valor.

Este enfoque permite personalizar campañas de correo electrónico o descuentos. Por ejemplo, se puede ofrecer un descuento por volumen a los clientes de alta frecuencia y bajo gasto, mientras que a los de alta recencia y alto gasto se les ofrece exclusividad. La precisión del modelo depende de la normalización correcta de las tres variables antes de aplicar la distancia euclidiana entre puntos de datos.

Detección de fraudes en tarjetas de crédito

La detección de fraudes es un ejemplo clásico de detección de valores atípicos o outliers. En una base de datos de transacciones bancarias, la mayoría de las compras siguen un patrón habitual: misma ciudad, monto similar, hora del día. El aprendizaje no supervisado, como el método del vecino más cercano o los Autoencoders, aprende esta "normalidad" sin necesidad de saber exactamente qué es un fraude.

Dato curioso: Los algoritmos de detección de fraudes pueden identificar una compra inusual en menos de tres segundos, a menudo antes de que el titular de la tarjeta vea el recibo físico.

Cuando una transacción se desvía significativamente de la media estadística del usuario, el sistema la marca como sospechosa. Por ejemplo, una compra en un país lejano a medianoche, cuando el usuario suele comprar en su ciudad por la tarde, genera una alta puntuación de anomalía. Esto reduce las falsas alarmas en comparación con reglas estáticas simples.

Sistemas de recomendación colaborativa

Los motores de recomendación de plataformas como Netflix o Amazon utilizan el filtrado colaborativo no supervisado para sugerir productos. Este método no analiza necesariamente las características del producto (como el género de una película), sino el comportamiento de los usuarios similares. Si el usuario A y el usuario B han calificado positivamente a las mismas cinco películas, el sistema predice que al usuario A le gustará la sexta película que le gustó al usuario B.

La descomposición en valores singulares (SVD) es una técnica matemática común para reducir la dimensionalidad de la matriz de calificaciones usuario-producto. Esto ayuda a encontrar factores latentes, como "gusto por el cine de acción" o "preferencia por directores europeos", que no estaban explícitos en los datos originales. La eficiencia de este método es crucial cuando la base de datos crece a escala masiva.

Ejercicios resueltos

La práctica es fundamental para consolidar los conceptos teóricos del aprendizaje no supervisado. A continuación, se presentan dos ejercicios resueltos paso a paso. El primero ilustra el cálculo de la distancia euclidiana, métrica base de algoritmos como K-means. El segundo muestra cómo interpretar el Silhouette Score, una medida de calidad de los clústeres.

Ejercicio 1: Cálculo de la distancia euclidiana en 2D

Supongamos que tenemos dos puntos en un espacio bidimensional: A(1, 2) y B(4, 6). Queremos calcular la distancia euclidiana entre ellos. Esta distancia mide la longitud de la línea recta que une ambos puntos.

La fórmula de la distancia euclidiana entre dos puntos P(x₁, y₁) y Q(x₂, y₂) es:

d(P,Q)=(x2−x1)2+(y2−y1)2

Aplicando los valores de A(1, 2) y B(4, 6):

d(A,B)=(4−1)2+(6−2)2

Primero, calculamos las diferencias en cada dimensión:

4−1=3 6−2=4

Luego, elevamos al cuadrado estas diferencias:

32=9 42=16

Sumamos los resultados:

9+16=25

Finalmente, tomamos la raíz cuadrada:

d(A,B)=25=5

La distancia euclidiana entre A y B es 5 unidades. Este cálculo simple es la base de cómo K-means asigna puntos a clústeres: cada punto se asigna al centroide más cercano según esta distancia.

Ejercicio 2: Interpretación del Silhouette Score

El Silhouette Score mide qué tan bien definidos están los clústeres en un conjunto de datos. Los valores oscilan entre -1 y 1. Un valor cercano a 1 indica que los puntos están bien asignados a sus clústeres, mientras que un valor cercano a 0 sugiere superposición entre clústeres, y un valor negativo indica que un punto podría estar en el clúster equivocado.

Supongamos que, tras aplicar K-means con k=3 a un conjunto de datos, obtenemos los siguientes Silhouette Scores por clúster:

Clúster 1: 0.75
Clúster 2: 0.45
Clúster 3: 0.80

El Silhouette Score global es la media de todos los puntajes individuales. En este caso:

Score global=30.75+0.45+0.80=32.00≈0.67

Un score global de 0.67 indica una estructura de clústeres bastante sólida. Los puntos en el Clúster 3 están muy bien definidos (0.80), mientras que los del Clúster 2 tienen algo más de superposición (0.45). Esto sugiere que el Clúster 2 podría ser más "difuso" o que algunos puntos podrían estar cerca de la frontera con otro clúster.

Dato curioso: El Silhouette Score fue propuesto por Peter J. Rousseeuw en 1987. Sigue siendo una de las métricas más utilizadas para evaluar la calidad de la agrupación, especialmente cuando la "verdad revelada" (el número óptimo de clústeres) no es evidente de entrada.

Si el score global fuera cercano a 0.3, podríamos cuestionar si k=3 es realmente el número óptimo de clústeres. Podríamos probar con k=2 o k=4 y comparar los scores. Un score negativo, como -0.1, indicaría que muchos puntos están "más cerca" de otro clúster que del propio, lo que sugeriría una mala elección de k o una estructura de datos poco definida.

Estos ejercicios muestran cómo los cálculos manuales y la interpretación de métricas ayudan a entender el comportamiento de los algoritmos no supervisados. La práctica constante permite desarrollar una intuición más precisa sobre cómo funcionan estos modelos.

Limitaciones y desafíos actuales

El aprendizaje no supervisado ofrece flexibilidad al no depender de etiquetas predefinidas, pero esta libertad conlleva costos computacionales y conceptuales significativos. A diferencia del aprendizaje supervisado, donde el error se mide comparando la predicción con la respuesta correcta, aquí la validación a menudo depende de la intuición del analista o de métricas internas que pueden engañar. Esta ambigüedad genera tres desafíos estructurales que todo estudiante debe dominar para evitar conclusiones erróneas.

La elección del número de grupos y la sensibilidad a los datos

Uno de los problemas más clásicos es determinar cuántos grupos naturales existen en los datos. En el algoritmo K-medias, el parámetro K debe elegirse de antemano. Si se elige un K demasiado bajo, se pierden detalles finos; si es demasiado alto, se crea ruido artificial. No existe una fórmula mágica universal, aunque técnicas como el método del codo analizan la disminución de la inercia total (suma de las distancias al cuadrado desde cada punto al centroide de su grupo) para sugerir un punto de inflexión.

La sensibilidad a los valores atípicos es otro escollo. Un solo dato extremo puede desplazar significativamente el centroide de un grupo, distorsionando toda la estructura. Esto ocurre porque muchas métricas usan la media aritmética, que no es robusta frente a outliers. Por ejemplo, en un conjunto de datos de salarios, un único CEO con un salario desproporcionado puede hacer que el "grupo de empleados medios" se desplace hacia arriba, englobando a gerentes que deberían estar en otro cluster. La consecuencia es directa: la agrupación pierde su capacidad de representar la mayoría de la población.

Interpretabilidad en la reducción de dimensiones

Cuando se utiliza la reducción de dimensiones, como el Análisis de Componentes Principales (PCA), se gana en eficiencia pero se pierde en transparencia. Las nuevas dimensiones son combinaciones lineales de las originales. Si tenemos 50 variables originales, la primera componente principal podría ser una mezcla compleja de todas ellas con diferentes pesos.

Controversia: La interpretabilidad es el talón de Aquiles del PCA. Saber que la "Componente 1" explica el 40% de la varianza es útil estadísticamente, pero decir qué representa en el mundo real a menudo requiere un análisis de coeficientes que puede resultar contraintuitivo para expertos del dominio.

Esto dificulta la comunicación de resultados a no expertos. Un modelo que reduce 100 variables a 3 factores es potente, pero si esos factores no tienen un nombre descriptivo claro (como "ingreso" o "edad"), su utilidad práctica disminuye. El modelo se vuelve una "caja negra" estadística.

Híbridos: El aprendizaje por refuerzo

Para superar la rigidez de las etiquetas fijas y la falta de retroalimentación inmediata del no supervisado puro, surge el aprendizaje por refuerzo como un enfoque híbrido. Aquí, un agente aprende a tomar decisiones en un entorno mediante ensayo y error, recibiendo recompensas o castigos. Aunque a menudo se clasifica por separado, comparte con el no supervisado la necesidad de explorar el espacio de estados sin un conjunto de entrenamiento estático y etiquetado al detalle. Este enfoque permite que el modelo se adapte dinámicamente, mitigando la necesidad de definir agrupaciones estáticas de antemano, aunque introduce la complejidad de definir la función de recompensa.

Preguntas frecuentes

¿Cuál es la diferencia principal entre aprendizaje supervisado y no supervisado?

En el aprendizaje supervisado, los datos tienen etiquetas conocidas (como "gato" o "perro") que guían al modelo. En el aprendizaje no supervisado, los datos son brutos y el algoritmo debe encontrar la estructura por sí mismo, sin una respuesta correcta previa.

¿Cuándo debo usar K-means y cuándo usar clustering jerárquico?

Usa K-means cuando tengas grandes conjuntos de datos y necesites eficiencia computacional, sabiendo de antemano cuántos grupos esperar. El clustering jerárquico es mejor cuando quieres visualizar la relación entre grupos (dendrograma) o cuando el número de grupos no está claro.

¿Qué hace exactamente el Análisis de Componentes Principales (PCA)?

El PCA reduce la cantidad de variables en un conjunto de datos manteniendo la mayor cantidad de información posible. Transforma las variables originales en nuevas variables no correlacionadas llamadas componentes principales, ordenadas por la cantidad de varianza que explican.

¿Es necesario tener datos etiquetados para evaluar un modelo no supervisado?

No es estrictamente necesario, pero ayuda. Sin etiquetas, se usan métricas internas como la silueta o la inercia. Si hay etiquetas conocidas (como en validación cruzada), se pueden usar métricas externas como el índice de ajuste de silueta o la entropía cruzada.

¿Por qué t-SNE es popular para la visualización de datos?

t-SNE es excelente para visualizar datos de alta dimensión en 2D o 3D porque conserva tanto las estructuras locales como las globales mejor que otros métodos, haciendo que puntos similares se agrupen visualmente de manera intuitiva.

¿El aprendizaje no supervisado requiere más datos que el supervisado?

Generalmente, sí. Como no hay etiquetas que guíen el aprendizaje, los algoritmos no supervisados suelen necesitar volúmenes mayores de datos para distinguir entre señal y ruido con precisión.

Resumen

El aprendizaje no supervisado permite descubrir patrones en datos sin etiquetas mediante técnicas como el agrupamiento (K-means, jerárquico) y la reducción de dimensionalidad (PCA, t-SNE). Su evaluación se basa en métricas de cohesión interna o comparación con etiquetas conocidas, siendo clave en industrias como el marketing y la biología.

Aunque poderoso, enfrenta desafíos como la selección del número óptimo de grupos y la interpretación de resultados en datos de alta dimensión. Dominar estas técnicas es esencial para el análisis exploratorio y la preparación de datos en proyectos de ciencia de datos modernos.