Tasa de veracidad (Recall) en aprendizaje automático

Q: ¿Qué significa un recall del 100%?

Un recall del 100% significa que el modelo encontró todas las instancias positivas existentes en el conjunto de datos. No se quedó ninguna sin detectar, aunque esto a menudo implica que también clasificó varios elementos negativos como positivos.

Q: ¿Es mejor tener un recall alto o bajo?

Depende del contexto. En un filtro de correos no deseados, un recall muy alto puede ser bueno para no perder correos importantes, pero puede saturar la bandeja. En diagnóstico médico, se suele buscar un recall alto para asegurar que pocos pacientes sean dados por sanos cuando están enfermos.

Q: ¿Cómo se relaciona el recall con la precisión?

Generalmente, a medida que aumenta el recall, la precisión tiende a disminuir. Esto se debe a que para capturar más verdaderos positivos, el modelo suele tener que aceptar más falsos positivos, lo que diluye la "pureza" de las predicciones positivas.

Q: ¿Se puede calcular el recall en problemas de clasificación multiclase?

Sí, se puede calcular de varias formas. Una es el "recall por clase", donde se trata cada clase como positiva frente a las demás. Otra es el "recall macro", que promedia el recall de cada clase, y el "recall ponderado", que tiene en cuenta el desequilibrio entre clases.

Q: ¿Qué es la matriz de confusión y cómo ayuda a entender el recall?

La matriz de confusión es una tabla que resume las predicciones correctas e incorrectas de un modelo. El recall se calcula directamente a partir de los valores de la columna correspondiente a la clase positiva en esta matriz, específicamente usando los verdaderos positivos y los falsos negativos.

El recall, también conocido como sensibilidad o valor predictivo positivo en ciertos contextos, es una métrica fundamental en el aprendizaje automático que mide la capacidad de un modelo para identificar correctamente todas las instancias relevantes dentro de un conjunto de datos. A diferencia de otras medidas que se centran en la calidad de las predicciones positivas, el recall se pregunta: "De todos los elementos que realmente deberían haber sido seleccionados, ¿cuántos logró encontrar el modelo?".

Esta métrica es crucial cuando el costo de pasar por alto un dato (un falso negativo) es más alto que el de cometer un error al seleccionar uno extra (un falso positivo). Su correcta interpretación permite a los ingenieros de datos y científicos ajustar sus algoritmos según las necesidades específicas del problema, ya sea en medicina, finanzas o procesamiento del lenguaje natural.

Definición y concepto

El recall, también conocido como sensibilidad o tasa de veracidad, es una métrica de evaluación fundamental en el aprendizaje automático que mide la capacidad de un modelo para identificar correctamente todos los elementos pertenecientes a una clase específica. En términos simples, responde a la pregunta: "De todos los casos reales de la clase objetivo, ¿cuántos logró detectar el modelo?". Esta medida es crítica cuando el costo de pasar por alto un elemento relevante es alto, ya que cuantifica la proporción de verdaderos positivos entre todos los positivos reales.

Es fundamental distinguir el recall de la precisión (precision), ya que ambas métricas a menudo se comportan de forma inversa. Mientras que la precisión evalúa la calidad de las predicciones (cuántos de los seleccionados eran realmente correctos), el recall evalúa la exhaustividad (cuántos de los disponibles fueron seleccionados). Un modelo puede tener una precisión del 100% si solo predice un caso correcto entre mil, pero su recall sería muy bajo si había otros 99 casos no detectados. La elección entre priorizar una u otra depende del contexto del problema.

Cálculo matemático

En una clasificación binaria, el recall se calcula dividiendo el número de Verdaderos Positivos (VP) entre la suma de los Verdaderos Positivos y los Falsos Negativos (FN). Los Falsos Negativos representan los elementos que el modelo clasificó como pertenecientes a otra clase, pero que en realidad pertenecían a la clase objetivo. La fórmula es:

Recall=VP+FNVP

Esta ecuación muestra que el recall mejora cuando disminuyen los Falsos Negativos. Si el modelo detecta casi todos los elementos de la clase, el denominador se aproxima al numerador y el recall se acerca a 1 (o 100%).

Ejemplo práctico: Diagnóstico médico

El ejemplo clásico para ilustrar el recall es el diagnóstico de una enfermedad, como el cáncer de pulmón. Supongamos que en una muestra de pacientes, hay 100 personas enfermas (positivos reales). Si el modelo de aprendizaje automático identifica correctamente a 90 de ellos, pero deja pasar a 10 como "sanos" (Falsos Negativos), el recall del modelo es del 90%.

En este escenario, un alto recall es a menudo preferible porque significa que la mayoría de los enfermos han sido detectados. Un Falso Negativo implica que un paciente con cáncer fue dado de alta como "sano", lo que puede resultar costoso en términos de tiempo y tratamiento. Por el contrario, un Falso Positivo (darle cáncer a un sano) suele ser menos crítico inicialmente, ya que se puede confirmar con pruebas adicionales. Esta dinámica explica por qué en medicina se suele buscar maximizar el recall antes que la precisión.

Dato curioso: En el diagnóstico médico, un modelo con un recall del 95% significa que solo el 5% de los pacientes enfermos se escapan de la red de detección inicial. Esa pequeña fracción puede ser la diferencia entre una detección temprana y un diagnóstico tardío.

En problemas de clasificación multiclase, el cálculo del recall se extiende a cada clase individualmente. Se puede calcular el recall de cada clase por separado (tratando esa clase como "positiva" y el resto como "negativos") y luego promediarlos. Existen dos formas comunes de hacer este promedio: el recall macro, que da igual peso a cada clase, y el recall ponderado, que ajusta el peso según el número de muestras de cada clase. Esto permite evaluar cómo de bien el modelo recupera elementos de cada categoría específica.

La optimización del recall no es gratuita. Generalmente, para aumentar el recall, el modelo debe volverse más "generoso" al asignar la etiqueta positiva. Esto suele aumentar el número de Falsos Positivos, lo que, a su vez, puede reducir la precisión. Este equilibrio se gestiona a menudo ajustando el umbral de decisión del modelo. Por ejemplo, en un clasificador que devuelve una probabilidad entre 0 y 1, bajar el umbral de 0.5 a 0.3 hace que más elementos sean clasificados como positivos, aumentando el recall pero posiblemente introduciendo más ruido.

Comprender el recall es esencial para seleccionar el modelo adecuado para cada problema. En un filtro de spam, por ejemplo, un alto recall asegura que casi todos los correos de spam lleguen a la carpeta de spam, aunque algunos correos normales (Falsos Positivos) también terminen ahí. En cambio, en un sistema de detección de outliers en datos industriales, un alto recall asegura que la mayoría de las anomalías sean capturadas antes de que causen una falla en la línea de producción.

¿Cómo se calcula el Recall?. Imagen: Chris55 / Wikimedia Commons / CC BY-SA 4.0

¿Cómo se calcula el Recall?

El cálculo del recall se basa directamente en la matriz de confusión, una tabla que resume las predicciones del modelo frente a la realidad. Para entender la métrica, es necesario aislar dos componentes específicos: los Verdaderos Positivos y los Falsos Negativos. El recall mide la capacidad del modelo para encontrar todos los casos relevantes, ignorando temporalmente los casos no relevantes. Esta distinción es crucial en campos como la medicina o la ingeniería, donde perder un dato positivo suele ser más costoso que un error falso de alarma.

La matriz de confusión

La matriz de confusión organiza los resultados en cuatro categorías. Para el cálculo del recall, nos centramos en la columna correspondiente a la clase positiva real. La siguiente tabla ilustra esta estructura genérica:

	Predicción: Positivo	Predicción: Negativo
Realidad: Positivo	Verdaderos Positivos (VP)	Falsos Negativos (FN)
Realidad: Negativo	Falsos Positivos (FP)	Verdaderos Negativos (VN)

Los Verdaderos Positivos (VP) son aquellos casos donde el modelo predijo "sí" y la realidad fue "sí". Los Falsos Negativos (FN) son los casos donde el modelo predijo "no", pero la realidad era "sí". El recall depende exclusivamente de estos dos valores. Los Falsos Positivos y los Verdaderos Negativos afectan a otras métricas, como la precisión, pero no alteran directamente el valor del recall.

Fórmula matemática

La fórmula del recall es una proporción simple que compara los aciertos positivos contra el total de positivos reales. Se expresa matemáticamente de la siguiente manera:

Recall=VP+FNVP

En lenguaje natural, esto significa que dividimos la cantidad de casos positivos que el modelo encontró correctamente (VP) entre la suma de todos los casos positivos que existían en el conjunto de datos (VP + FN). El resultado es un valor entre 0 y 1, que a menudo se multiplica por 100 para expresarlo como porcentaje.

Dato curioso: Un recall del 100% implica que no hubo ningún Falso Negativo. El modelo encontró cada único caso positivo, aunque haya etiquetado mil casos negativos como positivos por error.

El impacto de los Falsos Negativos

La relación entre los Falsos Negativos y el recall es inversa. A medida que aumentan los Falsos Negativos, el denominador de la fracción crece, lo que reduce el valor total de la métrica. Esto ocurre porque cada Falso Negativo representa un caso positivo que el modelo "olvidó" o pasó por alto. Si el modelo es muy conservador y solo dice "sí" cuando está casi seguro, tendrá muchos Verdaderos Positivos pero también muchos Falsos Negativos, lo que puede bajar el recall.

Por el contrario, si el modelo es agresivo y dice "sí" a casi todo, los Falsos Negativos disminuyen drásticamente, haciendo que el recall se acerque a 1. Sin embargo, esto suele aumentar los Falsos Positivos. La elección entre priorizar el recall o la precisión depende del costo de cada tipo de error en el contexto específico del problema. En diagnóstico médico, por ejemplo, perder un paciente (FN alto) suele ser peor que llamar la atención innecesaria (FP alto).

Historia y contexto en la evaluación de modelos

La evaluación de modelos de aprendizaje automático no siempre se centró en la métrica de Recall (también conocida como Sensibilidad o Valor Predictivo Positivo). Inicialmente, la Exactitud (Accuracy) fue la reina indiscutible. Sin embargo, a medida que los datos crecían y las clases se volvían más desparejas, la simple proporción de aciertos empezaba a engañar. La necesidad de matices surgió cuando los ingenieros descubrieron que un modelo podía ser un 99% exacto y, aún así, perder casi todas las instancias críticas.

Este concepto tiene sus raíces profundas en la estadística clásica y la teoría de la prueba de hipótesis. En el contexto de la prueba de hipótesis, el Recall se alinea directamente con la potencia estadística de una prueba. Es la capacidad de detectar una señal cuando esta realmente existe, minimizando los falsos negativos. Esta noción fue adoptada por la ingeniería de características y el procesamiento del lenguaje natural (NLP) para cuantificar qué tan bien un clasificador podía "capturar" la totalidad de las instancias de una clase objetivo.

De la Estadística al Aprendizaje de Máquinas

La adopción del Recall en el aprendizaje de máquinas fue impulsada por la necesidad de cuantificar el rendimiento en escenarios donde el costo de perder una instancia era alto. En la estadística, se le conoce como Sensibilidad. Esta métrica responde a una pregunta directa: de todos los casos positivos reales, ¿cuántos identificó correctamente el modelo?

La fórmula del Recall se expresa matemáticamente como la relación entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos negativos:

Recall=TP+FNTP

Donde TP representa los Verdaderos Positivos y FN los Falsos Negativos. Esta fórmula es fundamental porque pone el foco en la cobertura de la clase objetivo. Un Recall alto indica que el modelo rara vez se olvida de un caso positivo, lo cual es crucial en campos como el diagnóstico médico o la detección de fallos en ingeniería.

Dato curioso: El término Recall fue popularizado en el campo del Aprendizaje de Máquinas por su uso en la evaluación de clasificadores en el Procesamiento del Lenguaje Natural (NLP), donde la comparación con la Precisión era esencial para evaluar la calidad de las etiquetas asignadas a las palabras.

La Evolución hacia la Precisión y el F1-Score

El Recall rara vez viaja solo. Su contraparte natural es la Precisión, que mide la calidad de las predicciones positivas. Mientras el Recall se pregunta "¿Cuántos de los reales encontró?", la Precisión pregunta "¿Cuántos de los que encontró eran realmente positivos?". La tensión entre estas dos métricas llevó al desarrollo de la media armónica, conocida como el F1-Score.

El F1-Score surgió como una forma de sintetizar el rendimiento del modelo en un solo número, especialmente útil cuando el conjunto de datos está desbalanceado. La fórmula del F1-Score combina la Precisión y el Recall de la siguiente manera:

F1=2⋅Precisioˊn+RecallPrecisioˊn⋅Recall

Esta evolución refleja un cambio en la forma en que los ingenieros evalúan los modelos. Ya no se trata solo de acertar, sino de entender el costo de cada tipo de error. El Recall se convirtió en una herramienta clave para cuantificar la capacidad de un modelo para capturar la totalidad de la información relevante, complementando la visión más selectiva de la Precisión.

La historia del Recall es un ejemplo de cómo las métricas evolucionan para responder a las necesidades prácticas de los datos. Desde sus orígenes en la estadística clásica hasta su papel central en el aprendizaje de máquinas moderno, el Recall sigue siendo una métrica fundamental para evaluar la capacidad de los modelos para no perderse lo importante.

¿Qué diferencia el Recall de la Precisión?

El recall (tasa de verdaderos positivos) y la precisión (precision) miden aspectos distintos del rendimiento de un modelo de aprendizaje automático. El recall responde a la pregunta: "De todos los casos positivos reales, ¿cuántos encontró el modelo?". La precisión responde a otra: "De todos los casos que el modelo marcó como positivos, ¿cuántos eran verdaderamente positivos?".

Estas dos métricas rara vez se comportan de forma independiente. Existe una tensión inherente entre ellas, conocida como la compensación o trade-off precisión-recall. Intentar maximizar ambas simultáneamente suele resultar en un modelo demasiado complejo o, en el peor de los casos, en una sobreajuste (overfitting).

La mecánica de la compensación

Para entender esta dinámica, imagina un filtro de spam. Si configuramos el modelo para que sea extremadamente selectivo, solo marcará como spam los correos más evidentes. La precisión será alta (pocos falsos positivos), pero el recall bajará porque muchos correos de spam sutil pasarán desapercibidos.

Si hacemos lo contrario, marcando como spam casi cualquier correo sospechoso, el recall sube drásticamente. Sin embargo, la precisión se desploma porque terminamos en la carpeta de spam correos importantes que eran, en realidad, verdaderos positivos. La consecuencia es directa: no puedes tener todo sin sacrificar algo.

Dato curioso: En la era temprana del aprendizaje automático, los ingenieros a menudo dependían de la curva ROC (Curva de Característica de Operación del Receptor), que grafica la tasa de verdaderos positivos contra la tasa de falsos positivos. Sin embargo, cuando las clases están desparejadas (por ejemplo, 99% de datos positivos vs. 1% negativos), la curva de Precisión-Recall suele revelar la verdad oculta que la curva ROC esconde.

Ejemplos concretos: ¿Qué priorizar?

La elección depende del costo de los errores. En un filtro de spam, el costo de un falso positivo (un correo importante marcado como spam) es molesto pero manejable. Si el usuario revisa la carpeta, encuentra el correo. Por lo tanto, la precisión suele ser la reina aquí. No queremos que el usuario pierda la fe en el filtro.

En la detección de cáncer mediante radiografías, la situación cambia radicalmente. Un falso negativo (el modelo dice "saludable" cuando hay cáncer) puede costar la vida del paciente. Un falso positivo (el modelo dice "cáncer" cuando hay salud) solo implica una biopsia adicional. Aquí, el recall es vital. Es mejor tener 10 pacientes nerviosos que un paciente sorprendido.

Tabla comparativa de escenarios

La siguiente tabla ilustra cómo varía el rendimiento en un conjunto de datos hipotético de 100 pacientes con cáncer, donde 10 tienen la enfermedad (positivos reales) y 90 están sanos (negativos reales).

Escenario	Verdaderos Positivos (VP)	Falsos Positivos (FP)	Recall	Precisión	Interpretación
Conservador	7	3	70%	70%	Equilibrio moderado.
Alto Recall	9	15	90%	37.5%	Casi todos los enfermos se encuentran, pero muchos sanos se asustan.
Alta Precisión	5	1	50%	83.3%	Cuando el modelo dice "cáncer", casi siempre acierta, pero se escapan la mitad de los casos.

Estos números demuestran que un modelo con un recall del 90% puede tener una precisión inferior al 40% si los datos están desparejados. Invertir los términos sin contexto lleva a errores de diagnóstico. Los ingenieros deben elegir el punto de corte que mejor se adapte al costo económico o humano del error específico.

Aplicaciones prácticas y ejemplos. Imagen: Chris55 / Wikimedia Commons / CC BY-SA 4.0

Aplicaciones prácticas y ejemplos

El recall no es solo un número en una tabla de confusión; es una medida de sensibilidad que responde a una pregunta crítica: "¿Cuántos casos verdaderos logró capturar el modelo?" Su importancia varía drásticamente según el costo de dejar pasar un dato. En muchos escenarios, el costo de un Falso Negativo supera con creces el de un Falso Positivo.

Diagnóstico médico: la regla de la cautela

En medicina, especialmente en el cribado de enfermedades raras o progresivas, el recall suele ser la métrica reina. El objetivo principal es asegurar que pocos pacientes enfermos queden sin diagnóstico. Un Falso Negativo significa que el paciente tiene la enfermedad, pero el modelo (o el médico) le dice que está sano. La consecuencia es una intervención tardía, lo que puede significar la diferencia entre la curación y la cronicidad.

Debate actual: ¿Es mejor sobrediagnosticar o subdiagnosticar? En el cáncer de mama, un alto recall implica llamar a muchas mujeres a una biopsia (Falso Positivo) para asegurarse de que ninguna con cáncer se quede en casa (Falso Negativo). El costo del error es asimétrico.

La estrategia cambia el enfoque: se prefiere tener muchos falsos positivos (el paciente se molesta por una prueba extra) que un solo falso negativo (el paciente se olvida de la enfermedad). Aquí, la precisión puede sacrificar algo de exactitud para ganar en cobertura total.

Industria 4.0: el costo del Falso Negativo

En las líneas de producción automatizadas, como en la fabricación de semiconductores o vehículos, la detección de fallos busca maximizar el recall. Un defecto que pasa desapercibido (Falso Negativo) puede terminar en el producto final. El costo de ese error incluye la garantía del cliente, el costo de devolución y, a veces, la reputación de la marca.

Un Falso Positivo en este contexto significa desechar una pieza buena. Aunque se gasta material y tiempo, el costo es generalmente menor que el de un defecto que llega al consumidor final. Por eso, los ingenieros ajustan los umbrales de decisión para asegurar que la mayoría de los defectos sean capturados.

Búsqueda de información: la cobertura de datos

En sistemas de recuperación de información, como una base de datos jurídica o científica, el recall mide qué fracción de los documentos relevantes aparece en los resultados. Si un abogado busca todas las sentencias sobre una cláusula específica, un bajo recall significa que hay sentencias clave que el sistema dejó fuera. La consecuencia es directa: la evidencia puede quedar en el olvido.

La fórmula del recall se aplica aquí para cuantificar la cobertura:

Recall=Verdaderos Positivos+Falsos NegativosVerdaderos Positivos

En estos sistemas, se acepta que aparezcan documentos menos relevantes (Falsos Positivos) para asegurar que no falte ningún documento crucial. La profundidad de la búsqueda prioriza la captura total sobre la precisión absoluta.

Limitaciones y críticas del uso aislado del Recall

Depender exclusivamente del recall para evaluar un modelo de aprendizaje automático es un error común que puede llevar a conclusiones engañosas. Esta métrica mide la capacidad del modelo para encontrar todos los casos relevantes, pero ignora completamente cuántos casos irrelevantes se incluyen en el proceso. Un modelo puede tener un rendimiento perfecto en términos de recall y, sin embargo, resultar prácticamente inútil en un entorno real si no se considera el costo de los errores cometidos.

La trampa del modelo perfecto pero aburrido

Para entender la limitación fundamental del recall aislado, considere un escenario extremo. Imagina un clasificador binario que etiqueta a cada observación como "Positiva", independientemente de los datos de entrada. Si el conjunto de datos contiene al menos un caso positivo, este modelo alcanzará un recall del 100%. Matemáticamente, ha encontrado todas las instancias verdaderas. Sin embargo, también ha clasificado como positivas todas las instancias negativas, generando una montaña de falsos positivos.

Dato curioso: Este escenario extremo demuestra que una sola métrica rara vez cuenta toda la historia. Un recall del 100% puede ser tan engañoso como un 0% si no se conoce la distribución de las clases.

La consecuencia es directa: el modelo pierde su poder discriminatorio. En un estudio de diagnóstico médico, si un modelo clasifica a todos los pacientes como "Enfermos" para asegurar que ninguno se escape (recall máximo), el hospital se llena de pacientes sanos, saturando los recursos y aumentando el estrés innecesario. La utilidad práctica del modelo disminuye drásticamente porque no distingue entre la señal y el ruido.

Necesidad de métricas complementarias

Para contrarrestar esta debilidad, el recall debe analizarse junto con otras métricas que capturen dimensiones diferentes del rendimiento. La precisión (precision) es el complemento natural del recall. Mientras el recall pregunta "¿Cuántos positivos reales encontró el modelo?", la precisión pregunta "¿De todos los que el modelo llamó positivos, cuántos eran realmente positivos?".

La interacción entre estas dos métricas se resume a menudo en la puntuación F1, que es la media armónica de la precisión y el recall. Esta métrica es particularmente útil cuando se necesita un equilibrio entre ambas. La fórmula de la puntuación F1 es:

F1=2×Precisioˊn+RecallPrecisioˊn×Recall

Otra métrica importante es la exactitud (accuracy), que mide la proporción total de predicciones correctas. Aunque la exactitud es intuitiva, puede ser engañosa en conjuntos de datos desequilibrados. Por ejemplo, si el 95% de los datos son "Positivos", un modelo que prediga siempre "Positivo" tendrá una exactitud del 95%, pero un recall del 100% y una precisión del 95%. Sin embargo, si el 95% fueran "Negativos", la misma estrategia daría un recall del 5%, revelando la fragilidad de la exactitud por sí sola.

Curva ROC y el valor AUC

Para obtener una visión más completa del rendimiento del modelo a través de diferentes umbrales de clasificación, se utiliza la curva ROC (Receiver Operating Characteristic). Esta gráfica representa la tasa de verdaderos positivos (recall) frente a la tasa de falsos positivos en diferentes puntos de corte. El área bajo la curva (AUC) proporciona una medida única del rendimiento general del clasificador, independiente del umbral específico elegido.

Un AUC de 1 indica un clasificador perfecto, mientras que un AUC de 0.5 sugiere un rendimiento similar al azar. El uso de la curva ROC permite a los analistas ver cómo cambia el trade-off entre el recall y la precisión al ajustar el umbral de decisión, ofreciendo una flexibilidad que una sola métrica puntual no proporciona.

Sesgo en conjuntos de datos desbalanceados

El problema del recall aislado se agrava en conjuntos de datos desbalanceados, donde una clase domina a la otra. En estos casos, el modelo puede aprender a favorecer la clase mayoritaria para maximizar el recall de esa clase, mientras ignora casi por completo la clase minoritaria. Esto introduce un sesgo sistémico en las predicciones.

Por ejemplo, en la detección de defectos en una línea de producción donde solo el 2% de las piezas son defectuosas, un modelo que se centre únicamente en el recall de la clase "Defectuoso" podría terminar clasificando el 50% de las piezas como defectuosas para asegurar que no se escape ninguna. Aunque el recall sea alto, el costo de desechar piezas sanas podría superar el costo de dejar pasar un defecto. La evaluación debe considerar el costo relativo de los errores, lo que a menudo requiere combinar el recall con la precisión y analizar la matriz de confusión completa.

En resumen, el recall es una herramienta poderosa, pero su fuerza reside en su contexto. Usarlo de forma aislada es como juzgar un coche solo por su velocidad máxima, ignorando su consumo de combustible, su espacio interior y su fiabilidad. La evaluación robusta de un modelo de aprendizaje automático requiere una visión multifacética que integre varias métricas para capturar las complejidades del problema.

Ejercicios resueltos

La teoría cobra sentido cuando se aplica a datos concretos. A continuación, se presentan tres ejercicios que abordan los escenarios más comunes en la evaluación de modelos de clasificación, desde el cálculo básico hasta la toma de decisiones estratégicas.

Ejercicio 1: Cálculo básico de Recall

Supongamos que estamos evaluando un modelo para detectar la gripe aviar en aves. Tras analizar una muestra, obtenemos la siguiente matriz de confusión:

	Predicho: Gripe	Predicho: Sana
Real: Gripe	80 (Verdaderos Positivos)	20 (Falsos Negativos)
Real: Sana	10 (Falsos Positivos)	90 (Verdaderos Negativos)

El objetivo es calcular el Recall (también conocido como Sensibilidad o Tasa de Éxito). La fórmula es:

Recall=VP+FNVP

Sustituimos los valores de la matriz:

Recall=80+2080=10080=0.8

El modelo detecta el 80% de las aves enfermas. Esto significa que de cada 100 aves con gripe, el modelo identifica correctamente a 80, dejando pasar a 20.

Ejercicio 2: Elección de modelo según el escenario

Imagina que debes elegir entre dos modelos para detectar fallos en el motor de un avión comercial. Ambos tienen una Precisión del 90%, pero difieren en el Recall:

Modelo A: Recall = 0.85
Modelo B: Recall = 0.95

El escenario es crítico: un "Falso Negativo" ocurre cuando el motor falla pero el modelo dice que está bien. Un "Falso Positivo" ocurre cuando el modelo alerta de un fallo que no existe.

En la aviación, un Falso Negativo puede significar una parada en pista o incluso un aterrizaje de emergencia. Un Falso Positivo suele implicar una revisión técnica rápida, costosa pero menos peligrosa. Por lo tanto, queremos minimizar los Falsos Negativos.

Un Recall más alto indica que el modelo captura más Verdaderos Positivos, dejando menos Falsos Negativos sin detectar. El Modelo B, con un Recall de 0.95, deja pasar solo el 5% de los fallos reales, frente al 15% del Modelo A.

La elección lógica es el Modelo B. En entornos donde el coste de "olvidarse" de un dato es alto, el Recall prima sobre la Precisión. La consecuencia es directa: pagamos más revisiones innecesarias para asegurar que casi ningún fallo pase desapercibido.

Ejercicio 3: Impacto del umbral de clasificación

Los modelos de aprendizaje automático suelen asignar una probabilidad a cada instancia. Para decidir si es "Positivo" o "Negativo", se establece un umbral (por defecto, 0.5). Cambiar este umbral afecta directamente al Recall.

Supongamos que un modelo asigna las siguientes probabilidades de ser "Cliente que compra" a 5 clientes:

Cliente 1: 0.9
Cliente 2: 0.6
Cliente 3: 0.4
Cliente 4: 0.3
Cliente 5: 0.8

Sabemos por datos históricos que los Clientes 1, 2 y 5 son realmente compradores (Verdaderos Positivos potenciales). El Cliente 3 es un comprador (Verdadero Positivo) y el 4 es un comprador (Verdadero Positivo). Espera, revisemos los datos reales: Supongamos que los clientes 1, 2, 3 y 5 son compradores reales. El cliente 4 es el único no-comprador real.

Si el umbral es 0.5:

Compradores detectados (Prob > 0.5): Clientes 1 (0.9), 2 (0.6), 5 (0.8).
Compradores reales totales: 4 (Clientes 1, 2, 3, 5).
El Cliente 3 (0.4) queda como Falso Negativo.

Recall0.5=43=0.75

Si bajamos el umbral a 0.45:

Compradores detectados (Prob > 0.45): Clientes 1, 2, 5 y ahora también el Cliente 3 (0.4 < 0.45? No, 0.4 es menor que 0.45. Espera, si el umbral es 0.45, 0.4 sigue siendo menor. Necesito ajustar el ejemplo para que sea claro).

Corrección del ejemplo para mayor claridad: Supongamos que el Cliente 3 tiene probabilidad 0.48 y el Cliente 4 tiene 0.42. Los compradores reales son 1, 2, 3 y 5.

Con umbral 0.5:

Detectados: 1 (0.9), 2 (0.6), 5 (0.8). El 3 (0.48) queda fuera.
Recall = 3/4 = 0.75.

Con umbral 0.45:

Detectados: 1 (0.9), 2 (0.6), 5 (0.8) y 3 (0.48). Todos los compradores reales están dentro.
Recall = 4/4 = 1.0.

Bajar el umbral permite "capturar" más positivos, aumentando el Recall. Sin embargo, esto suele aumentar también los Falsos Positivos. El equilibrio depende de qué cueste más: perder un cliente potencial o enviar un correo de marketing a alguien que quizás no le interese.

Dato curioso: En la detección de cáncer de mama, un Recall alto es vital porque es preferible llamar a 10 mujeres sanas a una mamografía extra (Falso Positivo) que dejar pasar a una mujer enferma (Falso Negativo). La medicina preventiva prioriza la sensibilidad sobre la especificidad en etapas tempranas.

Preguntas frecuentes

¿Qué significa un recall del 100%?

Un recall del 100% significa que el modelo encontró todas las instancias positivas existentes en el conjunto de datos. No se quedó ninguna sin detectar, aunque esto a menudo implica que también clasificó varios elementos negativos como positivos.

¿Es mejor tener un recall alto o bajo?

Depende del contexto. En un filtro de correos no deseados, un recall muy alto puede ser bueno para no perder correos importantes, pero puede saturar la bandeja. En diagnóstico médico, se suele buscar un recall alto para asegurar que pocos pacientes sean dados por sanos cuando están enfermos.

¿Cómo se relaciona el recall con la precisión?

Generalmente, a medida que aumenta el recall, la precisión tiende a disminuir. Esto se debe a que para capturar más verdaderos positivos, el modelo suele tener que aceptar más falsos positivos, lo que diluye la "pureza" de las predicciones positivas.

¿Se puede calcular el recall en problemas de clasificación multiclase?

Sí, se puede calcular de varias formas. Una es el "recall por clase", donde se trata cada clase como positiva frente a las demás. Otra es el "recall macro", que promedia el recall de cada clase, y el "recall ponderado", que tiene en cuenta el desequilibrio entre clases.

¿Qué es la matriz de confusión y cómo ayuda a entender el recall?

La matriz de confusión es una tabla que resume las predicciones correctas e incorrectas de un modelo. El recall se calcula directamente a partir de los valores de la columna correspondiente a la clase positiva en esta matriz, específicamente usando los verdaderos positivos y los falsos negativos.

Resumen

El recall es una medida esencial en el aprendizaje automático que cuantifica la proporción de verdaderos positivos identificados correctamente en relación con el total de positivos reales. Su importancia radica en la capacidad de minimizar los falsos negativos, lo que lo hace indispensable en escenarios donde la omisión de un dato tiene consecuencias significativas.

Comprender la relación entre el recall y otras métricas, como la precisión y la puntuación F1, permite a los profesionales del dato seleccionar y ajustar modelos de manera más efectiva. El análisis detallado de esta métrica, junto con sus limitaciones y aplicaciones prácticas, ofrece una visión completa de su utilidad en la evaluación del rendimiento de los algoritmos predictivos.

Definición y concepto

Cálculo matemático

Ejemplo práctico: Diagnóstico médico

¿Cómo se calcula el Recall?

La matriz de confusión

Fórmula matemática

El impacto de los Falsos Negativos

Historia y contexto en la evaluación de modelos

De la Estadística al Aprendizaje de Máquinas

La Evolución hacia la Precisión y el F1-Score

¿Qué diferencia el Recall de la Precisión?

La mecánica de la compensación

Ejemplos concretos: ¿Qué priorizar?

Tabla comparativa de escenarios

Aplicaciones prácticas y ejemplos

Diagnóstico médico: la regla de la cautela

Industria 4.0: el costo del Falso Negativo

Búsqueda de información: la cobertura de datos

Limitaciones y críticas del uso aislado del Recall

La trampa del modelo perfecto pero aburrido

Necesidad de métricas complementarias

Curva ROC y el valor AUC

Sesgo en conjuntos de datos desbalanceados

Ejercicios resueltos

Ejercicio 1: Cálculo básico de Recall

Ejercicio 2: Elección de modelo según el escenario

Ejercicio 3: Impacto del umbral de clasificación

Preguntas frecuentes

¿Qué significa un recall del 100%?

¿Es mejor tener un recall alto o bajo?

¿Cómo se relaciona el recall con la precisión?

¿Se puede calcular el recall en problemas de clasificación multiclase?

¿Qué es la matriz de confusión y cómo ayuda a entender el recall?

Resumen

Referencias