スキップしてメイン コンテンツに移動

Comprendiendo la Regresión Logística desde Cero

La regresión logística es uno de los métodos más populares en la intersección de la estadística y el aprendizaje automático.

A pesar de que su nombre incluya “regresión”, en realidad es un modelo de clasificación que predice “0 o 1”.

Con su interpretación probabilística intuitiva y su sencilla implementación, se utiliza ampliamente en una variedad de campos, desde negocios hasta atención médica y análisis web.

1. ¿Qué es la Regresión Logística?


Mientras que la regresión lineal general predice valores continuos, la regresión logística genera la probabilidad de que ocurra un evento.

Al clasificar las instancias como clase 1 si la probabilidad resultante excede un umbral y como clase 0 si está por debajo, resuelve problemas de clasificación binaria.

La estimación se realiza maximizando la función de verosimilitud logarítmica para explicar mejor las etiquetas correctas.

Matemáticamente, implica encontrar el gradiente y actualizarlo iterativamente, lo que significa que puede completar el aprendizaje con sólo unas pocas líneas de código utilizando `scikit-learn` o `statsmodels` de Python.

2. ¿Dónde se Utiliza?


Debido a su alta interpretabilidad y bajo coste de implementación, la regresión logística suele ser la primera opción en muchas industrias y aplicaciones.

- Diagnóstico Médico: Predecir si un paciente tiene una enfermedad basándose en los resultados de las pruebas y el historial médico.
- Calificación Crediticia: Determinar la solvencia basándose en los atributos y el historial crediticio de un solicitante.
- Predicción de la Pérdida de Clientes: Estimar el riesgo de cancelación basándose en el historial de compras y la frecuencia de uso.
- Marketing: Clasificación binaria de las tasas de apertura de correos electrónicos y las tasas de clics de publicidad.
- RR. HH. y Reclutamiento: Evaluar la idoneidad de los candidatos y el riesgo de abandono temprano basándose en la información del solicitante.
- Detección de Anomalías en la Fabricación: Determinar la presencia de fallos en los equipos basándose en los datos de los sensores.

Al observar los pesos y las razones de probabilidades, puede comprender intuitivamente cuánto influye cada variable explicativa en el resultado.

3. ¿Beneficios de Aprenderla?


- Es fácil explicar el impacto de las variables en el resultado a las partes interesadas del negocio utilizando las razones de probabilidades y los signos de los coeficientes.
- Es un buen primer paso para aprender métricas de evaluación (curva ROC, AUC, Precisión-Exhaustividad).
- En comparación con los árboles de decisión o las SVM, puede proporcionar una justificación numérica de “por qué” se hizo una predicción.
- Proporciona una base para desarrollar la clasificación multiclase (regresión Softmax).
- Puede servir como conocimiento fundamental para modelos bayesianos jerárquicos y modelos lineales generalizados.
- Puede incorporar predicciones probabilísticas directamente en la toma de decisiones posterior, como las calificaciones crediticias y la evaluación del riesgo del paciente.
- La comprensión de la estimación de máxima verosimilitud, los métodos de gradiente y la regularización puede aplicarse al aprendizaje profundo.
- El sobreajuste puede suprimirse combinando la regularización y la selección de variables.
- Puede implementarse con sólo unas pocas líneas de código utilizando bibliotecas estándar de Python/R y puede manejar conjuntos de datos grandes utilizando el aprendizaje por mini-lotes.

Resumen


La regresión logística no sólo es directamente aplicable a su trabajo, sino también un paso esencial hacia algoritmos más avanzados.

Comencemos implementando la regresión logística con nuestras propias manos y experimentando la diversión de la predicción probabilística.

 


Si desea aprender regresión logística, recomendamos este libro (acceda aquí).

コメント

このブログの人気の投稿

Understanding Probability and Probability Distributions from Scratch

 In modern society, we are surrounded by various uncertainties and random phenomena. From the weather and stock prices to the outcomes of sports and even small daily choices, the concepts of probability and probability distributions are powerful tools for understanding these uncertainties quantitatively. This article explains what probability and probability distributions are, where they are used, and the benefits of learning these concepts. 1. What are Probability and Probability Distributions? Probability is a way of expressing the likelihood of an event occurring as a number between 0 and 1. 0 means the event will not occur, and 1 means the event will definitely occur. The mathematical thinking behind probability is often subtly present when we talk about the “likelihood” of something happening in everyday life. A probability distribution systematically represents all possible outcomes and the probability of each outcome. - Discrete Probability Distribution This applies to distr...

Entendiendo la Regresión de Bosques Aleatorios desde Cero

En el panorama actual de la ciencia de datos, los algoritmos capaces de manejar eficazmente relaciones no lineales e interacciones complejas están muy demandados. Entre estos, la Regresión de Bosques Aleatorios destaca como una técnica flexible y potente, logrando una alta precisión predictiva al combinar numerosos modelos de regresión de árboles de decisión. Este artículo explica los conceptos básicos de la Regresión de Bosques Aleatorios, los escenarios donde sus fortalezas se utilizan mejor y los beneficios de aprender esta técnica. 1. ¿Qué es la Regresión de Bosques Aleatorios? La Regresión de Bosques Aleatorios es una técnica de regresión que integra múltiples modelos de regresión de árboles de decisión en forma de “aprendizaje conjunto” (ensemble learning). – Principios Básicos Cada árbol de decisión se construye utilizando muestras bootstrap (remuestreo de los datos) del conjunto de entrenamiento. Además, las características utilizadas para la división en cada nodo se selecciona...

Understanding Differential Equations Solved with Variation of Parameters

1. What are Differential Equations Solved with Variation of Parameters? Differential equations are a powerful tool for mathematically capturing changing phenomena. Among these, the “method of variation of parameters” is a particularly useful technique for solving non-homogeneous linear differential equations. The general solution to a homogeneous differential equation is known, expressed by a combination of constants (constant coefficients).  However, this cannot be directly solved when a non-homogeneous term (corresponding to an external influence or input) is added. Therefore, the method of variation of parameters takes an approach of replacing the original constant parts with (unknown) functions and determining the shape of those functions through differentiation. This method allows the construction of a complete solution including the non-homogeneous term.  Due to its flexibility in handling various systems – such as when the non-homogeneous term is an exponential function...