スキップしてメイン コンテンツに移動

Entendiendo a los Vecinos Más Cercanos (k-NN) desde Cero

En el mundo del análisis de datos, los k Vecinos Más Cercanos (k-NN) tienen la reputación de ser fáciles de probar pero sorprendentemente profundos. Tienen muy pocos parámetros difíciles y son intuitivamente fáciles de entender, pero existen trucos inesperados para dominarlos en la práctica.

1. ¿Qué son los k Vecinos Más Cercanos?


Para una muestra desconocida dada, k-NN encuentra los k puntos (vecinos) más cercanos dentro del espacio de datos de aprendizaje. Luego utiliza un método simple: votación por mayoría de las etiquetas (para clasificación) o el promedio de los valores (para regresión) para predecir la respuesta. Puedes cambiar entre la distancia euclidiana, la distancia de Manhattan, la similitud del coseno y otras, dependiendo de las características del problema.

- Un k Demasiado Pequeño

Se vuelve sensible al ruido y propenso al sobreajuste (por ejemplo, k=1 es el más inestable).

- Un k Demasiado Grande

Crea límites demasiado suaves, arriesgándose a ignorar las diferencias sutiles entre las categorías (subajuste).

- Ajuste Empírico

El enfoque estándar es encontrar el k óptimo utilizando la validación cruzada.

- Peso del Escaneo Lineal

Si calculas la distancia a cada muestra cada vez, el tiempo de respuesta se vuelve severo cuando el número de puntos de datos supera los diez mil.

- Técnicas de Búsqueda Rápida

Puedes asegurar la escalabilidad utilizando KD-Tree, Ball-Tree, Vecinos Más Cercanos Aproximados (Annoy, Faiss), etc.

2. ¿Para Qué se Utiliza k-NN?


Las fortalezas de k-NN radican en su naturaleza libre de modelos, comportamiento intuitivo y versatilidad.

(1). Recomendación
   Puede utilizarse para el filtrado colaborativo basado en el cálculo de la similitud entre usuarios o elementos.

(2). Detección de Anomalías
   Aprende la distribución de las distancias a los vecinos cercanos de las muestras normales y detecta valores atípicos como puntos disimilares.

(3). Reconocimiento de Dígitos Escritos a Mano
   Calcula las distancias sobre la base de píxel por píxel y los clasifica en "dígitos familiares".

(4). Apoyo al Diagnóstico Médico
   Busca datos de pacientes similares y ayuda en el juicio basándose en los resultados del tratamiento de casos anteriores.

(5). Motor de Búsqueda de Imágenes
   Extrae "imágenes similares" calculando la distancia entre las imágenes vectorizadas por características.

De hecho, puede utilizarse tanto para la clasificación como para la regresión, y su rango de aplicación se expande dramáticamente al combinar definiciones de distancia y técnicas avanzadas de indexación.

3. Beneficios de Aprender a los Vecinos Más Cercanos


- La idea de cuantificar la similitud entre los puntos de datos es aplicable a la agrupación en clústeres, la detección de anomalías basada en la distancia e incluso los métodos kernel.

- Puedes confirmar su funcionamiento con solo unas pocas líneas de código, lo que te permite aprender fácilmente el flujo de preprocesamiento y evaluación del modelo.

- Puedes comprender intuitivamente los cambios en la precisión debido al ajuste de hiperparámetros (k y métrica de distancia).

- Puedes dominar las estructuras de datos espaciales, que son esenciales cuando se trabaja con datos a gran escala.

- Acelerar con bibliotecas de búsqueda aproximada es valioso en la recomendación y el análisis de big data.

- Si puedes entender k-NN simple, puedes pasar sin problemas a aplicar el aprendizaje de la distancia y los modelos lineales locales.

Si quieres aprender a los Vecinos Más Cercanos (Método del Vecino Más Cercano), recomendamos este libro (acceso aquí).

 

コメント

このブログの人気の投稿

Understanding Probability and Probability Distributions from Scratch

 In modern society, we are surrounded by various uncertainties and random phenomena. From the weather and stock prices to the outcomes of sports and even small daily choices, the concepts of probability and probability distributions are powerful tools for understanding these uncertainties quantitatively. This article explains what probability and probability distributions are, where they are used, and the benefits of learning these concepts. 1. What are Probability and Probability Distributions? Probability is a way of expressing the likelihood of an event occurring as a number between 0 and 1. 0 means the event will not occur, and 1 means the event will definitely occur. The mathematical thinking behind probability is often subtly present when we talk about the “likelihood” of something happening in everyday life. A probability distribution systematically represents all possible outcomes and the probability of each outcome. - Discrete Probability Distribution This applies to distr...

Entendiendo la Regresión de Bosques Aleatorios desde Cero

En el panorama actual de la ciencia de datos, los algoritmos capaces de manejar eficazmente relaciones no lineales e interacciones complejas están muy demandados. Entre estos, la Regresión de Bosques Aleatorios destaca como una técnica flexible y potente, logrando una alta precisión predictiva al combinar numerosos modelos de regresión de árboles de decisión. Este artículo explica los conceptos básicos de la Regresión de Bosques Aleatorios, los escenarios donde sus fortalezas se utilizan mejor y los beneficios de aprender esta técnica. 1. ¿Qué es la Regresión de Bosques Aleatorios? La Regresión de Bosques Aleatorios es una técnica de regresión que integra múltiples modelos de regresión de árboles de decisión en forma de “aprendizaje conjunto” (ensemble learning). – Principios Básicos Cada árbol de decisión se construye utilizando muestras bootstrap (remuestreo de los datos) del conjunto de entrenamiento. Además, las características utilizadas para la división en cada nodo se selecciona...

Understanding Differential Equations Solved with Variation of Parameters

1. What are Differential Equations Solved with Variation of Parameters? Differential equations are a powerful tool for mathematically capturing changing phenomena. Among these, the “method of variation of parameters” is a particularly useful technique for solving non-homogeneous linear differential equations. The general solution to a homogeneous differential equation is known, expressed by a combination of constants (constant coefficients).  However, this cannot be directly solved when a non-homogeneous term (corresponding to an external influence or input) is added. Therefore, the method of variation of parameters takes an approach of replacing the original constant parts with (unknown) functions and determining the shape of those functions through differentiation. This method allows the construction of a complete solution including the non-homogeneous term.  Due to its flexibility in handling various systems – such as when the non-homogeneous term is an exponential function...