スキップしてメイン コンテンツに移動

Entendiendo a los Vecinos Más Cercanos (k-NN) desde Cero

En el mundo del análisis de datos, los k Vecinos Más Cercanos (k-NN) tienen la reputación de ser fáciles de probar pero sorprendentemente profundos. Tienen muy pocos parámetros difíciles y son intuitivamente fáciles de entender, pero existen trucos inesperados para dominarlos en la práctica.

1. ¿Qué son los k Vecinos Más Cercanos?


Para una muestra desconocida dada, k-NN encuentra los k puntos (vecinos) más cercanos dentro del espacio de datos de aprendizaje. Luego utiliza un método simple: votación por mayoría de las etiquetas (para clasificación) o el promedio de los valores (para regresión) para predecir la respuesta. Puedes cambiar entre la distancia euclidiana, la distancia de Manhattan, la similitud del coseno y otras, dependiendo de las características del problema.

- Un k Demasiado Pequeño

Se vuelve sensible al ruido y propenso al sobreajuste (por ejemplo, k=1 es el más inestable).

- Un k Demasiado Grande

Crea límites demasiado suaves, arriesgándose a ignorar las diferencias sutiles entre las categorías (subajuste).

- Ajuste Empírico

El enfoque estándar es encontrar el k óptimo utilizando la validación cruzada.

- Peso del Escaneo Lineal

Si calculas la distancia a cada muestra cada vez, el tiempo de respuesta se vuelve severo cuando el número de puntos de datos supera los diez mil.

- Técnicas de Búsqueda Rápida

Puedes asegurar la escalabilidad utilizando KD-Tree, Ball-Tree, Vecinos Más Cercanos Aproximados (Annoy, Faiss), etc.

2. ¿Para Qué se Utiliza k-NN?


Las fortalezas de k-NN radican en su naturaleza libre de modelos, comportamiento intuitivo y versatilidad.

(1). Recomendación
   Puede utilizarse para el filtrado colaborativo basado en el cálculo de la similitud entre usuarios o elementos.

(2). Detección de Anomalías
   Aprende la distribución de las distancias a los vecinos cercanos de las muestras normales y detecta valores atípicos como puntos disimilares.

(3). Reconocimiento de Dígitos Escritos a Mano
   Calcula las distancias sobre la base de píxel por píxel y los clasifica en "dígitos familiares".

(4). Apoyo al Diagnóstico Médico
   Busca datos de pacientes similares y ayuda en el juicio basándose en los resultados del tratamiento de casos anteriores.

(5). Motor de Búsqueda de Imágenes
   Extrae "imágenes similares" calculando la distancia entre las imágenes vectorizadas por características.

De hecho, puede utilizarse tanto para la clasificación como para la regresión, y su rango de aplicación se expande dramáticamente al combinar definiciones de distancia y técnicas avanzadas de indexación.

3. Beneficios de Aprender a los Vecinos Más Cercanos


- La idea de cuantificar la similitud entre los puntos de datos es aplicable a la agrupación en clústeres, la detección de anomalías basada en la distancia e incluso los métodos kernel.

- Puedes confirmar su funcionamiento con solo unas pocas líneas de código, lo que te permite aprender fácilmente el flujo de preprocesamiento y evaluación del modelo.

- Puedes comprender intuitivamente los cambios en la precisión debido al ajuste de hiperparámetros (k y métrica de distancia).

- Puedes dominar las estructuras de datos espaciales, que son esenciales cuando se trabaja con datos a gran escala.

- Acelerar con bibliotecas de búsqueda aproximada es valioso en la recomendación y el análisis de big data.

- Si puedes entender k-NN simple, puedes pasar sin problemas a aplicar el aprendizaje de la distancia y los modelos lineales locales.

Si quieres aprender a los Vecinos Más Cercanos (Método del Vecino Más Cercano), recomendamos este libro (acceso aquí).

 

コメント

このブログの人気の投稿

Verständnis der Trigonometrie von Grund auf: Sinus, Kosinus und Tangens

Die Trigonometrie ist ein besonders tiefgreifendes und breit anwendbares Gebiet innerhalb der Mathematik. Ihre Ursprünge liegen in der antiken griechischen Astronomie und Vermessungskunst, doch ist sie heute ein unverzichtbares Werkzeug in Bereichen von der modernen Technik und Physik bis hin zur Informationstechnologie. Dieser Artikel erklärt zunächst die grundlegenden Konzepte von "Was ist Trigonometrie?", betrachtet anschließend, wie sie in verschiedenen Situationen eingesetzt wird, und erläutert schließlich die Vorteile des Trigonometrielernens. 1. Was ist Trigonometrie? Die Trigonometrie ist eine Menge von Funktionen, die die Beziehung zwischen Winkeln und Seitenlängen in einem rechtwinkligen Dreieck ausdrücken. Die bekanntesten davon sind Sinus (sin), Kosinus (cos) und Tangens (tan). - Definition in einem rechtwinkligen Dreieck In einem rechtwinkligen Dreieck werden trigonometrische Funktionen durch die Verhältnisse der gegenüberliegenden, anliegenden und hypotenusensei...

Entscheidungsbäume – Ein Leitfaden für Anfänger

In der heutigen datengesteuerten Ära entstehen ständig neue Werkzeuge zur Unterstützung komplexer Entscheidungsfindung. Unter diesen sind „Entscheidungsbäume“ aufgrund ihrer einfachen Verständlichkeit und intuitiven Visualisierung eine beliebte Methode. Hier erklären wir die grundlegenden Konzepte von Entscheidungsbäumen, spezifische Szenarien, in denen sie eingesetzt werden, und die Vorteile, sie zu erlernen. 1. Was sind Entscheidungsbäume? Entscheidungsbäume sind ein Modelltyp, der für Datenklassifizierung und -vorhersage verwendet wird. Sie verwenden eine Baumstruktur, um den Entscheidungsprozess darzustellen. Entscheidungsbäume bestehen aus Knoten (Entscheidungsknoten) und Kanten (Verzweigungen). Jeder Knoten beinhaltet eine bedingte Beurteilung basierend auf einem bestimmten Merkmal, und die Verzweigungen divergieren basierend auf diesem Ergebnis. Letztendlich wird das Klassifikationsergebnis oder der vorhergesagte Wert an den terminalen Teilen, den sogenannten Blattknoten, angeze...

Verständnis von Kehrfunktionen von Grund auf

Die Kehrfunktion ist eine der grundlegenden Funktionen in der Mathematik, und obwohl sie einfach ist, ist sie ein leistungsstarkes Werkzeug mit Anwendungen in vielen Bereichen dank ihrer einzigartigen Eigenschaften. Dieser Artikel bietet eine detaillierte Erklärung der Definition und Eigenschaften von Kehrfunktionen, untersucht die Kontexte, in denen sie verwendet werden, und umreißt die Vorteile, sich mit ihnen auseinanderzusetzen. 1. Was ist eine Kehrfunktion? Eine Kehrfunktion gibt den Kehrwert einer gegebenen reellen Zahl zurück. - Graphische Form Der Graph einer Kehrfunktion bildet eine Hyperbel, wobei die Werte sich schnell erhöhen oder verringern, wenn sie sich dem Ursprung nähern. Sie nimmt die Form einer Hyperbel an, die sich über die ersten und dritten Quadranten erstreckt, und hat Asymptoten bei x = 0 und y = 0. Hinter dieser einfachen Gleichung verbirgt sich das Konzept des multiplikativen Inversen, das die Grundlage der elementaren Algebra bildet. 2. Wo werden Kehrfunktion...