Pengertian Dan Cara Kerja Algoritma K-Nearest Neighbors (Knn)

By astagadragon Senin, 05 Maret 2018 Add Comment Edit

K-nearest neighbors atau knn yaitu algoritma yang berfungsi untuk melaksanakan pembagian terstruktur mengenai suatu data menurut data pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya (nearest neighbors). Dengan k merupakan banyaknya tetangga terdekat.

A. Cara Kerja Algoritma K-Nearest Neighbors (KNN)

K-nearest neighbors melaksanakan pembagian terstruktur mengenai dengan proyeksi data pembelajaran pada ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data pembelajaran. Setiap data pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.

Klasifikasi Terdekat (Nearest Neighbor Classification)

Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak yang telah memuat titik-titik c data pembelajaran. Proses pembagian terstruktur mengenai dilakukan dengan mencari titik c terdekat dari c-baru (nearest neighbor). Teknik pencarian tetangga terdekat yang umum dilakukan dengan memakai formula jarak euclidean. Berikut beberapa formula yang dipakai dalam algoritma knn.

Euclidean Distance

Jarak Euclidean yaitu formula untuk mencari jarak antara 2 titik dalam ruang dua dimensi.
Hamming Distance

Jarak Hamming yaitu cara mencari jarak antar 2 titik yang dihitung dengan panjang vektor biner yang dibuat oleh dua titik tersebut dalam block instruksi biner.
Manhattan Distance

Manhattan Distance atau Taxicab Geometri yaitu formula untuk mencari jarak d antar 2 vektor p,q pada ruang dimensi n.
Minkowski Distance

Minkowski distance yaitu formula pengukuran antar 2 titik pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi euclidean distance dan mahattan distance.

Teknik pencarian tetangga terdekat diadaptasi dengan dimensi data, proyeksi, dan fasilitas implementasi oleh pengguna.

Banyaknya k Tetangga Terdekat

Untuk memakai algoritma k nearest neighbors, perlu ditentukan banyaknya k tetangga terdekat yang dipakai untuk melaksanakan pembagian terstruktur mengenai data baru. Banyaknya k, sebaiknya merupakan angka ganjil, contohnya k = 1, 2, 3, dan seterusnya. Penentuan nilai k dipertimbangkan menurut banyaknya data yang ada dan ukuran dimensi yang dibuat oleh data. Semakin banyak data yang ada, angka k yang dipilih sebaiknya semakin rendah. Namun, semakin besar ukuran dimensi data, angka k yang dipilih sebaiknya semakin tinggi.

Algoritma K-Nearest Neighbors

Tentukan k bilangan lingkaran aktual menurut ketersediaan data pembelajaran.
Pilih tetangga terdekat dari data gres sebanyak k.
Tentukan pembagian terstruktur mengenai paling umum pada langkah (ii), dengan memakai frekuensi terbanyak.
Keluaran pembagian terstruktur mengenai dari data sampel baru.

B. Contoh Aplikasi K Nearest Neighbors

Contoh berikut diambil dari buku “Data Science Algorithms in a Week” yang ditulis oleh Dávid Natingga.

Pada pola ini, dilakukan pembagian terstruktur mengenai suhu udara menurut persepsi seseorang yang berjulukan Marry. Adapun pembagian terstruktur mengenai suhu udara terdiri dari 2 persepsi yaitu Panas dan Dingin. Persepsi ini sanggup diukur menurut 2 variabel yaitu temperatur dalam derajat celcius dan kecepatan angin dalam km/h. Diperoleh data berikut,

Temperatur Udara (ºC)	Kecepatan Angin (km/jam)	Klasifikasi atau Persepsi Marry
10	0	Dingin
25	0	Panas
15	5	Dingin
20	3	Panas
18	7	Dingin
20	10	Dingin
22	5	Panas
24	6	Panas

Untuk pola ini terbentuk ruang dimensi 2, yang berisi 2 kriteria yaitu temperatur udara dan kecepatan angin.

Pada proyeksi di atas sumbu vertikal yaitu kecepatan angin, sumbu horizontal yaitu temperatur suhu, warna biru yaitu dingin, dan warna merah yaitu panas.

Dari proyeksi diatas, sanggup dilakukan pembagian terstruktur mengenai data baru. Misalnya, Bagaimana persepsi Marry dikala temperatur udara 16°C dan kecepatan angin 3 km/jam.

Proses pencarian tetangga terdekat

Dapat diketahui tetangga terdekatnya yaitu titik c cuek dengan temperatur 15°C dan kecepatan angin 5 km/jam. Makara menurut pemilihan k = 1, klasifikasinya yaitu dingin.

Dengan melaksanakan proses di atas terhadap semua titik, diperoleh proyeksi pembagian terstruktur mengenai berikut.

Catatan: Untuk pemilihan k lainnya, hasil pembagian terstruktur mengenai ditentukan dengan frekuensi terbanyak. Misalnya k = 3, dengan titik terdekat dingin, panas, dingin. Hasil pembagian terstruktur mengenai data gres tersebut yaitu dingin.

Baca juga tutorial lainnya: Daftar Isi Machine Learning

Sekian artikel Pengertian dan Cara Kerja Algoritma K-Nearest Neighbors (KNN). Nantikan artikel menarik lainnya dan mohon kesediaannya untuk share dan juga menyukai halaman Advernesia. Terima kasih…

Sumber https://www.advernesia.com/

iklan