Jika Anda dapat melihat kembali keadaan AI beberapa tahun yang lalu dan membandingkannya dengan kondisinya saat ini, Anda akan terkejut melihat betapa eksponensialnya ia telah tumbuh dari waktu ke waktu.
Ini bercabang ke berbagai domain, seperti ML, sistem pakar, dan NLP.
Ide di balik AI adalah untuk membangun sistem yang lebih cerdas yang berpikir dan mengeksekusi sendiri, tetapi mereka masih perlu dilatih.
Domain ML AI dibuat untuk tujuan yang sangat tepat dengan memperkenalkan beberapa algoritma, memungkinkan pemrosesan data dan pengambilan keputusan yang lebih lancar.
Apa itu algoritma pembelajaran mesin?
Mekanisme algoritma ini adalah bahwa kumpulan data awal disediakan, dan ketika algoritma meningkatkan akurasinya, data tambahan dimasukkan ke dalam campuran.
Proses ini, yang secara berkala memaparkan algoritma ke data dan pengalaman baru, meningkatkan efisiensi keseluruhan alat berat.
Algoritma ML sangat penting untuk berbagai tugas yang terkait dengan klasifikasi, pemodelan prediktif, dan analisis data.
Jenis Algoritma Machine Learning
Bagian ini berfokus pada berbagai jenis algoritma ML yang ada. Tiga paradigma utama algoritma ML adalah:
-
Pembelajaran yang diawasi
Sesuai namanya, algoritma yang diawasi bekerja dengan mendefinisikan satu set data input dan hasil yang diharapkan. Model ditingkatkan dengan berulang kali menjalankan fungsi pada data pelatihan dan melibatkan pengguna untuk memperkenalkan parameter kontrol . Algoritma dianggap berhasil jika pemetaan dan prediksi ternyata benar.
-
Pembelajaran tanpa pengawasan
Sementara algoritma yang diawasi bekerja pada data berlabel pengguna untuk prediksi output, algoritme ini secara eksplisit melatih mesin pada data yang tidak berlabel dengan sedikit atau tanpa keterlibatan pengguna.
Algoritma meninggalkan data untuk mengklasifikasikan dan mengelompokkan pola tersembunyi dan belum ditemukan untuk mengidentifikasinya, dan sering digunakan sebagai langkah persiapan untuk pembelajaran yang diawasi.
-
Pembelajaran penguatan
Algoritma pembelajaran penguatan bertujuan untuk menemukan keseimbangan sempurna antara eksplorasi dan pemanfaatan tanpa perlu data berlabel atau intervensi pengguna.
Algoritma ini bekerja dengan memilih tindakan dan mengamati hasilnya, dan berdasarkan itu, mereka belajar seberapa optimal hasilnya. Proses ini diulang berkali-kali sampai algoritma berkembang untuk memilih strategi yang tepat.
Algoritma Pembelajaran Mesin Teratas
Setelah Anda terbiasa dengan beberapa jenis algoritma ML , baca beberapa algoritma umum.
-
Regresi Linier
Regresi linier adalah algoritma ML yang diawasi yang membantu Anda menemukan perkiraan kecocokan linier yang sesuai untuk kumpulan titik.
Pada intinya, regresi linier adalah pendekatan linier untuk mengidentifikasi hubungan antara dua variabel, salah satu dari nilai-nilai ini bergantung dan yang lainnya independen.
Ide di balik ini adalah untuk memahami bagaimana perubahan dalam satu variabel mempengaruhi variabel lain, dan sebagai hasilnya, dapat menghasilkan hubungan positif atau negatif.
Garis ini disebut garis regresi dan diwakili oleh persamaan linier Y = a *X + b .
Dalam persamaan ini:
Y — variabel dependen;
a – lereng
X — variabel independen;
b — Mencegat
Algoritma ini diterapkan ketika output yang diprediksi kontinu dan memiliki kemiringan konstan, seperti:
- Memperkirakan penjualan
- Penilaian Risiko
- Analisis data cuaca
- Analisis Prediktif
- Analisis hasil survei pelanggan
- Optimalisasi harga produk
-
Regresi Logistik
Algoritma regresi logistik sering digunakan dalam masalah klasifikasi biner di mana peristiwa dalam kasus ini umumnya salah satu dari dua nilai (lulus atau gagal, benar atau salah).
Ini sangat ideal untuk situasi di mana Anda perlu memprediksi probabilitas bahwa variabel dependen termasuk dalam salah satu dari dua kategori respons.
Kasus penggunaan umum untuk algoritma ini adalah untuk mengidentifikasi apakah tulisan tangan tertentu cocok dengan orang yang bersangkutan, atau apakah harga minyak akan naik dalam beberapa bulan mendatang.
Secara umum, regresi dapat digunakan dalam aplikasi dunia nyata seperti:
- Penilaian Kredit
- Deteksi Kanker
- Pemrosesan gambar geografis
- Pengenalan tulisan tangan
- Segmentasi dan kategorisasi gambar
- Mengukur Tingkat Keberhasilan Kampanye Pemasaran
- Meramalkan pendapatan untuk produk tertentu
- Akankah gempa bumi terjadi pada hari tertentu?
-
Pohon Keputusan
Algoritma pohon keputusan berada di bawah ML yang diawasi dan digunakan untuk memecahkan masalah regresi dan klasifikasi. Tujuannya adalah untuk menggunakan pohon keputusan untuk beralih dari pengamatan ke hasil pemrosesan di setiap tingkatan.
Memproses pohon keputusan adalah pendekatan top-down di mana atribut terbaik dipilih sebagai root dari data pelatihan dan proses diulang untuk setiap cabang. Pohon keputusan biasanya digunakan untuk tujuan berikut:
- Membangun platform manajemen pengetahuan
- Pilih penerbangan untuk bepergian
- Prakiraan hari kerja yang tinggi di hotel
- Sarankan mobil mana yang akan dibeli kepada pelanggan
- Memprediksi prediksi dan mengidentifikasi potensi di berbagai bidang
-
Algoritma Pembelajaran Mesin Apriori
Ia bekerja dengan mencari satu set item umum dalam himpunan data dan kemudian membangun asosiasi di atasnya.
Ini biasanya digunakan untuk penambangan itemset dan pelatihan aturan asosiasi dari database relasional.
Ide di balik algoritma ini adalah untuk memperluas item terkait ke set terbesar yang mungkin untuk membuat asosiasi yang lebih berguna.
Aplikasi algoritma ini termasuk menyoroti tren pembelian pasar.
Selain itu, mudah diimplementasikan dan dapat digunakan dengan himpunan data besar.
-
Naive Bayes
Ia bekerja dengan menerapkan teorema Bayes ke data dengan asumsi naif tentang independensi bersyarat antara semua pasangan fitur yang diberikan nilai variabel kelas.
Sederhananya, jika peristiwa B terjadi, ini membantu Anda menemukan probabilitas bahwa peristiwa A akan terjadi. Naive Bayes sempurna pada
- Pemfilteran pesan spam
- Sistem rekomendasi seperti Netflix
- Kategorikan artikel berita teknologi, politik, dan olahraga
- Analisis Sentimen di Media Sosial
- Perangkat Lunak Pengenalan Wajah
-
Jaringan Saraf Tiruan
Jaringan saraf tiruan, yang dimodelkan setelah otak manusia, berfungsi sebagai labirin raksasa neuron atau hanya sebagai simpul yang menggerakkan informasi di sekitar satu sama lain.
Node yang saling berhubungan ini langsung meneruskan data ke node lain melalui tepi, membuat pemrosesan lebih cepat dan lebih mudah untuk pembelajaran yang lebih lancar.
ANN tidak diprogram dengan seperangkat aturan tertentu, tetapi dipelajari dengan memberi contoh. Proses nonlinier dapat dimodelkan dan mereka dapat diimplementasikan di bidang-bidang seperti:
- pengenalan pola
- Keamanan Cyber
- penambangan data
- Deteksi varietas kanker pada pasien
-
Pengelompokan K-Rata-Rata
k-means clustering adalah algoritma pembelajaran tanpa pengawasan berulang yang membagi n pengamatan menjadi gugus k dan setiap pengamatan termasuk dalam rata-rata gugus terdekat.
Sederhananya, algoritma ini mengumpulkan kumpulan titik data berdasarkan kesamaan. Aplikasinya adalah Web yang serupa dan terkait dalam bahasa pemrograman dan perpustakaan seperti Python, SciPy, Sci-Kit Learn, dan Data Mining. Mereka berkisar dari pengelompokan hasil pencarian.
Aplikasi Dunia Nyata dari Pengelompokan K-Means :
- Mengidentifikasi Berita Palsu
- Deteksi dan pemfilteran spam
- Mengklasifikasikan buku dan film berdasarkan genre
- Rute transportasi populer saat membangun kota
-
Mendukung Mesin Vektor
Mesin vektor pendukung diklasifikasikan sebagai algoritma pembelajaran mesin yang diawasi dan terutama digunakan untuk analisis klasifikasi dan regresi.
Algoritme bekerja dengan membangun contoh dan model baru yang menetapkan data ke kategori, dan kategori ini dapat dengan mudah dibedakan satu sama lain dengan kesenjangan.
SVG sangat efektif ketika jumlah dimensi melebihi jumlah sampel dan efisiensi memori sangat tinggi.
Aplikasi SVM terletak di lokasi berikut:
- Deteksi Wajah
- Klasifikasi gambar
- Mengklasifikasikan teks dan hypertext
- Pengenalan tulisan tangan
- Penemuan obat untuk pengobatan
- Bioinformatika — klasifikasi protein, gen, biologis, atau kanker.
-
K-Tetangga Terdekat
K Nearest Neighbor adalah algoritma ML yang diawasi yang digunakan untuk masalah regresi dan klasifikasi.
Algoritma ini, biasanya diimplementasikan untuk pengenalan pola, pertama-tama menggunakan fungsi jarak untuk menyimpan dan mengidentifikasi jarak antara semua input dalam data, dan kemudian memilih dan mengeluarkan input yang ditentukan k yang paling dekat dengan kueri.
- Label yang paling sering (untuk klasifikasi)
- Rata-rata k tetangga terdekat (untuk regresi)
Aplikasi sebenarnya dari algoritma ini meliputi:
- Deteksi sidik jari
- Peringkat Kredit
- Prakiraan Pasar Saham
- Analisis Pencucian Uang
- Kebangkrutan Bank
- nilai tukar
-
Algoritma Pengurangan Dimensi
Algoritma pengurangan dimensi bekerja dengan mengurangi jumlah ruang dimensi atau variabel acak dalam himpunan data dengan menggunakan salah satu dari dua pendekatan utama: pemilihan fitur atau ekstraksi fitur.
Ini sering diterapkan untuk prapemrosesan himpunan data atau menghapus fitur yang berlebihan, sehingga memudahkan algoritme untuk melatih model.
Algoritma ini juga memiliki beberapa keunggulan bagus, seperti:
- Persyaratan penyimpanan rendah
- Daya komputasi rendah yang dibutuhkan
- Peningkatan akurasi
- Pengurangan kebisingan
Beberapa algoritma pengurangan dimensi yang terkenal adalah:
- Analisis komponen utama
- Analisis diskriminan linier
- Penyematan linier lokal
- Penskalaan multidimensi
-
Analisis komponen utama
Analisis Komponen Utama adalah algoritma tanpa pengawasan dalam ML yang terutama digunakan untuk mengurangi dimensi ruang fitur menggunakan penghapusan fitur atau ekstraksi fitur.
Ini juga digunakan sebagai alat untuk analisis data eksplorasi dan konstruksi model prediktif. Jika Anda membutuhkan data yang dinormalisasi, PCA dapat membantu Anda:
- pemrosesan gambar
- Sistem Rekomendasi Video
- Menghitung Matriks Kovarians Data
- Melakukan dekomposisi eigenvalue pada matriks kovarians
- Alokasi daya yang dioptimalkan untuk beberapa saluran komunikasi
PCA bertujuan untuk mengurangi redundansi kumpulan data dan menyederhanakan tanpa mengorbankan akurasi. Ini biasanya digunakan di departemen pemrosesan gambar dan manajemen risiko.
-
Hutan Acak
Hutan acak menggunakan berbagai algoritma untuk memecahkan klasifikasi, regresi, dan masalah serupa dengan menerapkan pohon keputusan.
Cara kerjanya adalah membuat tumpukan pohon keputusan dengan kumpulan data acak dan memiliki model yang dilatih secara berulang untuk mendapatkan hasil yang hampir akurat.
Akhirnya, semua hasil dari pohon keputusan ini digabungkan untuk menentukan hasil terbaik yang paling sering ditampilkan dalam output.
Aplikasi Hutan Acak :
- Deteksi penipuan rekening bank dan kartu kredit
- Mendeteksi dan memprediksi sensitivitas obat obat obat
- Identifikasi penyakit pasien dengan menganalisis catatan medis
- Memprediksi perkiraan kerugian atau keuntungan selama pembelian saham tertentu
-
Peningkatan Gradien dan AdaBoost
Boosting adalah teknik di mana algoritma ML ansambel mengubah pelajar yang lebih lemah menjadi pelajar yang lebih kuat. Ketika data kaya, algoritma peningkatan diperlukan untuk mengurangi bias dan varians dalam pembelajaran yang diawasi. Di bawah ini adalah dua algoritma peningkatan umum.
- Peningkatan Gradien
Algoritma peningkatan gradien biasanya digunakan untuk masalah klasifikasi dan regresi dengan membangun model prediktif dengan cara berulang, seperti pohon keputusan. Ini meningkatkan pelajar yang lemah dengan melatihnya dengan kesalahan pelajar yang kuat yang menghasilkan pembelajar yang akurat secara keseluruhan.
- Ada Peningkatan
Disingkat Adaptive Boosting, AdaBoost meningkatkan model ketika pelajar yang lebih lemah gagal. Ini dilakukan dengan mengubah bobot yang melekat pada contoh dalam sampel untuk fokus pada yang keras, dan kemudian, output dari pelajar yang lebih lemah digabungkan untuk membentuk jumlah tertimbang, yang dianggap sebagai output dorongan akhir.
Kesimpulan
Algoritma ML sangat penting bagi ilmuwan data karena mereka memiliki semakin banyak aplikasi dunia nyata . Dengan menggunakan berbagai algoritma yang disebutkan di atas, Anda dapat menemukan algoritma yang paling baik menyelesaikan masalah. Algoritma ini adalah campuran dari diawasi dan tidak diawasi, tetapi mereka dapat menangani berbagai tugas dan bekerja secara sinkron dengan algoritma lain.