BerandaComputers and TechnologySejarah Metode Interpretasi untuk Pengenalan Gambar

Sejarah Metode Interpretasi untuk Pengenalan Gambar

Lihat bagaimana metode mutakhir untuk menafsirkan jaringan saraf telah berkembang selama 11 terakhir tahun.

Oleh Ali Abdalla dan Tim Gradio .

Coba demo interpretasi menggunakan Penggandaan Balik Dipandu pada pengklasifikasi gambar Inception Net.

Mengapa Interpretasi Penting?

Salah satu tantangan terbesar dalam menggunakan algoritme Machine Learning (ML), terutama deep learning modern, untuk gambar Pengenalan adalah kesulitan memahami mengapa citra input tertentu menghasilkan prediksi yang dilakukannya. Pengguna model ML sering kali ingin memahami bagian gambar mana yang menjadi faktor kuat dalam prediksi. Penjelasan atau “interpretasi” ini berharga karena berbagai alasan:

  • Pengembang pembelajaran mesin dapat menganalisis interpretasi untuk men-debug model, mengidentifikasi bias, dan memprediksi apakah model cenderung menggeneralisasi ke gambar baru
  • Pengguna model pembelajaran mesin dapat lebih mempercayai model jika diberikan penjelasan mengapa prediksi tertentu dibuat
  • Peraturan seputar ML seperti GDPR memerlukan beberapa keputusan algoritmik agar dapat dijelaskan dalam istilah manusia

Akibatnya, setidaknya sejak 2009, para peneliti telah melakukannya mengembangkan berbagai metode untuk membuka “kotak hitam” dari pembelajaran mendalam, yang bertujuan untuk membuat model dasar lebih dapat dijelaskan.

Di bawah ini, kami telah mengumpulkan antarmuka visual untuk teknik interpretasi gambar yang canggih di masa lalu dekade, bersama dengan deskripsi singkat dari setiap teknik. Kami menggunakan sejumlah perpustakaan yang mengagumkan, tetapi secara khusus mengandalkan Gradio untuk membuat antarmuka yang Anda lihat GIF di bawah dan PAIR-code implementasi TensorFlow dari kertas Model yang digunakan untuk semua antarmuka adalah Pengklasifikasi gambar Inception Net . Kode lengkap untuk direproduksi posting blog ini dapat ditemukan di jupyter ini notebook dan pada Colab .

Mari kita mulai dengan algoritme yang sangat dasar sebelum kita menggali makalahnya.

Tinggalkan-Sekali

Leave-one-out (LOO) adalah salah satu metode termudah untuk dipahami. Ini adalah algoritme pertama yang mungkin Anda hasilkan jika Anda ingin memahami bagian mana dari gambar yang bertanggung jawab atas prediksi. Idenya adalah untuk segmen pertama gambar masukan ke dalam sekelompok wilayah yang lebih kecil. Kemudian, Anda menjalankan beberapa prediksi, setiap kali menutupi salah satu daerah. Setiap daerah diberi skor kepentingan berdasarkan seberapa besar “penyamaran” yang dimilikinya memengaruhi hasil. Skor ini adalah penghitungan wilayah mana yang paling bertanggung jawab untuk prediksi.

Metode ini lambat, karena bergantung pada menjalankan banyak iterasi model, tetapi bergantung pada segmentasinya, ini dapat menghasilkan hasil yang sangat akurat dan berguna. Di atas adalah contoh gambar anjing doberman. LOO adalah teknik interpretasi default di library Gradio, dan tidak memerlukan akses apa pun ke internal model sama sekali – yang merupakan nilai tambah yang besar.

Vanilla Gradient Ascent [2009 and 2013]

Makalah: Visualisasi Fitur Lapisan Lebih Tinggi dari Jaringan Dalam [2009]

Makalah: Memvisualisasikan Model Klasifikasi Gambar dan Peta Saliency [2013]

Dua makalah pertama ini serupa karena keduanya menyelidiki internal jaringan saraf dengan menggunakan gradien pendakian. Dengan kata lain, mereka mempertimbangkan perubahan kecil apa pada input atau aktivasi yang akan meningkatkan probabilitas kelas yang diprediksi. Makalah pertama menerapkan ini pada aktivasi, dan penulis melaporkan bahwa “itu adalah [possible] untuk menemukan interpretasi kualitatif yang baik dari fitur tingkat tinggi. Kami tunjukkan itu, mungkin berlawanan dengan intuisi, interpretasi seperti itu dimungkinkan pada tingkat unit, yang mudah dicapai dan itu hasilnya konsisten di berbagai teknik. ”

Makalah kedua juga menggunakan pendakian gradien, tetapi menyelidiki piksel dari gambar input secara langsung daripada aktivasi. Metode penulis “menghitung peta arti-penting kelas, khusus untuk gambar dan kelas tertentu. [It shows] bahwa peta semacam itu dapat digunakan untuk segmentasi objek yang diawasi secara lemah menggunakan klasifikasi ConvNets. ”

Propogasi Balik Dipandu [2014]

Makalah: Berjuang untuk Kesederhanaan: The All Convolutional Net [2014]

Dalam makalah ini, penulis mengusulkan jaringan saraf baru yang seluruhnya terdiri dari lapisan konvolusional. Karena metode interpretasi sebelumnya tidak berfungsi dengan baik untuk jaringan mereka, mereka memperkenalkan propagasi balik yang dipandu, yang memfilter aktivasi negatif agar tidak disebarkan saat melakukan pendakian gradien standar. Mereka menunjukkan itu metode mereka “dapat diterapkan ke struktur jaringan yang lebih luas”.

Grad-CAM [2016]

Makalah: Grad-CAM: Penjelasan Visual dari Deep Networks melalui Lokalisasi Berbasis Gradien [2016]

Selanjutnya: pemetaan aktivasi kelas berbobot gradien (Grad-CAM), yang menggunakan “gradien konsep target apa pun, mengalir ke lapisan konvolusional akhir untuk menghasilkan peta lokalisasi kasar yang menyoroti wilayah penting di gambar untuk memprediksi konsep. ” Keuntungan utama dari metode ini adalah menggeneralisasi lebih lanjut kelas jaringan saraf tempat interpretasi dapat diterapkan (seperti jaringan untuk klasifikasi, teks, dan visual model jawaban pertanyaan (VQA)), serta langkah pasca-pemrosesan yang bagus yang memusatkan dan melokalkan interpretasi di sekitar objek utama pada gambar.

SmoothGrad [2017]

Kertas: SmoothGrad: menghilangkan kebisingan dengan menambahkan kebisingan [2017]

Seperti makalah sebelumnya, metode ini dimulai dengan menghitung gradien fungsi skor kelas sehubungan dengan gambar masukan. Namun, SmoothGrad secara visual mempertajam peta sensitivitas berbasis gradien ini dengan menambahkan derau ke memasukkan gambar, lalu menghitung gradien yang terkait dengan masing-masing versi gambar yang terganggu ini. Rata-rata peta sensitivitas bersama-sama memberi Anda hasil yang lebih tajam.

Gradien Terintegrasi [2017]

Makalah: Atribusi Aksiomatik untuk Jaringan Dalam [2017]

Berbeda dengan makalah sebelumnya, penulis makalah ini memulai dari interpretasi teori dasar. Mereka “mengidentifikasi dua aksioma mendasar – sensitivitas dan invariansi implementasi yang harus dipenuhi oleh metode atribusi. ” Mereka menggunakan prinsip-prinsip ini untuk memandu desain metode atribusi baru yang disebut Gradien Terintegrasi. Metode menghasilkan interpretasi berkualitas tinggi, namun tetap hanya membutuhkan akses ke gradien model; namun itu menambahkan hyperparameter “dasar”, yang dapat mempengaruhi kualitas hasil.

Blur Gradien Terintegrasi [2020]

Makalah: Atribusi dalam Skala dan Spasi [2020]

Teknik terbaru yang kami pelajari – metode ini diusulkan untuk menyelesaikan masalah tertentu dengan gradien terintegrasi, termasuk penghapusan parameter ‘baseline’, dan penghapusan artefak visual tertentu yang cenderung muncul dalam interpretasi. Selain itu, ia juga “menghasilkan skor dalam dimensi skala / frekuensi,” yang pada dasarnya menyediakan pengertian tentang skala objek penting dalam gambar.

Lihat semua metode ini dibandingkan di sini:

Terima kasih sudah membaca! Jika Anda ingin menerbitkan postingan blog dengan email Gradio blog@gradio.app

Read More

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments