BerandaComputers and TechnologyKenali Emosi dalam Pidato

Kenali Emosi dalam Pidato

PR MIT License made-with-python

Logo

MevonAI – Pengenalan Emosi Ucapan

Identifikasi emosi beberapa pembicara dalam Segmen Audio
Melaporkan kesalahan · Fitur Permintaan

Coba Demo di Sini

Open In Colab

Daftar Isi

Tentang Proyek

Logo

Tujuan utama dari proyek ini adalah untuk Mengidentifikasi emosi dari banyak pembicara dalam audio panggilan sebagai aplikasi untuk umpan balik kepuasan pelanggan di pusat panggilan.

Dibangun Dengan

Mulai

Ikuti Petunjuk Di Bawah ini untuk menyiapkan proyek di Mesin lokal Anda.

Instalasi

  1. Kloning repo
 git clone https://github.com/your_username_/Project-Name.git

  1. Instal Dependensi
 sudo chmod + x src / setup.sh ./setup.sh

Menjalankan Aplikasi

  1. Tambahkan file audio dalam format .wav untuk analisis di folder src / input /

  2. Jalankan Pengenalan Emosi Ucapan menggunakan

 python3 src / speechEmotionRecognition.py 
    1. Secara Default, aplikasi akan menggunakan Model yang Dilatih Sebelumnya Tersedia di “src / model /”

    2. File yang diarisasikan akan disimpan dalam folder “src / output /”

    3. Prediksi Emosi akan disimpan dalam file .csv terpisah di folder src /

    Begini cara kerjanya:

    Diarisasi Speaker

    • Diarisasi speaker (atau diarisasi) adalah proses mempartisi aliran audio input menjadi segmen yang homogen sesuai dengan identitas speaker. Ini dapat meningkatkan keterbacaan transkripsi ucapan otomatis dengan menyusun aliran audio menjadi belokan speaker dan, jika digunakan bersama dengan sistem pengenalan speaker, dengan memberikan identitas asli pembicara. Ini digunakan untuk menjawab pertanyaan “siapa yang berbicara kapan?” Diarisasi speaker merupakan kombinasi dari segmentasi speaker dan pengelompokan speaker. Tujuan pertama untuk menemukan titik perubahan speaker dalam streaming audio. Yang kedua bertujuan untuk mengelompokkan segmen pidato berdasarkan karakteristik pembicara.

    Logo

    Ekstraksi Fitur

    • Saat kami melakukan tugas Pengenalan Pidato, MFCCs adalah fitur paling mutakhir sejak ditemukan pada 1980-an. Bentuk ini menentukan suara apa keluar. Jika kita dapat menentukan bentuknya secara akurat, ini akan memberi kita representasi yang akurat dari fonem yang diproduksi. Bentuk saluran vokal memanifestasikan dirinya dalam amplop spektrum kekuatan waktu singkat, dan tugas MFCC adalah secara akurat mewakili amplop ini.

    Gambar Di Atas mewakili Bentuk Gelombang audio, gambar di bawah ini menunjukkan Output MFCC yang dikonversi di mana kami akan Menjalankan Model CNN kami.

    Model CNN

    • Gunakan Convolutional Neural Network untuk mengenali emosi pada MFCC dengan Arsitektur berikut

    Melatih Model

    Berkontribusi

    Kontribusi adalah yang membuat komunitas open source menjadi tempat yang luar biasa untuk belajar, menginspirasi, dan berkreasi. Setiap kontribusi yang Anda berikan adalah sangat dihargai .

    1. Garpu Proyek
    2. Buat Cabang Fitur Anda ( git checkout -b feature / AmazingFeature )
    3. Lakukan Perubahan Anda ( git commit -m 'Add some AmazingFeature' )
    4. Dorong ke Cabang ( fitur git push origin / AmazingFeature )
    5. Buka Permintaan Tarik

    Lisensi

    Didistribusikan di bawah Lisensi MIT. Lihat LISENSI untuk informasi lebih lanjut.

    Ucapan Terima Kasih

    FAQ

    • Bagaimana saya melakukannya secara khusus ini dan itu?
      • Buat Masalah ke repo ini, kami akan menanggapi pertanyaannya

    Read More

    RELATED ARTICLES

    LEAVE A REPLY

    Please enter your comment!
    Please enter your name here

    Most Popular

    Recent Comments