Sztuczna empatia 8
Rozpoznawanie emocji
Joanna Siwek
Spis treści
- Wstęp
- Emocje
- Metody rozpoznania emocji
- Zastosowania ER
- Rozpoznawanie emocji a sztuczna empatia
- Zadania
- korelacji pomiędzy różnymi rodzajami sygnałów fizycznych a emocjami
- wyborze właściwych impulsów, wywołujących porządane emocje
- wyodrębnianiu właściwych cech sygnałów emocjonalnych
- machanizch przyczynowo-skutkowości w wywoływaniu emocji
- wielokanałowym rozpoznawaniu emocji
- przybliżone: szybkie reakcje uwzględniające pamięć (ale nie skomplikowane procesy poznawcze na dostępnych danych)
- reaktywne: wykonywane automatycznie w razie potrzeby;
- adaptacyjne: dynamicznie dostosowujące się do środowiska;
- ewolucyjne: tymczasowe, z możliwością nauczenia się ich;
- zbiorowe: np. emocje tłumu;
- zaraźliwe: np. reakcje na emocje innych osób generowane przez neurony lustrzane.
- emocje są instynktowne
- różni ludzie w tych samych sytuacjach odczuwają te same emocje
- różni ludzie wyrażają te same proste emocje w ten sam sposób
- podczas odczuwania podstawowych emocji, wzorce reakcji fizjologicznych różnych ludzi są takie same
Metody rozpoznawania emocji
Głównym celem badań nad rozpoznawaniem emocji jest uzyskanie bardziej naturalnego, harmonijnego i przyjaznego interfejsu HCI oraz przekształcenie komputera z logicznej maszyny obliczeniowej w intuicyjny perceptron, przechodząc w ten sposób do projektowania maszyn zorientowanego na człowieka [13].
- rozpoznanie na podstawie pikseli
- local binary pattern (LBP) - oparte na histogramach map binarnych, które są lokalną reprezentacją relacji pomiędzy pikselem a jego sąsiadami
- wavelet transform
- dyskretna transformacja kosinusowa
- Gabor feature extraction (GFE) - używa filtrów Gabora, metoda odporna na światło, skalę i przesunięcie
- wykrywanie krawędzi i skóry
- wykrywanie konturu twarzy
- metody logiki rozmytej (np. FURIA)
- algorytm k-najbliższych sąsiadów
- naiwne sieci Bayesa
- Space-Representation based Classifier (SRC)
- Support Vector Machine (całkiem dobrze wyjaśnione w [13])
Zastosowania ER
zastosowaniach w marketingu - dostosowanie treści do reakcji użytkownika; celowane reklamy; prognozowanie rynku
zastosowanie w samochodach - kontrola stanu kierowcy, pasażera
szeroko rozumiane zbieranie informacji zwrotnej od użytkownika
edukacja - dostosowanie do stanu emocjonalnego uczącego się
gry komputerowe - immersja
zdrowie i medycyna
monitorowanie obywateli (!)
Na ten moment ER jest najbardziej rozpowszechnione w dziedzinie sprzedaży i promowania produktów.
Jednym z popularniejszych rozwiązań w ER w marketingu jest wspominana już na tych zajęciach Affectiva. Systemy Affectivy rozpoznają emocje z użyciem smartfonów oraz kamerek internetowych. Algorytm najpierw odnajduje twarz wykrywając jej cechy charakterystyczne, a następnie mapuje je na wyrazy twarzy, te natomiast na emocje (rozłożone w czasie). Affectiva bada reakcje użytkowników na reklamy i produkty, pomagając budować bazę klientów [3]. Więcej o Affectivie można znaleźć w materiałach szóstych.
Na rynku dostępne są również roboty, które wkorzystują emocje w trochę inny sposób. Zamiast antropomorficznie upodabniać się do człowieka, wykorzystują one do komunikacji inne formy przekazu - na przykład wyrażanie emocji przy pomocy koloru [8].
Rozpoznawanie emocji a sztuczna empatia
- Zainstaluj bibliotekę fer do rozpoznawania emocji. Z fer zaimportuj FER, w celu rozpoznania emocji twarzy.
Zaimportuj pyplot.
import matplotlib.pyplot as plt
Wczytaj jedno ze zdjęć, które zrobiłeś/zrobiłaś.
img = plt.imread("happy.jpg")
Wykryj twarz.
Wykryj emocję funkcją detect_emotions przyjmującą argument w postaci obrazka.
from fer import FER
detector = FER(mtcnn=True)
Pokarz wykryte emocje.
[{'box': [337, 144, 260, 362], 'emotions': {'angry': 0.0, 'disgust': 0.0, 'fear': 0.0, 'happy': 1.0, 'sad': 0.0, 'surprise': 0.0, 'neutral': 0.0}}]
Sprawdź wszystkie 6 zdjęć. Czy emocje zostały dobrze rozpoznane?
img = plt.imread("sad.jpg")
[{'box': [34, 211, 542, 685], 'emotions': {'angry': 0.09, 'disgust': 0.0, 'fear': 0.04, 'happy': 0.0, 'sad': 0.25, 'surprise': 0.0, 'neutral': 0.61}}]
img = plt.imread("angry.jpg")
[{'box': [829, 189, 365, 500], 'emotions': {'angry': 0.99, 'disgust': 0.0, 'fear': 0.01, 'happy': 0.0, 'sad': 0.0, 'surprise': 0.0, 'neutral': 0.0}}]
img = plt.imread("surprised.jpg")
[{'box': [308, 130, 156, 254], 'emotions': {'angry': 0.08, 'disgust': 0.0, 'fear': 0.13, 'happy': 0.0, 'sad': 0.0, 'surprise': 0.79, 'neutral': 0.0}}]
img = plt.imread("neutral.jpg")
[{'box': [168, 68, 133, 171], 'emotions': {'angry': 0.01, 'disgust': 0.0, 'fear': 0.01, 'happy': 0.0, 'sad': 0.26, 'surprise': 0.0, 'neutral': 0.72}}]
img = plt.imread("fear.jpg")
[{'box': [171, 68, 171, 246], 'emotions': {'angry': 0.39, 'disgust': 0.02, 'fear': 0.52, 'happy': 0.03, 'sad': 0.0, 'surprise': 0.04, 'neutral': 0.0}}]
Z fer zaimportuj FER i Video, w celu rozpoznania emocji z filmu.
from fer import FER, Video
import cv2
Wczytaj film.
input_video_path = "face.mp4"
output_video_path = "out.mp4"
Przypisz film do zmiennej video.
video = Video(input_video_path)
Przeanalizuj wideo wykorzystując FER.
detector = FER(mtcnn=True)
analysis = video.analyze(detector, display=False)
INFO:fer:30.00 fps, 80 frames, 2.67 seconds INFO:fer:Making directories at output 100%|██████████| 80/80 [00:06<00:00, 11.67frames/s] INFO:fer:Completed analysis: saved to output\face_output.mp4 INFO:fer:Starting to Zip INFO:fer:Compressing: 62% INFO:fer:Zip has finished
Wypisz wynik analizy. Sama analiza może zająć chwilę. W wyniku powinna powstać kopia filmu z zaznaczoną twarzą oraz opis emocji w każdej klatce.
- Zacznijmy od ściągnięcia danych dzwiękowych. Można skorzystać np. z [15].
- Następnie instalujemy i importujemy potrzebne biblioteki. Przyda się np. sklearn do sieci neuronowych, librosa, soundfile do dźwięków.
import os
import soundfile
import numpy as np
import librosa
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
- W następnym kroku definujemy funkcje, które będą wyodrębniać cechy z pliku dźwiękowego: mfcc, chroma i mel. Funkcje te odpowiadają cechom mowy, które chemy wyodrębnić. Otwieramy plik dźwiękowy przy pomocy Soundfile. Dla każdej cechy, jeżeli istnieje, odwołaj sie do właściwej funkcji z librosa.feature i znajdź wartosć średnią.
def extract_features(file_name, mfcc, chroma, mel):
with soundfile.SoundFile(file_name) as sound_file:
X = sound_file.read(dtype="float32")
sample_rate = sound_file.samplerate
if chroma:
stft = np.abs(librosa.stft(X))
result = np.array([])
if mfcc:
mfccs = np.mean(librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=40).T, axis=0)
result = np.hstack((result, mfccs))
if chroma:
chroma = np.mean(librosa.feature.chroma_stft(S=stft, sr=sample_rate).T, axis=0)
result = np.hstack((result, chroma))
if mel:
mel = np.mean(librosa.feature.melspectrogram(y=X, sr=sample_rate).T, axis=0)
result = np.hstack((result, mel))
return result
- Definiujemy słownik emocji dostępny dla naszych danych. Zawęź liste do 3 wybranych emocji.
emotions = {
'03': 'happy',
'04': 'sad',
'05': 'angry'
- Wczytujemy dane. Z nazw plików dźwiękowych wyodrębniamy fragment będący etykietą emocji. Wybieramy tylko te 3, które chcemy obserwować. Tworzymy dwie listy. Jedna zawiera cechy, a druga emocje. Wywołujemy funkcję train_test_split.
def load_data(test_size=0.2):
x, y = [], []
main_data_folder = "C:\\\\Users\\\\jadamski\\\\Downloads\\\\speech-emotion-recognition-ravdess-data"
# Iterate through each actor's folder
for actor_folder in os.listdir(main_data_folder):
actor_folder_path = os.path.join(main_data_folder, actor_folder)
# Ensure it's a directory
if os.path.isdir(actor_folder_path):
# Iterate through each file inside the actor's folder
for file in os.listdir(actor_folder_path):
emotion_code = file.split("-")[2]
# Process only files with the emotions you're interested in
if emotion_code in emotions:
file_name = os.path.join(actor_folder_path, file)
emotion = emotions[emotion_code]
# Extract features from the audio file
feature = extract_features(file_name, mfcc=True, chroma=True, mel=True)
# Append features and emotion to the lists
return train_test_split(np.array(x), y, test_size=test_size, random_state=9)
- Dzielimy dane na cześć treningową (75%) i testową (25%).
x_train, x_test, y_train, y_test = load_data(test_size=0.25)
- Obserwujemy kształt danych treningowych i testowych.
print(f'Treningowe: {x_train.shape[0]}, Testowe: {x_test.shape[0]}')
Treningowe: 432, Testowe: 144
- Obliczamy liczbę wyodrębnionych cech.
print(f'Liczba cech: {x_train.shape[1]}')
Liczba cech: 180
- Inicjujemy klasyfikator.
model = MLPClassifier(alpha=0.01, batch_size=256, epsilon=1e-08, hidden_layer_sizes=(300,), learning_rate='adaptive', max_iter=500)
- Trenujemy model.
model.fit(x_train, y_train)
WARNING:py.warnings:c:\Users\jadamski\.conda\envs\empatia\lib\site-packages\sklearn\neural_network\_multilayer_perceptron.py:686: ConvergenceWarning: Stochastic Optimizer: Maximum iterations (500) reached and the optimization hasn't converged yet.
MLPClassifier(alpha=0.01, batch_size=256, hidden_layer_sizes=(300,), learning_rate='adaptive', max_iter=500)
- Dokonujemy predykcji wartości dla zbioru testowego.
y_pred = model.predict(x_test)
- Obliczamy dokładność modelu przy pomocy funkcji accuracy_score() ze sklearn.
accuracy = accuracy_score(y_true=y_test, y_pred=y_pred)
print("Dokładność: {:.2f}%".format(accuracy * 100))
Dokładność: 80.56%
