Fejlesztés alatt: okostelefonok, amelyek képesek felmérni a hangulatot
A Rochesteri Egyetem kutatói egy új számítógépes programot fejlesztenek, amely beszéd útján mérik fel az emberi érzéseket, és az okostelefonok prototípusalkalmazása már elkészült.A program nem azt elemzi, amit az ember mond, hanem azt, hogy hogyan.
"Valójában olyan színészek felvételeit használtuk, amelyek felolvasták a hónap dátumát - igazán nem mindegy, hogy mit mondanak, hanem az, hogy miként mondják, hogy mi érdekel" - mondta Wendi Heinzelman, Ph.D. professzor villamos- és számítástechnika területén.
A program a beszéd 12 jellemzőjét elemzi, például a hangmagasságot és a hangerőt, hogy azonosítsa a hangfelvétel hat érzelmének egyikét. A kutatók szerint 81 százalékos pontosságot ér el, ami jelentős javulás a korábbi vizsgálatokhoz képest, amelyek csak körülbelül 55 százalékos pontosságot értek el.
A kutatást már felhasználták egy olyan alkalmazás prototípusának kifejlesztésére, amely vagy a boldog, vagy a szomorú arcot jeleníti meg, miután rögzíti és elemzi a felhasználó hangját. Heinzelman egyik végzős hallgatója, Na Yang építette a Microsoft Research nyári gyakorlata során.
"A kutatás még mindig a kezdeti időkben jár" - ismerte el Heinzelman -, de könnyű elképzelni egy összetettebb alkalmazást, amely ezt a technológiát felhasználhatja mindenre, a mobilján (telefonján) megjelenített színek beállításától kezdve a zene lejátszásáig, a megfelelő módon a hangfelvétel után érezzük magunkat.
Heinzelman és csapata együttműködik dr. Rochester pszichológusokkal. Melissa Sturge-Apple és Patrick Davies, akik jelenleg a tinédzserek és szüleik interakcióit tanulmányozzák. "Az érzelmek kategorizálásának megbízható módja nagyon hasznos lehet kutatásunk során" - mondta Sturge-Apple. "Ez azt jelentené, hogy a kutatónak nem kell hallgatnia a beszélgetéseket, és manuálisan be kell írnia a különböző emberek érzelmét különböző szakaszokban."
A kutatók szerint egy számítógép megtanítása az érzelmek megértésére annak felismerésével kezdődik, hogy az emberek hogyan csinálják.
"Lehet, hogy hallasz valakit beszélni és azt gondolni, hogy" ó, dühösen hangzik. "De mi az, ami miatt erre gondolsz?" - mondta Sturge-Apple.
Kifejtette, hogy az érzelem befolyásolja az emberek beszédmódját azáltal, hogy megváltoztatja a beszéd hangerejét, hangmagasságát és még a felharmonikusokat is. "Nem külön-külön figyelünk ezekre a funkciókra, csak azért jöttünk, hogy megtanuljuk, milyen a dühös hang - különösen azok számára, akiket ismerünk" - tette hozzá.
De ahhoz, hogy a számítógép kategorizálni tudja az érzelmeket, mérhető mennyiségekkel kell működnie. Tehát a kutatók 12 sajátos tulajdonságot állapítottak meg a beszédben, amelyeket az egyes felvételeken rövid időközönként mértek. A kutatók ezt követően az egyes felvételeket kategóriákba sorolták, és arra használták őket, hogy megtanítsák a számítógépes programnak, milyen „szomorú”, „boldog”, „félelmes”, „undorító” vagy „semleges” hangzás.
Ezután a rendszer elemezte az új felvételeket, és megpróbálta meghatározni, hogy a felvétel hangja az ismert érzelmek valamelyikét ábrázolja-e. Ha a számítógépes program nem tudott dönteni két vagy több érzelem között, akkor ezt a felvételt csak osztályozás nélkül hagyta.
"Biztosak akarunk lenni abban, hogy amikor a számítógép úgy gondolja, hogy a rögzített beszéd egy adott érzelmet tükröz, akkor nagyon valószínű, hogy valóban ezt az érzelmet ábrázolja" - mondta Heinzelman.
Korábbi kutatások kimutatták, hogy az érzelemosztályozási rendszerek nagymértékben beszélőfüggőek, vagyis sokkal jobban működnek, ha a rendszert ugyanaz a hang képzi, amelyet elemezni fog. "Ez nem ideális olyan helyzetben, amikor azt szeretné, hogy csak kísérletet hajtson végre egy beszélgető és interakciós embercsoporton, például a szülőkön és a tizenéveseken, akikkel együtt dolgozunk" - mondta Sturge-Apple.
Az új eredmények megerősítik ezt a megállapítást. Ha a beszédalapú érzelem besorolást olyan hangon alkalmazzák, amely nem a rendszert képezte, a pontosság 81 százalékról 30 százalékra esett. A kutatók most azt vizsgálják, hogy miként lehet ezt a hatást minimalizálni, ha a rendszert ugyanabban a korcsoportban és azonos nemű hangon képzik ki.
"Még mindig vannak megoldandó kihívások, ha ezt a rendszert egy valós helyzethez hasonló környezetben akarjuk használni, de tudjuk, hogy az általunk kifejlesztett algoritmus hatékonyabb, mint a korábbi kísérletek" - mondta Heinzelman.
Forrás: Rochesteri Egyetem