hirdetés
hirdetés

IT és kommunikáció

Beszédtechnológiák ipari környezetben

Nem vadonatúj ötlet, hogy az írott szövegből létrehozott beszéd adjon információt, utasításokat az élet számos területén, mint ahogy az sem, hogy élő beszéddel vezéreljünk különféle rendszereket. Bőven vannak technológiák, azonban Magyarországon, valós környezetben csak ritkán találkozni velük.

hirdetés

Hagyományosan a beszédtechnológia a távközlési iparágból indult el sok évtizeddel ezelőtt. Az első kutatások és fejlesztések olyan nagy nevekhez köthetők, mint például a Bell Laboratórium, a japán NTT vagy a France Telecom. Azóta világszerte számos műhely alakult, illetve kezdett el foglalkozni a témával. Magyarországon a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén (BME TMIT) működő beszédtechnológiai laboratórium – mintegy 30 éves múltjával – az elsők közé tartozik.

A csapat a hosszú évek alatt számos technológiát fejlesztett ki, majd tesztelt először laboratóriumi, később valós körülmények között. Voltak, illetve vannak együttműködő partnerei a szolgáltatásban, az iparban, a kereskedelemben, az egészségügyben, néhány helyen bevezettek kísérleti rendszereket, ám igazi áttörésről, technológiáik széles körű gyakorlati hasznosításáról mind a mai napig nem beszélhetünk, miközben az Egyesült Államokban, sőt sok európai országban is bőven találkozhatunk ilyen típusú rendszerekkel.

E-mailek és SMS-ek felolvasása

Bő tíz évvel ezelőtt ígéretes területnek tűnt az elektronikus levelek és SMS-ek felolvasása. Az egyik hazai mobiltársaságnál üzembe helyeztek egy rendszert, amelyben a hangpostához hasonlóan lehetett az e-maileket és a szöveges üzeneteket meghallgatni. A szolgáltatás elsősorban a látássérült embereket, valamint az autóvezetőket célozta. A kezdeményezés azonban, a kezdeti lelkesedést követően, nem váltotta be a hozzá fűzött reményeket, és ennek alapvetően üzleti okai voltak – véli Németh Géza, a beszédtechnológiai labor vezetője. Az ügyfelek nem voltak hajlandóak fizetni az e-mail érkezését jelző, úgynevezett értesítő SMS-ekért, továbbá jobb marketingre lett volna szükség. Így aztán a szolgáltatás fokozatosan elhalt.

Németh Géza: A technológiai komponensek készen vannak, rövid időn belül termékekké alakíthatók
Németh Géza: A technológiai komponensek készen vannak, gyorsan termékekké alakíthatók

A sikertelenség dacára a szakember ma is nagy fantáziát lát az ilyen típusú megoldásokban. Elég csak arra gondolni, hogy milyen sok menedzser és üzletkötő járja autójával az országot. Számukra például nagy segítséget jelentene, ha vezetés közben nyomon tudnák követni elektronikus levelezésüket. A felolvasót természetesen különféle back office rendszerekkel is integrálni lehetne, így téve hatékonyabbá az utazó munkatársak tevékenységét. A technológiai komponensek készen vannak, megfelelő partnerekkel rövid időn belül termékekké alakíthatók. A fejlesztők szerint a siker most is, akárcsak a 2000-es évek elején, alapvetően az üzleti modellen múlik.

Beszélgetés – operátor nélkül

Az Egyesült Államokban rendkívül sikeres alkalmazás, amikor a hívásközpontokban a kezelők (vagy a nyomógombos menürendszer) helyett egy beszédtechnológiai alkalmazás teszi fel az első kérdéseket a betelefonálónak, aki szintén szóban válaszolhat. A kérdésekre (Milyen ügyben telefonál? Milyen szolgáltatást rendelne meg? Milyen panasza van? stb.) adott válaszok alapján egyszerűen és gyorsan lehet az ügyfelet a megfelelő szakértelemmel rendelkező kezelőhöz kapcsolni, és így javítható az ügyfélélmény.

További előny, hogy a beszédtechnológia alkalmazásával lényegesen kevesebb operátornak kell monoton, csekély kreativitást igénylő munkát végeznie a hívásközpontokban. De vajon milyen arányban ismeri fel helyesen egy ilyen rendszer az ügyfél által mondottakat? Nem okoz-e zavart például a tájszólás, a beszédhiba vagy a háttérzaj? Az eredmény több tényezőtől függ, így például attól, hogy a rendszert mennyire állítják rá egy adott témakörre, illetve mekkora adatbázissal tanítják. Fejlesztéskor a köznapi beszédet veszik alapul, így előfordulhat, hogy egy-egy embert, vagy bizonyos szavakat nem ért meg a rendszer. Emellett a háttérzaj is ronthatja az eredményt.

Beszédtechnológiai labor a BME-n
Beszédtechnológiai labor a BME-n

Természetesen a beszédtechnológiával nem lehet százszázalékban automatizálni egy ügyfélszolgálatot. Előfordulhat, hogy az elején az automatizáció aránya csak 30-40 százalék, ez az érték azonban a használat során – újabb fejlesztésekkel és betanításokkal – folyamatosan növelhető. A BME TMIT-n is folytak ilyen irányú fejlesztések, egyik eredményük egy név szerinti tudakozó demórendszer. A telefonáló bemondja a nevet és a helységnevet (Kiss Péter, Érd), majd a rendszer felsorolja a feltételeknek megfelelő személyeket (Érden 6 Kiss Péter található. 1. Alma utca; 2. Körte utca stb.).

Szintén bemondással (vagy gombnyomással) lehet kiválasztani, hogy kinek a telefonszámát kéri az ügyfél. Az adatbázisba 200 ezer nevet vittek fel. Átlagosan 80 százalék körüli találati arányt értek el úgy, hogy a tesztekben mobiltelefonok is részt vettek. A technológia elemei ma is rendelkezésre állnak, egy működő rendszer összeállítása csak integrációs feladat.

Beszédbányászat valós időben

Noha ma még futurisztikusan hangzik, hogy egy hívásközpontban valós időben monitorozzák az ügyfél és a kezelő által mondottakat, erre is megvan már a technológia. Különféle beszédbányászati eszközökkel akár még a szó megértése nélkül is el lehet dönteni, hogy az ügyfél nyugodt, zaklatott, sértett, felháborodott stb. állapotban van-e. Vagy az élő beszéd írott szöveggé is átalakítható, majd a szöveg elemzéséből különféle következtetések vonhatók le. Ha mindez kellő gyorsasággal történik, kritikus esetekben az ügyfélszolgálat felügyelője akár azonnal bekapcsolódhat a beszélgetésbe.

Beszédbányászati eszközöket alkalmazó, valós idejű, működő rendszerekről Németh Gézának nincs tudomása, ám nem valós idejűek már vannak a világon. A BME TMIT is részt vesz ilyen irányú fejlesztésekben. Van például olyan kísérletük, amelyben először elmentik a beszélgetéseket, majd csak később (esetleg éjszaka) írják át szöveggé és dolgozzák fel azokat (az átírás pontossága 30–80 százalék). Ezután következik a szövegbányászat, aminek az eredményeit aztán sokféleképpen lehet használni. (Hasznos lehet például tudni, hogy adott napon volt-e valamilyen speciális problémája az ügyfeleknek, mi után érdeklődtek leginkább.

A válaszok elemzéséből különféle trendek vázolhatók fel.) Menet közben a fejlesztőknek olyan kérdéseket is meg kell oldaniuk, mint a tömörítési eljárás vagy a háttérzaj miatt érthetetlenné váló beszéd kezelése. A szakértő szerint a 30–80 százalékos pontosságú átírás nagyon jó eredmény. Másfajta megoldásoknál legfeljebb néhányszor száz kulcsszóra keres rá a rendszer, az átírt szövegben végzett beszédbányászat azonban ennél sokkal gazdagabb elemzési lehetőségeket teremt.

Egészségügyi alkalmazások

A BME TMIT-n kiemelten kezelik a beszédtechnológia egészségügyi célú alkalmazását. Egyik kutatásuk a hangképzési rendellenességek előrejelzésére irányul. Olyan alkalmazást fejlesztenek, amely hosszabb élő beszédből a szavakat, illetve az akusztikus jelenségeket elemezve jelzi: probléma lehet az illető gégéjével, lelki állapotával (gégerák, depresszió előrejelzése, megelőzése). Nemrég indult egy finanszírozás nélküli projekt a Péterffy Sándor Utcai Kórház neurológiai osztályával karöltve. A BME TMIT-n fejlesztett VoxAid technológiát az afáziás betegek rehabilitációjában kívánják alkalmazni.

Humanoid robottal a rehabilitáció és predikció szolgálatában
Humanoid robottal a rehabilitáció és predikció szolgálatában
A páciensnek a hallott szöveghez írott szöveget kell kapcsolnia. A szoftver háromféle beviteli módot tesz lehetővé: az asszociációt kötött, félig kötött és teljesen szabad szövegekkel lehet elvégezni. A teszt során arra a kérdésre szeretnének választ kapni, hogy egy ilyen eszköz használatával mennyivel hatékonyabb a rehabilitáció, mint a hagyományos módszerekkel. A VoxAid egyébként eredetileg beszédsérült vagy beszédükben akadályozott (például izomgyengeségben szenvedő) emberek számára készült. Olyanoknak, akiknek a beszéde nem érthető, viszont akik gombok megnyomásával tudnának írott szövegeket továbbítani (és így például telefonálni).

A fejlesztők évek óta keresik a partnereket, hogy a prototípust termékké alakíthassák, tartós, sikeres együttműködés azonban mind ez ideig nem jött létre. Saját erejükből csak annyira futja, hogy ha valaki megkeresi őket, odaadják (telepítik) a szoftvert. Ahhoz, hogy széles körben, például a rehabilitációs intézetekben használják a rendszert, rendszertámogatásra, képzésre, oktatási anyagokra stb. volna szükség. Ez megfelelő partnerek nélkül nem oldható meg.

Nemrégiben a labor egy humanoid robottal is elkezdett foglalkozni. Felvették a kapcsolatot a Szent László Kórház gyermek-csontvelőtranszplantációs osztályával. A Kriván Gergely főorvos vezette csapattal közösen úgy próbálják alakítani a beszélő robotot, hogy az különféle tevékenységekre motiválja a steril körülmények között, a külvilágtól hónapokig elzártan élő kis betegeket. E „játékos” kísérletnek komoly tudományos kifutása is lehet. A robot felderíthet egy véges környezetet, és a memóriájában tárolt korábbi történésekből predikciót is végezhet.

Gyárban, logisztikában, kereskedelemben

Több terület fejlesztőjének kell együtt dolgoznia ahhoz, hogy a beszédtechnológiát a gyárakban, kereskedelmi egységekben is eredményesen lehessen használni. Ha ugyanis egy gyártócsarnokban vagy boltban folyamatosan beszél vagy gyakran megszólal egy beszédszintetizátor, az akár elviselhetetlen is lehet az ott dolgozók számára. Olyan megoldást kell találni, hogy csak azok hallják a szöveget, akiknek az tényleg fontos, informatív. Létezik ilyen technológia, a hangsugárzók iránykarakterisztikája állítható. Milyen alkalmazások képzelhetők el?

Szinte adja magát, hogy ipari környezetben ne csak sima hangjelzések vagy kiírt szövegek támogassák a munkát, hanem beszéd is. Szoftveres úton például roppant egyszerűen beállítható, hogyha egy tartályban a folyadék szintje elér egy küszöbértéket, „szóljon” a rendszer, beszéddel adjon utasításokat az ott dolgozóknak. Vagy a gyártósor mellett mozgó munkatársnak nem kellene rendszeresen egy központi kijelzőt figyelnie, hanem szóban kapná meg az instrukciókat. Az is megoldható, hogy a futószalag mellett ülő kollégának fejhallgatón keresztül mondja meg a rendszer, hogy mi a soron következő művelet.

A logisztikában is kézenfekvő a beszédvezérlés. Raktárakban például megkönnyítené a targoncavezető életét, ha nem kellene sűrűn a kijelzőre pillantania, hanem fejhallgatón keresztül kapná meg az utasításokat. Rengeteg lehetőség kínálkozik a beszédtechnológia számára a kereskedelemben is. Fizetéskor például hallhatná a vásárló, hogy mit blokkol a pénztáros, nem kellene a pénztárgép kijelzőjét figyelnie. Sőt a beszédvezérléssel elterjedhetnének az automata pénztárak is. A kassza lépésről lépésre vezetné a vásárlót, megmondaná neki, hogy mi a teendője, illetve hogy milyen áruból, milyen mennyiségben számolt el stb.

Egy másik lehetséges bolti alkalmazás, amikor a vásárló okostelefonjával leolvassa a polcon elhelyezett termék QR- vagy vonalkódját, majd megjelennek az eszköz kijelzőjén a vonatkozó adatok, és (vagy) elhangzanak az információk. A kereskedelmi alkalmazásoknál különösen nagy súlyt kell fektetni az akusztikus problémák megoldására. Csak így lehet igazán ügyfélbarát, valamint a dolgozók számára is elfogadható rendszert kialakítani.

Alkalmazások mobileszközökön

A beszédtechnológiai alkalmazások kezdetben szerveralapúak voltak. Ma is léteznek ilyen rendszerek, ám a technológiát minden további nélkül ki lehet helyezni a felhőbe. Ezen túlmenően bizonyos alkalmazások okostelefonon és tableten is futtathatók. A műegyetemi kutatók hasznosnak tartanák például, ha a közvélemény-kutatók tabletekkel, valamint beszélő és beszédet értő űrlapokkal dolgoznának.

Az ötlet gyakorlati megvalósításának technikai akadálya nincs. Szintén mobileszközökre épül az a megoldás, amely az elektronikus médiában hasznosítható. A rendszer egy okostelefonra telepített algoritmusból, valamint egy távoli szerverből áll. Feladata, hogy megállapítsa, melyik tévécsatornát nézik, vagy rádiócsatornát hallgatják az okostelefonnal közös helyiségben. A mobilalkalmazás elemzi a hallott szöveget, az eredményt továbbítja a szerverhez, majd a szerveren futó alkalmazás azonosítja a csatornát. Ezzel a megoldással akár valós időben is lehet a nézettségi adatokat mérni.

Mallász Judit
a szerző cikkei

hirdetés
Ha hozzá kíván szólni, jelentkezzen be!
 
Cikk[128421] galéria
hirdetés
hirdetés
hirdetés

Kiadónk társoldalai

hirdetés