Szinte nincs olyan hét, hogy ne kapnánk hírt egy mesterséges intelligenciáról, amely túlszárnyal minket, sőt egy-egy terület legkiválóbb emberi művelőit is. Egészen a közelmúltig azt hittük, csak a mi különleges fajunk birkózik meg az arcfelismeréssel, a szájról olvasással, az orvosi diagnosztikával vagy olyan, elvileg intuíciót is igénylő játékokkal, mint a Jeopardy!, a Go és a póker. Ám Martial Hebert (Carnegie-Mellon Egyetem, Pittsburgh) szerint a mély neurális hálózatok ma olyan teljesítményeket produkálnak, amelyekről öt éve még álmodni sem mertünk, és úgy képesek megfejteni a világot, ahogy egyetlen élőlény sem.
Mindezek mögött egy új algoritmuscsalád, a mély neurális hálózatok felemelkedése áll. A terület kutatóit eredetileg az emberi agy szerkezetének és működésének tanulmányozása ihlette meg.
Remények, kétségek, áttörések
Marvin Minsky, a mesterséges intelligencia (MI) egyik kezdeményezője 1970-ben ezt jósolta: „Három-nyolc éven belül lesznek olyan gépeink, amelyek egy átlagos ember általános intelligenciájával rendelkeznek. Úgy értem, olyan gépek, amelyek képesek lesznek Shakespeare-t olvasni, politikai játszmákba bonyolódni, viccet mesélni, harcolni. Ettől fogva a gépek fantasztikus sebességgel kezdik el tanítani önmagukat. Néhány hónapon belül elérik a zsenik szintjét, majd ismét néhány hónap múlva erejük immár beláthatatlanná válik.”

Ám már néhány évvel később nyilvánvalóvá vált az óriási távolság Minsky jóslata és a valóság közt, ami évtizedekre visszavetette a kutatásokat; ezt az időszakot nevezik az „MI telének”. Minsky 2004-ben kijelentette: „Az MI az 1970-es évek óta agyhalott”.
Az első nagy áttörés azonban már 1997-ben megtörtént: az IBM Deep Blue számítógépe legyőzte az aktuális sakkvilágbajnokot.
Hasonló szenzációt jelentett 2011-ben, hogy az IBM Watson (amely az IBM első elnökéről, Thomas J. Watsonról kapta a nevét), a statisztikai tanulás mestere két „örökös bajnokot” is megvert a népszerű Jeopardy! amerikai tévés vetélkedőben (ehhez hasonló játék volt hazánkban a Mindent vagy semmit). Ebben az egymással versengő játékosoknak a megadott válaszhoz kell a kérdést kitalálniuk. Bonyolult, gyakran kétértelmű természetes nyelvi anyagok feldolgozására van szükség, ami egy MI számára különösen nehéz. A kísérlet egyik célja az volt, hogy egy MI-t a nagyközönség számára érdekes módon mutassanak be. Kivételes nyelvfeldolgozó képességei miatt a Watsont ennél jóval fontosabb feladatokra is elkezdték alkalmazni. Mivel rengeteg szakcikket, gyógyszerleírást stb. pillanatok alatt átolvas, több egészségügyi intézményben használják arra, hogy segítse a betegek diagnosztizálását.

Újabb mérföldkő 2012-ben: a Torontói Egyetem SuperVision nevű mély neurális hálózata már csak 15,3 százalékban hibázott egy képfelismerés-verseny, a Large Scale Visual Recognition Challenge besorolási feladatában. A vele versenyzők esetében ez 26,2 százalék volt. A neurális hálózatok több ezer kép segítségével olyan tárgyak felismerésére is megtaníthatók, amelyeket korábban nem ismertek. E lelkesítő eredmények után két évvel a Google megvette a DeepMind nevű céget. Majd nem telt bele öt év, és az általa kifejlesztett gép, az AlphaGo három partiban lemosta az aktuális legjobb go-játékost, a zseniális kínai Ke Jiet.
A Google algoritmusának egyetlen konkurense a továbbfejlesztett változat, a Zero, amely emberi segítség nélkül tanulta meg a játékot, és elődjét is legyőzte. Az AlphaGo másik szenzációs teljesítménye, hogy mindössze 4 óra alatt úgy beletanult a számára addig teljesen ismeretlen sakkba, hogy száz játszmából egyszer sem veszített az aktuális sakkbajnok MI ellen.

A Carnegie Mellon Egyetem Libratus (latinul kiegyensúlyozottat jelent) nevű MI-je húsznapos pókermaraton után négy emberi topjátékost győzött le egy Pittsburgh-i kaszinóban. Az MI nevéhez méltóan mindenből bedobott egy kicsit a győzelemhez: tudta, mikor blöfföljön, mikor tegyen meg jó lapokkal alacsony téteket stb. A megvert játékosok azt mesélik: amikor kezdték úgy érezni, hogy fogást találnak a Libratuson, az másnapra már tanult az ő játékukból. Ugyanis minden leosztás után finomította stratégiáját az ellenfelek hibáit is számításba véve, továbbá saját hibáit is javítva. Így végül több mint 1,7 millió dollárral múlta felül emberi ellenfeleit, ami már nem lehet véletlen. A kutatók szerint a fő áttörést a tökéletlen információk kezelése jelenti. A pókerben ilyen az, hogy nem lehet tudni, milyen kártyái vannak az ellenfélnek, és a játékosok nem akarnak feltétlenül megnyerni minden leosztást, inkább az össznyereményre koncentrálnak. „A legjobb MI tökéletlen információval végzett stratégiai gondolkodása immár túlszárnyalta a legjobb emberekét” – mondja Tuomas Sandholm, az egyik megalkotó.
Algoritmikus agyak
A mély neurális hálózatok kutatói sokáig elszigetelt közösséget alkottak. Hogy kilépjenek az árnyékból, meg kellett várniuk a gigantikus adatbázisok – a big data – megjelenését: ezek segítségével már eredményesen tudják betanítani gépeiket. Ma ugyanis már nem ritka, hogy több terabájtnyi adattal tanítják a mély neurális hálózatokat. Az 1990-es években ilyen adatmennyiség mind a számítási, mind pedig a tárolókapacitás miatt elképzelhetetlen volt.

Úgy öt éve több tudós vágott bele ezen algoritmikus „agyak” mélységeinek a kutatásába. Neurológusok próbálják mérni az aktivitást a mesterséges neuronok különféle, korábban teljesen átláthatatlannak tűnő rétegeiben. „Olyan eszközökön dolgozunk, amelyek bevilágítanak e rendszer belsejébe, vagyis a fekete dobozt szürkévé alakítják át” – magyarázza Jeff Clune (Wyomingi Egyetem).
Noha a számítástechnikusok többsége inkább úgy tekint a neuronhálózatokra, mint rideg matematikai függvényekre, amelyek csak úgy ontják az eredményeket, mégis párhuzamot vonhatunk köztük és a saját idegrendszerünk között. Matthew Zeiler, a mesterséges látás specialistája (New York-i Egyetem) szerint a neuronhálózatok az általuk kapott képeket a mi agykérgünkhöz hasonlóan dolgozzák fel: az elsődleges, másodlagos stb. látókéreg követi egymást, és a vizuális jel egyre összetettebb reprezentációját alakítják ki.
Ezek az algoritmusok mellesleg nagyon érzékenyek a fényesség változásaira, így egy sötét képben is olyan részleteket tárnak fel, amelyeket az emberi szem soha nem venne észre.
Az oroszlánok szemére koncentrál
E nagyságrendekkel élesebb észlelés, melyet felfoghatatlan mértékű statisztika támogat, eléggé szokatlan stratégiákat eredményez. Például amikor egy kép leglényegesebb vonásait kell megtalálni, egészen másra figyel az MI, mint amire az emberek. Abhishek Das (Georgia Tech) állatok felismerésére tanítja gépeit. Az egyik ilyen rendszer igencsak meglepte őt azzal, hogy korrektül kiválasztotta az oroszlánokat a szemre összpontosítva – nem pedig a sörényre, amely nekünk annyira jellegzetesnek tűnik! Csakhogy sörénye más állatoknak is van, például a csau-csauknak.

Nem a hajszín határozza meg, hány évesnek nézünk ki – legalábbis a gép szemében. Berlini tudósok új arcfelismerő rendszere nem az ősz hajat tekinti az idős emberek egyik fő jellegzetességének, sőt nem is a ráncokat. Olyasmire figyel, amire mi a legritkábban: a fülcimpára, amely az idő előrehaladásával folyamatosan nő.
A legújabb MI-nek néhány jellegzetes pont elég az arcunk azonosításához. A Chaos Computer Club (CCC) aktivistái, akik nemrég még sísapkában, tigrisálarcban vagy indián arcfestéssel tüntettek a számítógépes arcfelismerés ellen, azt hitték, így kicselezhetik a kamerákat. Csakhogy Amarjot Singh (Cambridge-i Egyetem) és indiai munkatársai már tanítják az MI-t eltakart arcú bűnözők felismerésére. A bevált módszer szerint sok ezer fotót tápláltak be a gépbe sállal, sapkával, napszemüveggel vagy szakállal eltakart arcokról.

Az MI 14 fontos pontot figyelt meg: tízet a szemöldök és a szem környékén, egyet az orron és hármat a szájnál. E pontokból a gép „csillagmintát“ hoz létre, amelyet akkor is felismer, ha csak egy részét látja, méghozzá a pontokat összekötő vonalak hossza és egymással bezárt szöge alapján. A felismeréshez nincs szükség arra, hogy a gép lássa az illetők fotóit! Ugyanis a 14 pont alapján rekonstruálja az arcot, és megkeresi a hasonlókat például a rendőrség adatbázisában vagy a Google képei között. A csak sállal eltakart arcoknál az MI pontossága 77 százalékos, de sál, sapka és napszemüveg viselésekor is eléri az 55 százalékot.
Megfoghatatlan képességek
Ezek az algoritmusok olyan megoldásokat is végigelemeznek, amelyek számunkra teljesen értelmetlennek tűnnek. Például „a humán bajnokokkal vívott partikban az AlphaGo meglépett egy teljesen váratlan húzást, olyat, amelyről sehol sincs szó a számtalan go-könyvben. Ez a totálisan váratlan nyitás, amely durva kezdői hibának látszott, hosszú távon helyesnek bizonyult. Elmondhatjuk, hogy a gép újradefiniálta a játékot” – állítja Mathieu Lagrange (Kommunikációs és Kibernetikai Kutatóintézet, Nantes). Ezt bizonyítja, hogy ma már a nagymesterek is bőven élnek az AlphaGo stratégiáival.
Akárhány területen győztek is le minket, ezek a robotok még messze vannak attól, hogy szuperintelligenciák, vagyis az emberit minden téren felülmúlók legyenek. Például nem értik az iróniát, a metaforák finomságait és a kétes érzelmekkel átszőtt kommunikációt. Továbbá hiányzik belőlük a legelemibb józan ész, amelynek révén mi tudjuk, hogy ha egy zsiráfot egy Boeing 747-es szárnyára helyeznek, az egyáltalán nem normális.
E gépek absztrakciói tehát merőben mások, mint a mieink; világlátásuk könyörtelenül statisztikus. Azt mondhatnánk, a gondolkodásnak egy alternatív formáját valósítják meg. De gondolkodnak-e egyáltalán? Erre a kérdésre egy MI-fejlesztő a következő példával élt: „Vajon úszik a tengeralattjáró? Úszik, de nem úgy, ahogy az élőlények. A vízben lehet vele haladni – de csak egy szerkezet.”
