Taníthatja-e a számítógép a józan eszét?
A nem túl távoli múltban az a feltételezés, hogy egy számítógép képes bizonyítani a „józan észt”, oximoronnak számít. De az olyan szuperszámítógépek, mint az IBM Watson, új szerepeket jelenthetnek a számítógépek számára.Jelenleg a Carnegie Mellon Egyetem kutatói egy számítógépes programot futtatnak a nap 24 órájában, minden nap, annak érdekében, hogy adatokat gyűjtsenek és tömegesen megtanítsák a józan észt.
A programot soha nem végződő képtanulónak (NEIL) hívják, mivel a szoftver képeket keres az interneten, mindent megtesz annak érdekében, hogy önmagában is megértse azokat, és mivel egyre növekvő vizuális adatbázist épít, tömegesen gyűjti a józan észeket.
A NEIL kihasználja a számítógépes látás legújabb fejleményeit, amelyek lehetővé teszik a számítógépes programok számára, hogy azonosítsák és felcímkézzék a képen lévő tárgyakat, jellemezzék a jeleneteket és felismerjék az attribútumokat, például a színeket, a világítást és az anyagokat, mindezt minimális emberi felügyelet mellett.
Viszont az általa generált adatok tovább javítják a számítógépek képességét a vizuális világ megértésére.
A NEIL jelentős előrehaladást ért el a korábbi roboteszközökhöz képest, mivel asszociációkat hozhat létre a dolgok között a józan ész információinak megszerzése érdekében. Olyan információ, amelyet az emberek szinte intuitívan tudnak - hogy az autók gyakran megtalálhatók az utakon, az épületek általában függőlegesek, és a kacsák olyanok, mint a libák.
A szöveges hivatkozások alapján úgy tűnhet, hogy a juhok színe fekete, de az emberek - és most NEIL - mégis tudják, hogy a juhok általában fehérek.
"A képek a vizuális tulajdonságok elsajátításának legjobb módját jelentik" - mondta Abhinav Gupta, Ph.D., a Carnegie Mellon Robotikai Intézet adjunktusa.
„A képek sok józan ész információt tartalmaznak a világról is. Az emberek ezt maguk tanulják meg, és a NEIL-lel reméljük, hogy a számítógépek is ezt fogják megtenni. "
Egy számítógépes klaszter július vége óta futtatja a NEIL programot, és már három millió képet elemzett, félmillió képen 1500 objektumtípust, több százezer képben pedig 1200 típusú jelenetet azonosítva.
Összekapcsolta a pontokat, hogy 2500 asszociációt tanuljon meg több ezer példányból.
A NEIL projekt egyik motivációja a világ legnagyobb vizuálisan strukturált tudásbázisának létrehozása, ahol az objektumokat, a jeleneteket, a cselekvéseket, az attribútumokat és a kontextuális kapcsolatokat felcímkézik és katalogizálják.
"Amit a számítógépes látáskutatás elmúlt 5-10 évében megtanultunk, az az, hogy minél több adatod van, annál jobb lesz a számítógépes látás" - mondta Gupta.
Néhány projekt, mint például az ImageNet és a Visipedia, emberi segítséggel próbálta összeállítani ezeket a strukturált adatokat.
De az internet terjedelme olyan hatalmas - egyedül a Facebook rendelkezik több mint 200 milliárd képpel -, hogy az egész elemzésének egyetlen reménye a számítógépek megtanítása arra, hogy jórészt maguk csinálják.
Az emberek azt is megmondják a NEIL-nek, hogy milyen kategóriájú tárgyakat, jeleneteket stb. Kell keresni és elemezni. De néha az, amit a NEIL talál, még a kutatókat is meglepheti.
Várható például, hogy az „alma” keresés gyümölcsök és laptopok képét jelenítheti meg. De Gupta és csapata, mind a földöntözők, nem is sejtették, hogy az F-18 keresése nemcsak egy vadászgép képeit, hanem az F18 osztályú katamaránokat is azonosítja.
A keresés eredményeként a NEIL tárgyak alkategóriáit fejleszti - a triciklik gyerekeknek, felnőtteknek és motorosak lehetnek, vagy az autók különféle márkákban és modellekben kaphatók.
És kezdi észrevenni az asszociációkat - hogy a zebrák általában a szavannákban találhatók, és hogy a tőzsdei kereskedési szintek általában zsúfoltak.
Mielőtt a NEIL háztartási névvé válhat, csökkenteni kell a méretarányt, mivel a NEIL számítási szempontból intenzív, a program két számítógépcsoporton fut, amelyek 200 feldolgozó magot tartalmaznak.
Forrás: Carnegie Mellon Egyetem