Arvutimudel pealkirjastab fotosid
Kuigi arvutid suudavad teha elementaarseid tehteid suurusjärkude võrra kiiremini kui inimesed, jäävad nad näivalt lihtsate ülesannete puhul tihti hätta. Ükski nüüdisaegne arvuti ei suuda kirjeldada nähtavat stseeni paari sõnaga nii hästi kui isegi koolieelikust laps. Google'i insenerid esitlevad nüüd uut arvutimudelit, mis saab ülesandega hakkama eelnevast rekordihoidjast kaks korda paremini
Poole sajandi eest andis tehisintellekti üks toonaseid pioneere Marvin Minsky tema poolt juhendatavale bakalaureuse astme tudengitele lihtsa ülesande – ühendada kaamera ja arvuti ning panna viimane kirjeldama, mida selle poolt tehtavatelt piltidelt leida võib. Mees oletas, et üliõpilased suudavad sellega hakkama saada kolme kuuga. Probleemi sai jagada mitmeks alamülesanneteks, mida on võimalik teoreetiliselt lahendada üksteisest sõltumatult.
Ülesande lihtsus oli aga petlik. Viiskümmend aastat hiljem üritavad arvutiteadlased ja programmeerijad endiselt probleemist võitu saada. Seejuures pole isegi täiesti kindel, mis objektide analüüsimise ja nende vaheliste seoste kirjeldamise niivõrd keeruliseks muudab.
Tavaliselt üritatakse kombineerida tipptasemel keele masintöötlust ja pildil leiduvat informatsiooni numbrilisele kujule viivaid tarkvaralahendusi. Oriol Vinyalsi töörühm leidis aga, et mõistlik oleks need juba eos üheks treenitavaks süsteemiks lõimida. Lähenemisviis võimaldab tõlkida digitaalsel kujul fotod tähenduslikeks lauseteks, mis kirjeldab lisaks piltidel nähtavatele objektidele ka nende vahelisi seoseid. Viimane on samm edasi Google'i kahe aasta tagusest saavutusest, kus õpetas arvuti algoritm iseennast ära tundma kassipilte.
Loodud mudel rajaneb kaht tüüpi tehislikel neuronivõrgustikel, mis on inspireeritud looduses kohatavatest närvirakkude võrgustikest. Nii on ülesvõtete analüüsimiseks kasutatav võrgustik mitmekihiline. Kui esimene kiht analüüsib pildi enda teatud omadusi, näiteks sellel nähtavate piirjoonte orientatsiooni, siis järgmine kiht lähtub juba esimese kihi poolt töödeldud teabest ja suudab näiteks ära tunda, et joonte orientatsiooni saab kirjeldada sirge või kõverana. Sellest järgmine leiab juba potentsiaalsed objektid, mille puhul taolisi jooni kohata võib jne. Viimane kiht annab lõpuks tõenäosuse, millised objektid pildil leiduvad.
Vinyalsi otsustas viimase kihi aga ära jätta ja sööta teabe otse teist tüüpi võrgustikule, mida kasutatakse tavaliselt lausete automaatseks tõlkimiseks. Kaht tüüpi võrgustike ühendamise järel sai ta kolleegidega süsteemi, mida oli võimalik korraga treenida nii pildil leiduvate objektide ära tundmises kui ülevõtete pealkirjastamises. Mudeli sooritus polnud küll standardses BLEU testis, mida kasutatakse ühest keelest teise tõlgitud teksti kvaliteedi hindamiseks, nii hea kui inimeste tulemus, kuid siiski enam kui kaks korda parem kui eelmine sarnane mudel.
Töörühm loodab, et lahenduse täiustamine võiks aidata tulevikus pimedatel maailma paremini hoomata või Google'ile kohasemalt sillutada teed paremate otsingutulemuste ja tehisintellekti sünnile.
Tutvu uurimusega veebikeskkonnas ArXiv.
Toimetaja: Jaan-Juhan Oidermaa
Allikas: ArXiv