Artikkel on rohkem kui viis aastat vana ja kuulub arhiivi, mida ERR ei uuenda.

Arvutimudel pealkirjastab fotosid

„Kaks pitsat pliidiraua peal“ või „kolm erinevat tüüpi pitsat pliidi peal“. Autor/allikas: Vinyals et al.

Kuigi arvutid suudavad teha elementaarseid tehteid suurusjärkude võrra kiiremini kui inimesed, jäävad nad näivalt lihtsate ülesannete puhul tihti hätta. Ükski nüüdisaegne arvuti ei suuda kirjeldada nähtavat stseeni paari sõnaga nii hästi kui isegi koolieelikust laps. Google'i insenerid esitlevad nüüd uut arvutimudelit, mis saab ülesandega hakkama eelnevast rekordihoidjast kaks korda paremini

Poole sajandi eest andis tehisintellekti üks toonaseid pioneere Marvin Minsky tema poolt juhendatavale bakalaureuse astme tudengitele lihtsa ülesande – ühendada kaamera ja arvuti ning panna viimane kirjeldama, mida selle poolt tehtavatelt piltidelt leida võib. Mees oletas, et üliõpilased suudavad sellega hakkama saada kolme kuuga. Probleemi sai jagada mitmeks alamülesanneteks, mida on võimalik teoreetiliselt lahendada üksteisest sõltumatult.

Ülesande lihtsus oli aga petlik. Viiskümmend aastat hiljem üritavad arvutiteadlased ja programmeerijad endiselt probleemist võitu saada. Seejuures pole isegi täiesti kindel, mis objektide analüüsimise ja nende vaheliste seoste kirjeldamise niivõrd keeruliseks muudab.

Tavaliselt üritatakse kombineerida tipptasemel keele masintöötlust ja pildil leiduvat informatsiooni numbrilisele kujule viivaid tarkvaralahendusi. Oriol Vinyalsi töörühm leidis aga, et mõistlik oleks need juba eos üheks treenitavaks süsteemiks lõimida. Lähenemisviis võimaldab tõlkida digitaalsel kujul fotod tähenduslikeks lauseteks, mis kirjeldab lisaks piltidel nähtavatele objektidele ka nende vahelisi seoseid. Viimane on samm edasi Google'i kahe aasta tagusest saavutusest, kus õpetas arvuti algoritm iseennast ära tundma kassipilte.

Loodud mudel rajaneb kaht tüüpi tehislikel neuronivõrgustikel, mis on inspireeritud looduses kohatavatest närvirakkude võrgustikest. Nii on ülesvõtete analüüsimiseks kasutatav võrgustik mitmekihiline. Kui esimene kiht analüüsib pildi enda teatud omadusi, näiteks sellel nähtavate piirjoonte orientatsiooni, siis järgmine kiht lähtub juba esimese kihi poolt töödeldud teabest ja suudab näiteks ära tunda, et joonte orientatsiooni saab kirjeldada sirge või kõverana. Sellest järgmine leiab juba potentsiaalsed objektid, mille puhul taolisi jooni kohata võib jne. Viimane kiht annab lõpuks tõenäosuse, millised objektid pildil leiduvad.

Vinyalsi otsustas viimase kihi aga ära jätta ja sööta teabe otse teist tüüpi võrgustikule, mida kasutatakse tavaliselt lausete automaatseks tõlkimiseks. Kaht tüüpi võrgustike ühendamise järel sai ta kolleegidega süsteemi, mida oli võimalik korraga treenida nii pildil leiduvate objektide ära tundmises kui ülevõtete pealkirjastamises. Mudeli sooritus polnud küll standardses BLEU testis, mida kasutatakse ühest keelest teise tõlgitud teksti kvaliteedi hindamiseks, nii hea kui inimeste tulemus, kuid siiski enam kui kaks korda parem kui eelmine sarnane mudel.

Töörühm loodab, et lahenduse täiustamine võiks aidata tulevikus pimedatel maailma paremini hoomata või Google'ile kohasemalt sillutada teed paremate otsingutulemuste ja tehisintellekti sünnile.

Tutvu uurimusega veebikeskkonnas ArXiv.

Toimetaja: Jaan-Juhan Oidermaa

Allikas: ArXiv

Arvutimudel pealkirjastab fotosid

rohkem kui asi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Põlevkivituhk aitab püüda ohtlikke elemente

Astronoomid leidsid Linnutee suurima tähe mõõtu musta augu

Eesti teadlaste nutikad minimuundurid hoogustavad energiapööret

Kõne-eelne nutikohtumine võõrkeelega päästab lapse aktsendist

Eesti mesi sai maailmas unikaalse DNA-testi

Füsioterapeut: aktiivsuskell võib une kvaliteedi kohta valetada

Nutipoi heidab valgust jää ja lainete ringmängule

Paplipuust saab palavikurohtu

Tehisaru sunnib Eesti ülikoole õppekorraldust muutma

lugejate lemmik

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Eesti mesi sai maailmas unikaalse DNA-testi

Eesti teadlaste nutikad minimuundurid hoogustavad energiapööret

Tehisaru sunnib Eesti ülikoole õppekorraldust muutma

Numbrimäng: Higgsi boson võib kuulutada maailmalõppu

Suur analüüs: kas elektriauto ikka säästab kliimat?

Sõnamäng Alias arvutis - lõbusa ajaviite taga peitub huvitav keelematerjal

hüpe teise maailma

Mereinstituudi kalateadlased: euroopa angerja tulevikust – ausalt ja objektiivselt

Meediastumine kui vankumatu vedur: mis peitub Tinderi tagatoas?

Lõppes üks maailma võimsamaid ilmastikunähtusi

Kahemõõtmeliste materjalide maailmas leidub nüüd kulda

Kiirekasvulised hübriidhaavad puhastavad mulda raskmetallidest

Tõnu Talvi: linnupesa leides tuleks sellest kohe eemalduda

Tähetedevahelises tolmus võib peptiide hõlpsasti tekkida

LED või säästupirn – kumb on parem?

Professor õngitsemas: 5 nippi oma andmete kaitsmiseks

Elroni rongirataste mõistatus: mis neid siis tegelikult kulutab?

Numbrimäng: Higgsi boson võib kuulutada maailmalõppu

Tehnofilosoof: tehnika areng paljastab inimlikkuse otsimise mõttetuse

ERR Novaator: mida tasub teada vesinikupommist?

Galerii: mida teha Eesti metallidega?

Mis mängu me mängime? Turingi test arvutitele ja inimestele.