Doua grupuri de cercetatori care au lucrat independent au dezvoltat un soft de inteligenta artificiala capabil sa recunoasca si sa descrie cu acuratete deosebita continutul unei imagini. Pana acum, cele mai avansate programe recunosteau obiecte individuale, insa noul soft poate descrie in cuvinte detaliate scene din fotografii si mai ales poate interpreta actiunile din poza. Un grup de ingineri este de la Stanford University, iar celalalt grup este de la Google, unul dintre cercetatorii de acolo fiind un basarabean pe nume Dumitru Erhan.

Pozele pot fi traduse in cuvinteFoto: Google

Soft-urile sunt capabile sa inteleaga in detaliu o poza si pot sa o descrie in cuvinte, exemple de titluri fiind: "Doua pizza puse pe o soba", "Un grup de oameni care fac cumparaturi la un magazin in aer liber" sau "Cele mai bune locuri din casa".

Descrierile generate de aceste programe s-au dovedit a fi foarte exacte si mai ales foarte apropiate de cele pe care le-ar fi dat un om. Aceste programe sunt extrem de utile pentru a cataloga si eticheta milioanele de poze care se afla pe internet, astfel incat sa poata fi cat mai usor gasite. In prezent, multe poze reusite sunt prost etichetate si un soft care sa faca descrieri automate complete le-ar face usor de descoperit.

O echipa care a lucrat la aceste programe inteligente este de la Stanford Artificial Intelligence Laboratory, iar alta este de la Google si lucrarea a fost publicata pe arXiv.org,

Soft-ul ar fi foarte util si pentru persoanele fara vedere care ar putea astfel sa inteleaga mult mai bine fotografiile cu ajutorul unui program text-to-speech care sa le comunice vocal descrierea generata de noile programe.

"Consider ca datele despre pixelii din imagini si din video-uri reprezinta materia intunecata a internetului", spune Fei-Fei Li, director la Stanford Artificial Intelligence Laboratory. "Acum incepem sa o luminam" adauga el.

Cele mai folosite programe reusesc sa recunoasca in prezent obiecte, pe modele BMW si Volvo fiind instalate soft-uri ce pot recunoaste in timp real pietoni, biciclisti si animale. Dar nu mai este suficient sa fie recunoscute numai verbele, ci trebuie sa fie rezolvata si problema verbelor, practic recunoasterea in detaliu a actiunilor dintr-o fotografie.

Atat grupul de la Stanford, cat si cel de la Google au incercat sa rezolve problema cu ajutorul retelelor neurale, ramura a stiintei inteligentei artificiale. Aceste retele sunt formate din foarte multe elemente simple de procesare, puternic legate intre ele și operând în paralel, Acestea urmaresc sa interacționeze cu mediul înconjurator într-un mod asemănător creierelor biologice și au si capacitatea de a învăța. (machine learning). Retelele sunt compuse din neuroni artificiali, de aici si analogia cu creierul.

Practic au fost "intretesute" doua retele neurale: una concentrata pe recunoasterea imaginilor si alta pe limbajul uman. In ambele cazuri cercetatori au "antrenat" soft-ul cu mici seturi de imagini digitale adnotate de cercetatori cu mici propozitii descriptive.

Dupa ce softul a "invatat" sa recunoasca pattern-uri in poze si in descrieri, programele au fost testate pe poze noi si s-a dovedit ca au putut identifica obiecte si actiuni cu o acuratete dubla fata de primele incercari.

La proiectul desfasurat de Google a lucrat si un cercetator care a trait o buna parte din viata la Chisinau: Dumitru Erhan.

Ce spune Google despre proiect? "O poza face cat o mie de cuvinte, insa uneori cuvintele sunt mult mai folositoare, deci e important sa gasim o cale de a traduce automat si cu acuratete imaginea in cuvinte. Seturile de date potrivite pentru invatarea descrierilor imagistice sunt tot mai multe si mai mature, astfel ca si performanta se va imbunatati. Vom continua dezvoltarile sistemelor care pot "citi" imagini si pot genera descrieri in limbaj cat mai familiar".