Cercetătorii Facebook traduc folosindu-se de asemănările matematice dintre diversele limbi. Și româna este subiect de cercetare în laboratorul de inteligență artificială de la Paris
La Paris, cercetătorii de la Facebook lucrează la traducerea unor texte într-o limbă străină fără vreun dicționar, ci folosidu-se de similitudinile matematice dintre limbi.
Marile companii de internet au nevoie de tool-uri de traducere automată cât mai performante, fiindcă intră pe cât mai multe piețe și sunt multe țări în care moderatorii umani de conținut nu sunt suficienți pentru a gestiona uriașele cantități de text postate și a putea elimina mesajele care incită la ură. Nu doar Facebook lucrează intens la îmbunătățirea traducerii instantanee, ci și Google, Microsoft, Yandex sau Baidu.
Pe Facebook se vorbesc undeva în jurul a 150-200 de limbi, spune Antoine Bordes, co-director pe cercetările de inteligență artificială ale Facebook în Europa.
Problema este că nu există dicționare complexe pentru fiecare pereche de limbi și tocmai de aceea este nevoie să se găsească un sistem prin care soft-ul să treacă de la o limbă la alta fără aceste ”punți” fundamentale care sunt dicționarele.
Cei de la Facebook încearcă în laboratorul de inteligență artificială de la Paris să rezolve dificultățile bazându-se pe reprezentări matematice ale cuvintelor.
În fiecare limbă cuvintele se gă găsesc sub formă de vectori, într-un spațiu de sute de dimensiuni. Fiecare vector este mai mult sau mai puțin apropiat de alte cuvinte, în funcție de asocierile dintre ele în limba respectivă.
În multe dintre limbi cuvintele ”câine” și ”pisică” au vectori destul de apropiați. La fel și vectorii ce reprezintă nume de țări au multe în comun, spune Guillaume Lample, unul dintre creatorii sistemului inovativ de traducere.
Ideea este că se pot face asocieri între limbi diferite pornind de la faptul că vectorii-cuvinte au tendința de a avea similarități în cadrul unei limbi. La început se pot face doar asemănări grosiere, apoi unele de o mai mare finețe, până la a se ajunge la asocierea unor fraze complete dintr-o limbă cu cele dintr-o altă limbă, fără prea multe erori.
Această metodă de traducere este doar în stadiu de experiment, dar rezultatele sunt promițătoare. De exemplu, pentru perechea de limbi engleză - română, sistemele actuale de traducere automată utilizate de Facebook au performanțe ”egale sau uneori inferioare” față de noua metodă dezvoltată de laboratorul parizian, explică Guillaume Lample.
Pe de altă parte, la perechea de limbi engleză - urdu (limba franca în Paksitan), metoda pariziană dă rezultate net superioare față de traducerile automate convenționale, fiindcă sunt prea puține texte engleză-urdu cu care soft-ul să se ”antreneze”.
Lample spune că pentru a ”desface” o limbă în vectori, soft-ul are nevoie să dispună de cantități enorme de texte scrise, iar acest lucru este imposibil pentru, spre exemplu, limbi din regiunea amazoniană. ”Dacă avem doar zeci de mii de fraze nu va funcționa, avem nevoie de sute de mii, estimează Guillaume Lample, întrebat dacă metoda va funcționa și pentru a face traduceri bune din limba bască într-o limbă vorbită în Amazonia.
Practic, cei de la Facebook lucrează la traduceri fără date paralele - adică fără dicționare sau texte bilingve - iar acest lucru reprezintă o revoluție din punct de vedere conceptual, dar întrebarea este cât de performantă poate deveni metoda și cât de bune pot ajunge rezultatele să fie.

ANALIZĂ Cât plătește Primăria Sectorului 2 pentru curățenia stradală și ridicarea gunoiului și de ce este mizerie pe străzi / Mesajul primarului pentru oamenii care aruncă gunoiul pe stradă: Îi vom amenda
Ghidul înregistrării unei persoane juridice în platforma de vaccinare anti-COVID: Cine si cum poate programa la vaccinare angajații unei firme
„Cel mai greu proiect de infrastructură al României”. Drulă: „Sunt atât de multe tâmpenii făcute pe acest proiect” / Detalii despre Autostrada Unirii A8
Se vor întoarce și studenții în amfiteatre din semestrul al doilea? Universitatea București: Cursuri online în continuare, cu mici excepții. UBB: Se conturează varianta hibrid
Kremlinul ripostează, după imensul succes online al anchetei lui Navalnîi despre "palatul lui Vladimir Putin" / Tinerii se mobilizează în special pe Tik Tok pentru protestele anunțate sâmbătă în întreaga Rusie
Cutia neagră a banilor publici. Secretariatul de Stat pentru Culte a alocat anul trecut o sumă record de 750.000 de lei Mănăstirii „Sf. Cuv. Parascheva", ctitorită de PF Daniel. Ani la rând Curtea de Conturi a constatat nereguli la SCC