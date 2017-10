AlphaGo a devenit celebru dupa ce a castigat in fata a doi campioni ai jocului de GO care s-au aratat uimiti de cat de bine joaca. Insa daca pentru a-i invinge pe campioni, AlphaGo a studiat milioane de jocuri disputate intre cei mai buni jucatori umani, acum versiunea mai puternica numita AlphaGo Zero a reusit sa invete singur pornind de la aproape nimic, fara a studia alte partide. Asadar, vorbim de o tehnica de invatare mult imbunatatita decat "invatarea supervizata" la care computerul invata din milioane de exemple furnizate de oameni.Practic i s-au dat regulile jocului si pozitiile pieselor albe si negre pe tabla de joc si computerul a simulat apoi milioane de partide, primele fiind aleatorii, dar apoi calitatea jocului crescand si la fel si rafinamentul si strategia. Dupa trei zile de "antrenament" software-ul a batut cu 100-0 versiunea programului care in martie 2016 l-a batut pe campionul sud-coreean Lee Sedol, iar dupa 40 de zile a putut castiga in fata versiunii AlphaGo Master care in luna mai il invingea pe campionul mondial Ke Jie."Invata pur si simplu simuland singur jocuri, pornind de la partide aleatorii. A reusit foarte rapid sa depaseasca nivelul de joc al oamenilor si a invins cu 100-0 cea mai recenta varianta a programului", spune Demis Hassabis, CEO DeepMind.David Silver, seful de proiect, a adaugat ca elementul special tine de faptul ca programul porneste de la zero si creeaza singur cunostiinte, pornind de la doar cateva informatii minimale. Practic, spune Silver, in doar cateva zile computerul, nu doar ca a depasit cei mai buni jucatori "umani", ci a depasit cunostiintele acumulate despre joc in cei 3.000 de ani de existenta ai jocului de GO.Metoda se dovedeste a fi una puternica si ar putea fi eficienta si in domenii extrem de importante. Cei de la DeepMind spun ca aceasta metoda a "invatarii consolidate" (reinforcement learning) pentru a ajuta la descoperirea de noi materiale, la analiza proteinelor pentru crearea de noi medicamente sau pentru gasirea unor noi metode de economisire a energiei.Computerul invata din simularea a milioane de jocuri, dar reteaua neurala decide care miscari au cea mai mare probabilitate de a duce la victorie. Reteaua invata din fiecare joc si devine tot mai buna pe masura ce simuleaza tot mai multe partide.: programul AlphaGo Zero este foarte bun la GO si poate fi util in anumite domenii, insa in multe altele nu are niciun fel de utilitate.Tehnicile de invatare se preteaza bine la jocul de GO unde regulile sunt clare si unde hazardul nu joaca aproape niciun rol. La fel, si pe viitor aceste tehnici de invatare foarte avansata pot fi folosite pentru gasirea de solutii pentru rezolvarea unor probleme clar definite si unde imprevizibilul este cat mai putin prezent.Surse: Le Monde, The Telegraph