Ce informatii noi aduce acest proiect comun NewsMix - HotNews.ro?
Pentru fiecare candidat exista o suma de articole care-l mentioneaza. Din toate articolele respective se detaseaza - printr-un proces care tehnic se cheama clusterizare, si care mai putin tehnic este gasirea subiectelor care atrag cele mai multe opinii din presa online - articolul care este cumva media acestora, cel care este centrul grupului. Noi nu alegem nimic, e un proces matematic, un algoritm care calculeaza distantele intre documente, acestea se auto-organizeaza si noi doar scoatem subiectele zilei care-l privesc pe candidat si articolele reprezentative pentru fiecare subiect. Plus articolele asociate acestui articol de referinta.
Mai e un lucru important care poate trece nebagat in seama. Lista "personajelor" care-l insotesc pe fiecare candidat. In articolele despre Traian Basescu este mult mai des intalnit PSD-ul decat PDL-ul. Ciudat? Partidul Social Democrat este sinonimizat cu PSD sau Partidului Social Democrat si sunt adunate toate formele.
Mai este un proces in spate, familiile de cuvinte sunt grupate automat. Cuvintele comune "criza, crizei, crizelor" si asa mai departe sunt considerate un singur cuvant, reprezentantul este forma care apare cel mai des, de asta cateodata un cuvant apare articulat si altul nu, asa se scrie in presa. Oricum, mie-mi pare interesant sa stiu care sunt cuvintele cu care fiecare termen e asociat.
O sa scriem analize ale rezultatelor, sper eu pe intelesul publicului.
Care sint metodele prin care se obtin aceste informatii?
Textele sunt publice. Aici problema este grea pentru ca pot sa scot informatia precum Google, in forma bruta, sau trebuie sa selectez din fiecare pagina doar articolul. Prima metoda nu e foarte complicata, a doua este. Metodele sunt matematice si nu numai. Unele sunt statistice, altele sunt obtinute in urma unor algoritmi inventati, altii doar adaptati la limba romana. E o limba ingrozitor de greu de algoritmizat, nu se compara cu limba engleza. Ceea ce pare simplu in vorbe e complicat in practica. Confruntarea cu realitatea a fost mai dura decat ne asteptam.
Nici un algoritm nu poate acoperi intreaga gama a aberatiilor tehnice cu care te intalnesti in realitate, e o fatalitate a imperfectiunii. Metoda pe care am folosit-o a fost sa fim rezonabili. Cele mai multe cuvinte din dictionarele noastre sunt greseli de ortografie, un balast ingrozitor. Dar poate cineva de la vreun minister o sa fie interesat vreodata sa stie ce nu stiu romanii sa scrie corect si sa faca o lista de greseli comune pe care sa le corecteze. Si din scrisul gresit se pot obtine informatii valoroase.
Cine face parte din echipa NewsMix?
Patru oameni, doi doctori in matematica batrani, un programator batran si un investitor entuziast si tanar. Manole Buican, Catalin Cucu - Dumitrescu, Daniel Enache si subsemnatul, Dan Selaru.
Ce face, de fapt, Newsmix?
Este un analizor statistic si nu numai al mediei online. Extragem continutul ascuns in spatele cuvintelor. Se cheama data mining pentru specialisti. Si e cateodata mai relevant chiar decat continutul in sine. Pot sa spun de cate ori zice cineva ceva despre ceva. Pot sa spun care sunt subiectele zilei. Pot sa spun care sunt articolele zilei. Cateodata pot sa spun si cine s-a inspirat de la cine.
De cat timp lucrati la acest proiect?
De doi ani, e unul din putinele proiecte din Romania in care initiativa privata se intalneste cu cercetarea stiintifica. As zice ca e un succes inainte de a fi unul financiar, cineva a avut curajul sa investeasca in cercetarea romaneasca. Lucru rar.
De ce iesiti cu el pe piata abia acum?
Pentru ca acum avem un produs. Am mai incercat, dar criza a lovit pe toata lumea.
De ce nu ati continuat sa faceti cercetare?
Pai NewsMix inseamna cercetare, facem rezumate automate pentru articole, distante matematice intre articolele din presa, putem automat sa realizam legaturile intre personaje, facem sinonimie si inca multe altele care sunt secrete de serviciu. Viitorul este agregarea inteligenta a continutului, nimeni nu are capacitatea sa citeasca tot, si nici interesul, dar daca e interesat de un subiect poate obtine continutul structurat exact pe subiectul dorit. Nu exista niciunde in lume cineva care sa aiba curajul sa expuna rezumate facute automat. Noi o facem.
Urmariti in mod special candidatii la presedintie?
In proiectul cu Hotnews da, pentru ca este subiectul zilei. Dar putem sa analizam comportamentul presei fata de orice alt subiect, de la sistemul de sanatate la domeniul bancar sau cursul valutar.
Vezi aici paginile celor patru candidati:





















In cazul nostru: ii furnizam articole din presa, iar programul scoate date si statistici despre aparitii, frecvente, articole asemanatoare si personaje mentionate.
ca in orice concurs de atletism - proba de sprint-fiecare alearga pe pista lui si are sansa sa.
nu sunt doar patru! poate doar in perceptia unora.
si daca stau si parcusg numele toti patru enumerati au hibe extreme, ori pe linie de management politico-social, ori pe linie morala, iar trei sunt clar crescuti la umbra scolii comuniste ale apuselor vremuri ceusiste. ptiu drace!
ca nu au invatat decat ce-a fost mai rau! - avea dreptate brucan si toti l-am considerat odios....
poate ca si era, avand scoala leninista in spate.
dar stia ce discipoli balaurizati lasa in spate.
sper sa aiba dreptate si cu parte a doua:
-sa apara un suflu social nou, care sa impuna o clasa politica noua, cu bun simt,
iar nu niste mincinosi hotomani si scamatori, gata in orice moment sa calce in piciore orice norma de bun-simt social.
si se pare ca apare: pfc?!
La fel, ceva similar face http://www.sphinxsearch.com/ , un full-text search engine, "google like" ~. Tot ce trebuie sa faci e sa preiei si sa stochezi sursa de analizat si ii pasezi cuvinte cheie. Rezultatele sunt intoarse dupa relevanta, si alte criterii. Cautarea este foarte rapida, etc
Nu ati reinventat roata?
Analiza textului il faceti pe snapshot-uri ale paginilor la momentul analizei sau real-time (paginile s-ar fi putut modifica intre timp~)?
Nu vreau sa caut nod in papura, ci expun probleme cu care m-am confruntat intr-un proiect similar.
Diferenta dintre Newsmix si Opencalais este mare. Practic Newsmix (ca si produs) este un pas facut pe drumul care duce catre un produs de tip Opencalais. Dar in curand ajungem si acolo. :D
Iar Sphinx este un produs opensource care ofera functionalitati de cautare si indexare.
Mai sunt inca cateva de acest gen (Solr, Lucene, etc) dar functionalitatea lor este limitata la indexare si cautare. Cand vine vorba de taguri, grupari si topuri nu prea pot folosi la mare lucru.
Daca te intereseaza mai multe despre semantica, da-ne un mail si stam de vorba!
1. Nu exista semnificatie universala, deci sens pozitiv stabil nici macar la nivelul cuvintelor. Contextul de emitere, plasarea in cimpul interdiscursiv etc. sint mult mai importante decit asa numitul continut pozitiv al cuvintelor.
2. Sensul nu se construieste doar din cuvinte, exista structuri purtatoare de sens la un nivel superior al frazei. Deci nu e important doar numarul de ocurente al unui termen, ci si alte lucruri, incepind de la functia lui morfologica si rolul sintactic. Sa redai pozitivist o statistica rfeferitoare la sensuri pe care presupui ca toata lumea le cunoaste automat si deduce de acolo cam aceleasi lucruri e un pic naiv. Plus ca chestia asta imi inchipui ca costa o gramada de bani... Probabil ar trebui sa acordati atentie cercetarilor din domenii paralele precum analiza discursului si lingvistica functional-sistemica a lui Michael Halliday.
Practic in cele doua puncte mentionate de catre dvs. ati reusit sa punctati toate diferentele majore intre o analiza statistica si o analiza semantica.
Dupa cum ati mentionat foarte bine orice apreciere de tip pozitiv-negativ facuta la acest moment poate fi usor eronata.
De aceea Newsmix nu furnizeaza decat date. Tot ce vedeti, statisticile, tag cloud-urile si zona de articole, sunt rezultatul analizelor statistice facute pe presa romaneasca. Continutul din spatele cuvintelor este reprezentat de sensurile pe care le putem extrage noi, cei care se uita la rezultate, din datele furnizate de analizor.
Suntem pe drumul care duce la realizarea unei semantici mai exhaustive si incet incet o sa putem sa facem fix ce descrieti dvs.
Daca va pasioneaza subiectul semantica scrieti-ne si va tinem la curent cu dezvoltarile noastre.
de ce nu lasati pe altii sa decida cine are sanse si cine nu?
remuscernea.ro
stie si Romana , Engleza, Franceza, Greaca, Sirba .
Tot cercetare a doi tineri tirgumureseni, Ovidiu Dan si Horatiu Mocian, si tot de ceva ani :).
Spor la succese !
De asta e frumoasa cercetarea, habar n-ai unde ajungi.
Stiam ca pe langa cei 4 candidati mai figureaza si altii cum ar fi Vadim -Becali- Bataiosu-Meir etc.
De ce nu spuneti si de acestia si numai de cei 4 corifei ( tineti cont de toti candidatii asta este DeMOCRATIE )
Oare asa vrea poporul sa-i vada decat pe astia?
Numai bine va doresc.
Respecte deosebite
Grupul Dvs cred ca este prea restrans si daca se bazeaza pe matematicieni "batrini", cum spuneti, ar trebui racolati si computer scientisti, mai tinei, cu expertiza in machine learning. Data mining, Statistics and Machine learning sunt de baza intr-un astfel de proiect.
Felicitari pt "minarea" jurnalelor din RO!
Si da! De ce nu, pentru informatia mea generala, asi dori sa fiu informata frecvent, despre rezultatele acestui proiect. Nu mai sunt la varsta in care sa inteleg foarte bine ce inseamna semantica si sa ma dedic studiului, in acest domeniu, insa... "Omul cat raieste, invata!" :)
Altfel, va banuiesc ca sunteti baieti de campanie pentru licurici.
E mult prea evident, desi poate ati vrut sa fie comentarii subtile.
E un lucru pe care nu il inteleg : se pleaca de la ideea ca cititorul e un cretin. Paradoxal, in anii 90 mesajele erau mai rafinate.