Proiect NewsMix-HotNews.ro: Paginile candidatilor la presedintie

de R.H.     HotNews.ro
Luni, 12 octombrie 2009, 11:07 Economie | Media & Publicitate

Proiect pentru prezidentiale
Foto: HotNews.ro
Care sint informatiile relevante despre candidatii la alegerile prezidentiale din 22 noiembrie? Care sint legaturile intre numele fiecaruia si restul actorilor de pe scena politica? Cit de des apare numele lor in presa online si care e tendinta? HotNews.ro si NewsMix vor prezenta aceste informatii zilnic, in cadrul unui proiect special care-i are in centru pe cei patru candidati cotati cu sanse reale pentru al doilea tur: Crin Antonescu, Traian Basescu, Mircea Geoana si Sorin Oprescu. Dan Selaru, membru in echipa NewsMix, vorbeste despre modul in care cercetarea matematica se poate aplica in domeniul politic.

Ce informatii noi aduce acest proiect comun NewsMix - HotNews.ro?
Pentru fiecare candidat exista o suma de articole care-l mentioneaza. Din toate articolele respective se detaseaza - printr-un proces care tehnic se cheama clusterizare, si care mai putin tehnic este gasirea subiectelor care atrag cele mai multe opinii din presa online - articolul care este cumva media acestora, cel care este centrul grupului. Noi nu alegem nimic, e un proces matematic, un algoritm care calculeaza distantele intre documente, acestea se auto-organizeaza si noi doar scoatem subiectele zilei care-l privesc pe candidat si articolele reprezentative pentru fiecare subiect. Plus articolele asociate acestui articol de referinta.

Mai e un lucru important care poate trece nebagat in seama.  Lista "personajelor" care-l insotesc pe fiecare candidat. In articolele despre Traian Basescu este mult mai des intalnit PSD-ul decat PDL-ul. Ciudat? Partidul Social Democrat este sinonimizat cu PSD sau Partidului Social Democrat si sunt adunate toate formele.

Mai este un proces in spate, familiile de cuvinte sunt grupate automat. Cuvintele comune "criza, crizei, crizelor" si asa mai departe sunt considerate un singur cuvant, reprezentantul este forma care apare cel mai des, de asta cateodata un cuvant apare articulat si altul nu, asa se scrie in presa. Oricum, mie-mi pare interesant sa stiu care sunt cuvintele cu care fiecare termen e asociat.

O sa scriem analize ale rezultatelor, sper eu pe intelesul publicului.

Care sint metodele prin care se obtin aceste informatii?
Textele sunt publice. Aici problema este grea pentru ca pot sa scot informatia precum Google, in forma bruta, sau trebuie sa selectez din fiecare pagina doar articolul. Prima metoda nu e foarte complicata, a doua este. Metodele sunt matematice si nu numai. Unele sunt statistice, altele sunt obtinute in urma unor algoritmi inventati, altii doar adaptati la limba romana. E o limba ingrozitor de greu de algoritmizat, nu se compara cu limba engleza. Ceea ce pare simplu in vorbe e complicat in practica. Confruntarea cu realitatea a fost mai dura decat ne asteptam.

Nici un algoritm nu poate acoperi intreaga gama a aberatiilor tehnice cu care te intalnesti in realitate, e o fatalitate a imperfectiunii. Metoda pe care am folosit-o a fost sa fim rezonabili. Cele mai multe cuvinte din dictionarele noastre sunt greseli de ortografie, un balast ingrozitor. Dar poate cineva de la vreun minister o sa fie interesat vreodata sa stie ce nu stiu romanii sa scrie corect si sa faca o lista de greseli comune pe care sa le corecteze. Si din scrisul gresit se pot obtine informatii valoroase.

Cine face parte din echipa NewsMix?
Patru oameni, doi doctori in matematica batrani, un programator batran si un investitor entuziast si tanar. Manole Buican, Catalin Cucu - Dumitrescu, Daniel Enache si subsemnatul, Dan Selaru.

Ce face, de fapt, Newsmix?
Este un analizor statistic si nu numai al mediei online. Extragem continutul ascuns in spatele cuvintelor. Se cheama data mining pentru specialisti. Si e cateodata mai relevant chiar decat continutul in sine. Pot sa spun de cate ori zice cineva ceva despre ceva. Pot sa spun care sunt subiectele zilei. Pot sa spun care sunt articolele zilei. Cateodata pot sa spun si cine s-a inspirat de la cine.

De cat timp lucrati la acest proiect?
De doi ani, e unul din putinele proiecte din Romania in care initiativa privata se intalneste cu cercetarea stiintifica. As zice ca e un succes inainte de a fi unul financiar, cineva a avut curajul sa investeasca in cercetarea romaneasca. Lucru rar.

De ce iesiti cu el pe piata abia acum?
Pentru ca acum avem un produs. Am mai incercat, dar criza a lovit pe toata lumea.

De ce nu ati continuat sa faceti cercetare?
Pai NewsMix inseamna cercetare, facem rezumate automate pentru articole, distante matematice intre articolele din presa, putem automat sa realizam legaturile intre personaje, facem sinonimie si inca multe altele care sunt secrete de serviciu. Viitorul este agregarea inteligenta a continutului, nimeni nu are capacitatea sa citeasca tot, si nici interesul, dar daca e interesat de un subiect poate obtine continutul structurat exact pe subiectul dorit. Nu exista niciunde in lume cineva care sa aiba curajul sa expuna rezumate facute automat. Noi o facem.

Urmariti in mod special candidatii la presedintie?
In proiectul cu Hotnews da, pentru ca este subiectul zilei. Dar putem sa analizam comportamentul presei fata de orice alt subiect, de la sistemul de sanatate la domeniul bancar sau cursul valutar.

Vezi aici paginile celor patru candidati:


Citeste mai multe despre   
























Astra Film Festival 2017

VIDEO INTERVIU Bill Nichols, critic de film si pionier al studiului de film documentar: In timpul facultatii inca nu stiam ce voi deveni. Eu nu eram interesat sa fac bani, ci cautam implinirea. Si a durat o vreme sa imi dau seama.

Bill Nichols, critic de film american, profesor emerit si un pionier al studiului de film documentar contemporan a discutat in cadrul unui interviu despre visele si aspiratiile din tinerete, tehnicile din filmele documentare si influenta tehnologiei in industria cinematografica.
  • Intra in articol pentru a citi principalele declaratii ale lui Bill Nichols

5468 vizualizari

  • 0 (0 voturi)    
    intrebare? (Luni, 12 octombrie 2009, 14:56)

    danaila [anonim]

    ce este un analizor statistic?
    • 0 (0 voturi)    
      Raspuns (Luni, 12 octombrie 2009, 15:42)

      Newsmix [anonim] i-a raspuns lui danaila

      Un analizor statistic este de facto un program care analizeaza o serie de date/informatii/texte/whatever pe baza unor criterii statistice.
      In cazul nostru: ii furnizam articole din presa, iar programul scoate date si statistici despre aparitii, frecvente, articole asemanatoare si personaje mentionate.
  • +1 (1 vot)    
    DE CE 4? (Luni, 12 octombrie 2009, 14:58)

    Piticar [anonim]

    nu este chiar echitabil si nici corect.
    ca in orice concurs de atletism - proba de sprint-fiecare alearga pe pista lui si are sansa sa.
    nu sunt doar patru! poate doar in perceptia unora.
    si daca stau si parcusg numele toti patru enumerati au hibe extreme, ori pe linie de management politico-social, ori pe linie morala, iar trei sunt clar crescuti la umbra scolii comuniste ale apuselor vremuri ceusiste. ptiu drace!
    ca nu au invatat decat ce-a fost mai rau! - avea dreptate brucan si toti l-am considerat odios....
    poate ca si era, avand scoala leninista in spate.
    dar stia ce discipoli balaurizati lasa in spate.
    sper sa aiba dreptate si cu parte a doua:
    -sa apara un suflu social nou, care sa impuna o clasa politica noua, cu bun simt,
    iar nu niste mincinosi hotomani si scamatori, gata in orice moment sa calce in piciore orice norma de bun-simt social.
    si se pare ca apare: pfc?!
  • 0 (0 voturi)    
    proiect asemanator - consideratii (Luni, 12 octombrie 2009, 15:11)

    dragomirp [utilizator]

    Proiectul asta seamana foarte mult cu http://www.opencalais.com/ - tot semantic web, etc. Acolo rezultatele sunt suma operatiilor aplicate de oameni, unde aici sunt extrageri automate pe baza de algoritmi.

    La fel, ceva similar face http://www.sphinxsearch.com/ , un full-text search engine, "google like" ~. Tot ce trebuie sa faci e sa preiei si sa stochezi sursa de analizat si ii pasezi cuvinte cheie. Rezultatele sunt intoarse dupa relevanta, si alte criterii. Cautarea este foarte rapida, etc

    Nu ati reinventat roata?
    • 0 (0 voturi)    
      similaritatile cu alte tehnologii (Luni, 12 octombrie 2009, 15:46)

      NewsMix [anonim] i-a raspuns lui dragomirp

      Raspuns: Nu.
      • 0 (0 voturi)    
        similaritatile cu alte tehnologii (Luni, 12 octombrie 2009, 16:23)

        dragomirp [utilizator] i-a raspuns lui NewsMix

        Izolarea continutului principal dintr-o pagina web este dificila. Sunt cazuri in care articolul principal are cateva zeci de randuri iar sidebar-urile contin mult mai mult text. Sunt curios cum ati rezolvat problema asta ...

        Analiza textului il faceti pe snapshot-uri ale paginilor la momentul analizei sau real-time (paginile s-ar fi putut modifica intre timp~)?

        Nu vreau sa caut nod in papura, ci expun probleme cu care m-am confruntat intr-un proiect similar.
    • 0 (0 voturi)    
      Despre semantica, mai pe lung (Luni, 12 octombrie 2009, 16:20)

      Newsmix [anonim] i-a raspuns lui dragomirp

      Opencalais este intr-adevar un instrument de analiza semantica dar din pacate functionalitatea lui este limitata pe limba engleza. Practic este absolut inutil pe limba romana.
      Diferenta dintre Newsmix si Opencalais este mare. Practic Newsmix (ca si produs) este un pas facut pe drumul care duce catre un produs de tip Opencalais. Dar in curand ajungem si acolo. :D

      Iar Sphinx este un produs opensource care ofera functionalitati de cautare si indexare.
      Mai sunt inca cateva de acest gen (Solr, Lucene, etc) dar functionalitatea lor este limitata la indexare si cautare. Cand vine vorba de taguri, grupari si topuri nu prea pot folosi la mare lucru.

      Daca te intereseaza mai multe despre semantica, da-ne un mail si stam de vorba!
  • 0 (0 voturi)    
    semantica pozitivista (Luni, 12 octombrie 2009, 15:42)

    Calin [anonim]

    Chestia asta cu continutul din spatele cuvintelor mi se pare in acelasi timp usor eronata si usor inutila.
    1. Nu exista semnificatie universala, deci sens pozitiv stabil nici macar la nivelul cuvintelor. Contextul de emitere, plasarea in cimpul interdiscursiv etc. sint mult mai importante decit asa numitul continut pozitiv al cuvintelor.
    2. Sensul nu se construieste doar din cuvinte, exista structuri purtatoare de sens la un nivel superior al frazei. Deci nu e important doar numarul de ocurente al unui termen, ci si alte lucruri, incepind de la functia lui morfologica si rolul sintactic. Sa redai pozitivist o statistica rfeferitoare la sensuri pe care presupui ca toata lumea le cunoaste automat si deduce de acolo cam aceleasi lucruri e un pic naiv. Plus ca chestia asta imi inchipui ca costa o gramada de bani... Probabil ar trebui sa acordati atentie cercetarilor din domenii paralele precum analiza discursului si lingvistica functional-sistemica a lui Michael Halliday.
    • 0 (0 voturi)    
      Semantica si statistica (Luni, 12 octombrie 2009, 16:02)

      Newsmix [anonim] i-a raspuns lui Calin

      Absolut corect tot ce ati spus mai sus.
      Practic in cele doua puncte mentionate de catre dvs. ati reusit sa punctati toate diferentele majore intre o analiza statistica si o analiza semantica.
      Dupa cum ati mentionat foarte bine orice apreciere de tip pozitiv-negativ facuta la acest moment poate fi usor eronata.
      De aceea Newsmix nu furnizeaza decat date. Tot ce vedeti, statisticile, tag cloud-urile si zona de articole, sunt rezultatul analizelor statistice facute pe presa romaneasca. Continutul din spatele cuvintelor este reprezentat de sensurile pe care le putem extrage noi, cei care se uita la rezultate, din datele furnizate de analizor.

      Suntem pe drumul care duce la realizarea unei semantici mai exhaustive si incet incet o sa putem sa facem fix ce descrieti dvs.
      Daca va pasioneaza subiectul semantica scrieti-ne si va tinem la curent cu dezvoltarile noastre.
  • 0 (0 voturi)    
    dvs. decideti de fapt cine are sanse (Luni, 12 octombrie 2009, 17:01)

    gigi [anonim]

    spunand cine are sanse si cine n-are sanse. jurnalism de nota 10.
    de ce nu lasati pe altii sa decida cine are sanse si cine nu?

    remuscernea.ro
    • 0 (0 voturi)    
      precizare (Luni, 12 octombrie 2009, 18:20)

      Newsmix [anonim] i-a raspuns lui gigi

      Nu noi am decis cine apare si cine nu. Paginile sunt generate automat. Nu exista implicare politica in acest proiect.
      • 0 (0 voturi)    
        am inteles (Joi, 15 octombrie 2009, 22:01)

        gigi [anonim] i-a raspuns lui Newsmix

        imi cer scuze pentru acuzatiile nefondate.
  • 0 (0 voturi)    
    mai exista www.newistic.ro (Luni, 12 octombrie 2009, 18:40)

    Dan MASCA [anonim]

    ...care sta la baza http://prezidentiale.cotidianul.ro
    stie si Romana , Engleza, Franceza, Greaca, Sirba .
    Tot cercetare a doi tineri tirgumureseni, Ovidiu Dan si Horatiu Mocian, si tot de ceva ani :).

    Spor la succese !
    • 0 (0 voturi)    
      concurenta (Luni, 12 octombrie 2009, 22:15)

      Newsmix [anonim] i-a raspuns lui Dan MASCA

      Da, e concurenta noastra si ne bucuram, real, ca exista. Asta inseamna ca Romania se aliniaza practicii cercetarii stiintifice aplicate.
  • 0 (0 voturi)    
    alegeri prezidemtiale (Luni, 12 octombrie 2009, 21:20)

    observator [anonim]

    fara a parea arogant dupa parerea mea cam asa va fi rezultatul votului:traian basescu 35%,mircea geona 24%,crin antonescu13%,c.v.t si g.b. 8%,k.h.5%,alti 3%,iar in turul 2:T.B. 59%,M.G. 41%
    • 0 (0 voturi)    
      :-) (Luni, 12 octombrie 2009, 22:12)

      Newsmix [anonim] i-a raspuns lui observator

      Nu ne sta in putinta sa estimam din presa asemenea rezultate. A existat o incercare, reusita, intr-o tara nordica, nu mai tin minte. Dar ca orice proiect n-a spus metoda, noi avem un grafic care poate nu o sa surprinda corelatia intre presa si rezultate. Poate o s-o nimerim, poate nu. Poate la ei a fost o intamplare, poate nu avem cantitatea de date prelucrate suficienta, poate nu se poate, lucrurile nu au nimic in comun.

      De asta e frumoasa cercetarea, habar n-ai unde ajungi.
  • +1 (1 vot)    
    si pagina Remus Cernea (Luni, 12 octombrie 2009, 22:42)

    DC [anonim]

    ...chiar daca n-are sanse, si poate nici stofa de presedinte (asta putem sti doar daca-l cunoastem mai bine), merita o pagina. Pt. ideea de candidat al internetului, pt. ideea de promovare a oamenilor care nu sunt neaparat sprijiniti de gupuri de interese (financiare).
  • 0 (0 voturi)    
    true it's free (Joi, 15 octombrie 2009, 15:19)

    ionut [anonim]

    Sanatate.
    Stiam ca pe langa cei 4 candidati mai figureaza si altii cum ar fi Vadim -Becali- Bataiosu-Meir etc.
    De ce nu spuneti si de acestia si numai de cei 4 corifei ( tineti cont de toti candidatii asta este DeMOCRATIE )
    Oare asa vrea poporul sa-i vada decat pe astia?
    Numai bine va doresc.
    Respecte deosebite
    • 0 (0 voturi)    
      raspuns (Joi, 15 octombrie 2009, 18:39)

      Newsmix [anonim] i-a raspuns lui ionut

      Am mai raspuns, nu noi am hotarat care sunt candidatii cu sanse, nu noi am hotarat cine are pagina si cine nu.
  • 0 (0 voturi)    
    Data mining politics (Vineri, 16 octombrie 2009, 14:41)

    em [anonim]

    Inainte de a se inscrie Obama si Hilary Clinton in cursa pt president, democratii au pus bazele unui institut de data mining politics. Asa au aflat asteptarile electoratului din partea democratilor si a fost in final un succes.
    Grupul Dvs cred ca este prea restrans si daca se bazeaza pe matematicieni "batrini", cum spuneti, ar trebui racolati si computer scientisti, mai tinei, cu expertiza in machine learning. Data mining, Statistics and Machine learning sunt de baza intr-un astfel de proiect.
    Felicitari pt "minarea" jurnalelor din RO!
    • 0 (0 voturi)    
      :-) (Vineri, 16 octombrie 2009, 22:54)

      Newsmix [anonim] i-a raspuns lui em

      Batrani nu inseamna depasiti. :-) Si vorbim despre bani totdeauna. Despre tineri numai de bine, intai sa-i gasim. Aveti propuneri? Serios.
      • 0 (0 voturi)    
        Intrebare! (Duminică, 18 octombrie 2009, 16:44)

        Ioana [anonim] i-a raspuns lui Newsmix

        Cum pot transmite acest articol, prin e-mail, unui tanar care se dedica acestui domeniu, inca de la 5 ani? Il vad un posibil tanar, competent!
        Si da! De ce nu, pentru informatia mea generala, asi dori sa fiu informata frecvent, despre rezultatele acestui proiect. Nu mai sunt la varsta in care sa inteleg foarte bine ce inseamna semantica si sa ma dedic studiului, in acest domeniu, insa... "Omul cat raieste, invata!" :)
  • 0 (0 voturi)    
    Comentariile de langa nume sunt rauvoitoare (Vineri, 16 octombrie 2009, 23:02)

    rezonatul [anonim]

    Daca nu doriti sa influentati opinia publica, lasati numele si atat, la inceputul paginilor.
    Altfel, va banuiesc ca sunteti baieti de campanie pentru licurici.
    E mult prea evident, desi poate ati vrut sa fie comentarii subtile.
    E un lucru pe care nu il inteleg : se pleaca de la ideea ca cititorul e un cretin. Paradoxal, in anii 90 mesajele erau mai rafinate.
  • 0 (0 voturi)    
    Sunt generate automat (Sâmbătă, 17 octombrie 2009, 7:44)

    D. Tomescu [anonim]

    Newsmix a mai raspuns, "Paginile sunt generate automat. Nu exista implicare politica in acest proiect". Chiar si tehnologia ii asociaza lui Basescu un mesaj pozitiv in timp ce Antonescu este conectat cu Patriciu. q.e.d
  • 0 (0 voturi)    
    inca o preciyzare (Sâmbătă, 17 octombrie 2009, 12:05)

    Newsmix [anonim]

    Pozele si micile descrierei ale candidatilor sunt de la Hotnews, ca si decizia cui sa-i apara pagina. Restul paginii este generat automat. Nici noi nu stim ce apare pentru ca este rezultatul unui algoritm. Newsmix este un proiect stiintific nu politic.
  • 0 (0 voturi)    
    super (Sâmbătă, 17 octombrie 2009, 12:10)

    d_ecebal1254758727935 [utilizator]

    Da,o ideie buna...asteptam cu sete aceste informatii...!!
  • 0 (0 voturi)    
    oprescu (Duminică, 18 octombrie 2009, 23:41)

    lacatus [anonim]

    fara el nu se poate?


Abonare la comentarii cu RSS



ESRI

Top 5 articole cele mai ...



Hotnews
Agenţii de ştiri

Siteul Hotnews.ro foloseste cookie-uri. Cookie-urile ne ajută să imbunatatim serviciile noastre. Mai multe detalii, aici.
hosted by
powered by
developed by
mobile version