Ovo je gore od XMLa

Marketing

Mislim da sam konvergirao temi koju cu prezentirati u petak. Naletio
sam preko vikenda na jedan odlican clanak o clustering
frameworku. Problem koji je potrebno rijesiti je sljedeci: svaki
vremenski trenutak delta T(i) dodje nova kolicina podataka koje treba
podijeliti u kategorije. Ti podaci se mogu podijeliti u kategorije
neovisno o trenutku delta T(i-1), medjutim to znaci da se svaki dan
korisnicima mogu prikazivati informacije drugacije
strukturirane. Ideja frameworka je da se omoguci clustering koji ce
podijeliti podatke u grupe tako da su grupe sto slicnije grupama u
proslom vremenskom trenutku, ali da u isto vrijeme grupiranje sto
bolje odgovara trenutnim podacima. Clustering je primjenjen na tagove
kojima se oznacavaju slike na Flickru i daje dosta dobre rezultate.

Sad moja je ideja to prezentirati kao potencijalnu ideju primjenjivu
na novinske clanke. Ako sve podje po planu i prodam ideju, mozda necu
morati neko vrijeme programirati u Javi. I mozda cu se baviti malo
istrazivanjem. Dakle drzite fige u akciji "Dajte da ne programira u Javi".

Btw naletio sam na jos jedan zanimljiv clanak tokom vikenda. Ovaj put
je vise rijec o zanimljivosti nego o konkretnoj primjeni. Dakle "News
Item Extraction for Text Mining in Web Newspapers" krece od
konstatacije da je jako tesko izvuci podatke iz online izvora
vijesti. Razlog tome je razliciti dizajn stranica (vrlo zanimljiva
konstatacija). Npr neke stranice imaju novosti koje se nalaze u
TABLE, dok druge koriste DIV , a trece koriste tanke IMG objekte
da bi razdjelili sadrzaj na stranici. Autori su zatim obisli hrpu
stranica i izvukli korisne patterne pomocu kojih mogu izvlaciti
novinske clanke sa stranice. Npr. tipicni pattern je oblika
LINK-text-LINK, gdje je prvi LINK link na cijeli clanak, zatim je dio
teksta, zatim ponovno link na cijeli clanak. Postoji hrpa tih
patterna. Zatim studija koliki je precision i recall tih patterna pri
analizi razlicitih novinskih izvora. I na kraju nesto o
clusteringu. Uglavnom, koliko ima smisla ovaj clanak. Jako mi je zao,
ali ovo je gore od ispitivanja hoce li nam XML zapis podataka pomoci?
(prelijen sam otici na ITI stranicu da vidim naslov clanka...)

Post je objavljen 15.02.2007. u 08:00 sati.

Pregled posta

Marketing

Ovo je gore od XMLa