Riječ dana

11/09/2012

Novosti

Diplomski projekt nastao na studiju Dizajna u novim medijima Umjetničke akademije u Splitu, rad Luke Vidoša, web je sjedište kojem je namjena pronaći kojim se to pojmovima horizontalni web portali bave u određenom vremenskom periodu te iste podatke dinamički vizualizirati i usporediti.

Projekt je izveden u pet faza: uvodna istraživanja, izrada prototipa samostalnog web agenta, prikupljanje informacija, analiza prikupljenih informacija i njihova vizualizacija.

Testno istraživanje je uključivalo portale index.hr, jutarnji.hr, 24sata.hr i dnevnik.hr te njihove rubrike „hrvatska“, „sport“ i „crna kronika“ u periodu od 19.09.2011. do 26.09.2011.

Za informacijsku podlogu ovog rada korišten je samostalni web agent čija je primarna zadaća bila preuzimati najnovije članke sa naslovnica horizontalnih novinskih portala u odabranim kategorijama. Svaki preuzeti članak se rastavljao na pojedinačne riječi, filtrirao i pohranjivao u bazu podataka. Svakoj riječi se dodjeljivala određena vrijednost u ovisnosti o preuzetim člancima toga dana čime se mjeri njen odnos sa cjelokupnim sadržajem.

Dobiveni rezultati u testnom tjednu pohranjeni su u bazu podataka veličine 12.0GB te se pristupilo njihovoj analizi. Zbog dinamike HTML jezika i nepredviđenih situacija bilo je potrebno, unatoč prvotnim ograničenjima, pristupiti daljnjem filtriranju dobivene baze podataka kako bi podaci bili relevantni. Završna analiza dobivenih rezultata je vršena na bazi podataka veličine 2.0GB sa 3.75 milijuna riječi preuzetih sa pet hrvatskih portala i tri njihove kategorije.

Vizualizacija dobivenih informacija je prezentirana na samostalnom web sjedištu (http://vidos.com.hr/diplomski) gdje se prikupljeni podaci postavljaju u omjere. Riječi se stavljaju u međusobne omjere prema odabranom filtru, a svaka riječ se analizira prema pojavnosti na određenim portalima, vrijednosti ključne riječi i načinu tretiranja u izvornom HTML kodu. Pojmovi se mogu uspoređivati međusobno ili filtrirati prema portalu, kategoriji odnosno vremenu kada su preuzeti.

Cilj ovog rada je bio ponuditi prototip alata kojega bi za analizu horizontalnih web portala mogli koristiti stručnjaci iz područja marketinga, sociologije, medijskih studija, politologije i sličnih. Dobiveni rezultati su pokazali da postoji povezanost između riječi i aktualnih tema u Hrvatskoj u tom periodu (predizborna kampanja, cijene benzina, vrijednost eura, sportski transferi…) koje su se mogle vidjeti i na naslovnicama tiskovnih medijima. Bilo bi zanimljivo vidjeti kako bi funkcionirao ovaj rad u realnom vremenu na adekvatnim serverskim kapacitetima.

Word of the Day

Luka Vidoš master thesis at New Media Design at Arts Academy in Split, aims to find out which terms horizontal web portals are dealing with at a certain time period, and to dynamically visualize and compare it.

The project was carried out in five phases: an introductory study, prototype autonomous web agent, data mining, data analysis and information visualization.

Test research included web portals index.hr, jutarnji.hr, 24sata.hr and dnevnik.hr and their categories “Croatia”, “Sport” and “Black Chronicle” in the period from 19.09.2011.- 26.09.2011.

For information base used for this study was data collected from autonomous web agent whose primary task was to retrieve the latest articles from horizontal news portals in selected categories. Each downloaded article was disassembled into individual words, filtered and stored in the database. Every word was allocated to a certain value depending on the overall articles collected through the day which was benchmarked to compare it with the entire downloaded content.

The results obtained in that week were stored in a database size with the size of 12.0GB. Due to the dynamics of HTML language and unforeseen situations, it was necessary, despite initial restrictions, a further filtering of the obtained database to make the data relevant and cleaned from ‘stop words’. The final analysis of the results was based on the database size of 2.0GB with 3.75 million words taken from four Croatian portal and three of their categories.

Visualization of the information was presented on a autonomous web site (http://vidos.com.hr/diplomski) where the collected data was set into ratios. The words were put into mutual ratio according to the user selected filter. Each word was analyzed according to the incidence of certain sites, keyword values  and way of treatment in the HTML code. Terms were comparable to each other or to the portal filter, category and time when they take.

The aim of this paper was to offer a prototype tool that would analyze the horizontal web portal and find data that could be used by experts in marketing, sociology, media studies, political science and the like. The results showed that relationship between words and current issues in Croatia at that time really existed (pre-election campaign, gasoline prices, the euro, sport transfers …) and that information which ended up on the front pages of print media were the same. It would be interesting to see how this work would function in real time on an adequate server capacity.