Hrvatski prostor weba – 15 godina mjerenja

·

srce_logo

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina, a poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske – NISKA”. Cilj nam je bio „izmjeriti hrvatski web“, odnosno prikupiti informacije o veličini i sadržaju hrvatskoga prostora weba.

Odlučili smo kako će mjerenjem biti obuhvaćeni resursi dostupni HTTP odnosno HTTPS protokolom s poslužitelja u .hr vršnoj internetskoj domeni. Time je precizno definiran mjereni informacijski prostor.
Mjerenjem se prije svega željelo ustanoviti:

  • veličinu prostora weba,
  • korištene formate datoteka prema MIME standardu,
  • omjer teksta, slike, audio i video zapisa,
  • obim i sadržaj meta podataka.

„Složenost i dinamičnost informacijskoga prostora weba predstavljala je na samom početku prije 15 godina, izazov kao i danas. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl. surface web) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web)“, naglasio je mr. sc. Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu.

Prvo je mjerenje izvedeno korištenjem programske podrške razvijene u Srcu. Započelo je 29. ožujka i trajalo sve do 7. svibnja 2002. godine. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Prikupljeni podaci prvog mjerenja prostora weba predstavljali su neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe.

Mjerenje weba, od 2011. godine, zamijenjeno je harvestiranjem. Naime, od te se godine, u okviru HAW-a, pomoću programske podrške Heritrix modificirane u Srcu, provode redovita godišnja harvestiranja – prikupljanja i arhiviranja javno dostupnih sadržaja s hrvatskog prostora weba. Harvestiraju se aktivna sjedišta weba na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine. Harvestiranje je aktivnost komplementarna selektivnom pobiranju sadržaja koje se u okviru HAW neprekidno provodi od samog početka 2004. godine.

U proteklih smo 15 godina, kao izazove u procesu prikupljanja sadržaja, upoznali različite prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija. Naučili smo puno i o samom informacijskom prostoru hrvatskoga weba koji je narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja po svemu su sudeći aktualna i nakon 15 godina.

Primjerice uzorak izmjeren 2002. godine obuhvatio je 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka. Najveći broj resursa, čak 67%, otpadao je na HTML dok je na slikovne formate otpadalo je 23% resursa. Netom dovršenim harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja su tekst u HTML formatu (51.3%) i slike u JPEG formatu (33.8%)“, zaključio je Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate.