HrZZ Plan upravljanja podacima: Neka od poglavlja ovog teskta sadrže savjete koji Vam mogu pomoći pri pisanju Plana upravljanja podacima Hrvatske zaklade za znanost (upute za popunjavanje možete pronaći ovdje, a primjer ispunjenog obrasca ovdje). Informacije o tome na koju se stavku Plana upravljanja podacima odnosi određena sekcija teksta navedene su u kućicama ove boje ispod naslova sekcije.

Datoteke

Pohranite sirove podatke

Sirovim podacima možemo smatrati tablicu podataka preuzetih s nekog servisa za anketiranje, ili podatke koje pohranjuju različiti programi za provođenje eksperimenata na računalu. U sirove podatke, naravno, spadaju i papirnati upitnici ili bilo koji drugi medij korišten za prikupljanje podataka.

Pohranite sirove podatke i ne dirajte ih. Stavite ih na sigurno mjesto (primjerice snažnom lozinkom zaštićeno računalo ili eksterni medij za pohranu) i, što god radili, nemojte izmijeniti datoteku sa sirovim podacima. Napravite i sigurnosnu kopiju sirovih podataka, te i nju adekvatno pohranite.

Organizirajte datoteke u direktorije

HrZZ Plan upravljanja podacima

Stavka 1.2

Organizacija datoteka vezanih uz projekt u direktorije olakšava snalaženje među datotekama. Točna struktura ovisit će o specifičnostima projekta unutar kojeg su podaci nastali, ali i o preferencijama istraživača. Međutim, točna struktura direktorija nije toliko važna, koliko to da je ona dosljedna unutar istraživačkog projekta, i da je sama po sebi informativna.

Primjerice, unutar pojedinog istraživačkog projekta možete napraviti direktorij podaci u kojem ćete držati datoteke koje sadrže istraživačke podatke. U drugi direktorij, primjerice rukopis možete staviti dokumente vezane uz rukopis koji nastaje na temelju podataka. To mogu biti dokumenti s tekstom, fotografije i slično. Uz takvu organizaciju, bit će vam lakše vratiti se projektu nakon nekog duljeg vremenskog perioda. Osim toga, ako svoje materijale podijelite s drugima, oni će se vjerojatno lakše snaći nego ako im dostavite jedan direktorij s dvadeset datoteka.

Dajte dobra imena datotekama

HrZZ Plan upravljanja podacima

Stavka 1.2

Imena datoteka trebaju biti jasna, smislena, i konzistentna unutar svakog projekta, ali i unutar istraživačkog tima. Dobra je praksa u imenima datoteka izbjegavati razmake i posebne znakove (poput ?!*[]) – različite dijelove imena odvajajte crticom (-) ili podvlakom (_).

Imena datoteka mogu sadržavati nekoliko segmenata koji služe kao metapodaci o sadržaju datoteke. Primjerice, zamislimo da je skupina istraživača provela dva eksperimenta, te da je svaki imao kontrolnu i tretmansku skupinu. Imena datoteka sa sirovim podacima mogla bi biti e01_s01_dat_r_tret.csv, e01_s02_dat_r_kont.csv, e02_s01_dat_r_tret.csv i e02_s02_dat_r_kont.csv. Imena bismo mogli tumačiti ovako:

  • e0X označava radi li se o prvom ili drugom eksperimentu
  • s0X je oznaka sudionika u pojedinom eksperimentu
  • dat označava da se radi o datoteci s podacima
  • r označava sirove podatke
  • tret i kont govore je li sudionik bio u tretmanskoj ili kontrolnoj skupini.

Mogućnosti su, naravno, brojne i ovise o prirodi datoteka unutar konkretnog projekta. Ono što je, u svakom slučaju, važno za snalaženje među datotekama je dokumentacija o tome što koji dio imena predstavlja.

Dokumentacija o datotekama

HrZZ Plan upravljanja podacima

Stavka 1.3

Dobra je praksa dokumentirati strukturu direktorija i ukratko opisati datoteke. To može biti jednostavna tekstualna datoteka (TXT) koja sadrži strukturirani popis direktorija, s kratkim opisom sadržaja svakog od njih, te s informacijama koje omogućavaju tumačenje imena datoteka.

Reference i resursi

Krejčí, J. i Chylikova, J. (2020). Organise & Document. U: CESSDA Training Team, CESSDA Data Management Expert Guide (str. 32–58). CESSDA ERIC. 10.5281/zenodo.3820473. Također dostupno ovdje.

Wilson G., Bryan J., Cranston K., Kitzes J., Nederbragt L., Teal T.K. (2017). Good enough practices in scientific computing. PLoS Computational Biology 13(6): e1005510. 10.1371/journal.pcbi.1005510

Dio sadržaja ovog teksta pokriven je u webinaru u organizaciji CROSSDA-e, čiju snimku možete pronaći ispod:

Vlašiček, D. (2020). Kako organizirati podatke u istraživačkom projektu? Dostupno na: https://www.youtube.com/watch?v=3Mz9IsP8rFw

Kvantitativni podaci

Kvantitativnim podacima smatramo podatke koji najčešće dolaze u matričnom obliku, gdje svaki red predstavlja jednu jedinicu analize, a svaki stupac jednu varijablu. Naravno, podaci ne moraju nužno biti u matričnom obliku da bismo ih smatrali kvantitativnima. Ovakvi podaci često nastaju provođenjem anketa ili eksperimenata.

Strukturiranje podataka

Nazivi varijabli

Nazivi varijabli trebaju biti kratki, ali jasni. Imena varijabli trebaju sadržavati samo brojke, slova (bez dijakritičkih znakova) i podvlaku (eng. underscore; _). Točka je također prihvatljiv simbol u imenima varijabli, ali predlažemo njeno izbjegavanje. Pritom, imena varijabli ne smiju započeti brojkom – što je ponekad slučaj kad se podaci izvoze iz raznih servisa za provođenje anketa.

Primjeri loših imena varijabli:

  • 1. Koliko imate godina?
  • Dob u godinama
  • prosječna plaća
  • neto_plaća(HRK)
  • rezultat, točka 1

Primjeri dobrih imena varijabli:

  • dob
  • DobGodine
  • prosjecnaPlaca
  • neto_placa_hrk
  • rez_t1

Primjeri dobrih imena varijabli prikazuju nekoliko različitih načina na koje možete stilizirati imena. Nije važno koju ćete stilizaciju odabrati, ali je važno da se konzistentno držite svog izbora.

Iako je poželjno da imena varijabli budu što jasnija, imajte na umu da gotovo nijedno ime varijable neće sadržavati sve informacije potrebne za njenu ispravnu interpretaciju. To je pogotovo slučaj u anketnim istraživanjima, u kojima je pitanja od petnaestak riječi teško svesti na nekoliko znakova koji zahvaćaju njegovu srž. U tom slučaju, možete koristiti generičke nazive, poput q01 za prvo pitanje u anketi, q02 za drugo, i tako dalje.

Neovisno o tome kako ćete imenovati varijable, nužno je da postoje metapodaci o podacima, koji pobliže objašnjavaju što koja varijabla predstavlja.

Vrijednosti varijabli

Ako je moguće, izbjegavajte posebne znakove i dijakritičke znakove (č, ć, đ, ž, š) u vrijednostima varijabli. Primjerice, ako bilježite rod ili spol sudionika riječima (umjesto brojčanim kodovima), nemojte pisati muški ili ženski, nego muski ili zenski.

Ako je korištenje posebnih znakova neizbježno (recimo, ako su vam jedinice analize riječi u hrvatskom jeziku, ako je važno točno zabilježiti imena, ako imate odgovore sudionika na otvorena pitanja i slično), vodite računa oko toga koje enkodiranje znakova (eng. character encoding) koristite, te u dokumentaciji budite eksplicitni oko toga koje je enkodiranje korišteno. Preporučujemo da koristite UTF-8 enkodiranje, osim ako imate određeni razlog za koristiti neko drugo (u tom slučaju, pretpostavljamo da znate što radite).

Poželjno je da svaki stupac u tablici, odnosno svaka varijabla, sadrži informaciju o jednom obilježju jedinice analize. Drugim riječima, jedan stupac treba sadržavati vrijednosti jedne varijable, a ne kombinaciju vrijednosti više varijabli. Ovo je vjerojatno manji problem u anketnim istraživanjima, gdje sudionicima postavljamo jedno po jedno pitanje, pa su i izvezeni podaci tako organizirani. U eksperimentalnim istraživanjima, s druge strane, često imamo veću kontrolu nad time kako će vrijednosti varijabli biti zabilježene, pa je, stoga, i vjerojatnije da će se ovaj problem javiti.

Primjerice, ako u nekom eksperimentu imamo kontrolnu i eksperimentalnu skupinu, i zanima nas postoji li razlika između studenata preddiplomskog i diplomskog studija, trebali bismo imati jednu varijablu koja označava razinu studija (poprima vrijednosti {preddiplomski, diplomski}) i jednu koja označava skupinu (poprima vrijednosti {eksperimentalna, kontrolna}). Ne bismo trebali imati jednu varijablu koja bilježi i razinu studija i skupinu, te poprima vrijednosti {preddiplomski_eksperimentalna, preddiplomski_kontrolna, diplomski_eksperimentalna, diplomski_kontrolna}.

Podaci koji nedostaju

Podatke koji nedostaju potrebno je konzistentno bilježiti eksplicitnim oznakama. Pritom je važno razlikovati podatke koji nisu pruženi (sudionik nije odgovorio na pitanje), i druge vrste podataka koji nedostaju (primjerice “nije primjenjivo” ili “ne želim odgovoriti”).

Ne postoji konsenzus oko toga koji je najbolji način obilježavanja podataka koji nedostaju. Konvencije se razlikuju od područja do područja, a mogu ovisiti i o alatima koje istraživači koriste za rad s podacima. Naša preporuka je da odaberete konzistentne oznake koje izlaze van mogućeg raspona vrijednosti varijabli (primjerice -99 ako varijabla može poprimiti samo pozitivne vrijednosti), i da te oznake adekvatno dokumentirate. Naravno, umjesto numeričkih oznaka, možete koristiti i znakovne vrijednosti (primjerice ne zelim odgovoriti).

Transformacije podataka

U ovom kontekstu, transformacijama ćemo smatrati sve izmjene napravljene kako bi se od sirovog skupa podataka napravio skup podataka spreman za analizu. Ove izmjene se mogu odnositi na izmjene samih varijabli (poput uklanjanja varijabli ili dodavanja novih) ili na izmjene vrijednosti varijabli (poput rekodiranja). Skup podataka spreman za analizu zvat ćemo pročišćenim skupom podataka.

Važno je zabilježiti sve korake učinjene kako bi se od sirovih podataka došlo do pročišćenih podataka. Čišćenje podataka uključuje donošenje brojnih subjektivnih odluka koje mogu utjecati na ishode kasnijih analiza. Zbog toga je važno da se učinjeni koraci mogu ponoviti u bilo kojem kasnijem trenutku.

Za čišćenje podataka, najbolje bi bilo koristiti neki programski jezik ili neki drugi alat koji omogućava eksplicitno bilježenje transformacijskih koraka. Pohranjena skripta s kodom za čišćenje podataka omogućava da se postupak čišćenja u potpunosti ponovi u nekom kasnijem trenutku. Čak i bez ponovnog izvršavanja koda, skripta predstavlja bogatu dokumentaciju o tome koje su izmjene rađene.

Preporučujemo da redovito provjeravate ishode transformacija kako biste bili sigurni da učinjene promjene odgovaraju vašim očekivanjima. Na primjer, ako ste obrnuto kodirali neku varijablu, provjerite jesu li stare vrijednosti ispravno prevedene u nove.

Reference i resursi

Broman, K. W., & Woo, K. H. (2018). Data organization in spreadsheets. The American Statistician, 72(1), 2-10. 10.1080/00031305.2017.1375989

Dio sadržaja ovog teksta pokriven je u webinaru u organizaciji CROSSDA-e, čiju snimku možete pronaći ispod:

Vlašiček, D. (2020). Rad s tabličnim podacima. Dostupno na: https://www.youtube.com/watch?v=2m_FHpvtgBU

Priprema dokumentacije

HrZZ Plan upravljanja podacima

Stavka 1.3

Dokumentacija o kvantitativnim podacima

Dokumentacija o podacima nužna je za ispravno tumačenje vrijednosti zabilježenih u istraživanju. Ona može sadržavati informaciju o tome što, točno, predstavljaju vrijednosti određene varijable, koji su opaženi i mogući rasponi vrijednosti, te što koja vrijednost znači.

Točan oblik i sadržaj dokumentacije ovisit će o prirodi podataka, ali i o računalnim alatima koje koristite. Primjerice, ako koristite SPSS, dio dokumentacije o podacima možete pohraniti koristeći oznake varijabli (eng. variable labels) i oznake vrijednosti (eng. value labels). U tom slučaju vodite računa o tome da poštujete ograničenja koja postavljaju SPSS i drugi statistički programi (primjerice, o maksimalnoj duljini oznaka varijabli). Oznake varijabli ne trebaju biti cijela pitanja (onako kako su zapisana u upitniku), nego kratki opisi toga što varijabla predstavlja. Zbog toga je dobro pohraniti i upitnik koji je korišten (ako je to moguće zbog autorskih i srodnih prava), te svako pitanje jasno povezati s varijablama u datoteci s podacima.

Neovisno o tom koji računalni alat koristite za obradu podataka, dokumentaciju o podacima možete pohraniti u zasebnoj datoteci. Važno je da ta datoteka bude strukturirana, a poželjno je i da je format otvoren, odnosno da nije potrebno imati poseban softver da bi se datoteka mogla ispravno otvoriti. Primjerice, dokumentaciju o podacima možete zapisati u strukturiranom tabličnom obliku, te je pohraniti kao CSV (eng. comma separated values) datoteku. CSV datoteke su obične tekstualne datoteke koje se mogu otvoriti koristeći širok raspon računalnih programa (Notepad, LibreOffice Writer ili Calc, Microsoft Office Word ili Excel, i brojni drugi).

Dokumentacija o istraživanju

Za ispravnu interpretaciju podataka dobivenih istraživanjem potrebno je opisati kontekst u kojem se istraživanje odvilo. Taj kontekst može biti širok, i ovisan o nekim karakteristikama istraživanja. Ono što je svakako nužno navesti je broj sudionika te populaciju iz koje dolaze, način prikupljanja podataka (i, ako je primjenjivo, točne verzije računalnih programa ili servisa korištenih za prikupljanje podataka), što je jedinica analize (ljudi, institucije, države?) i vremensko razdoblje u kojem su podaci prikupljani.

Poželjno je navesti i druge informacije, ali koje će to informacije biti ovisi o prirodi istraživanja. Svaki podatak koji može biti važan za interpretaciju rezultata ili njihovo smještanje u određeni trenutak u povijesti može biti dio dokumentacije o istraživanju.