Skip to main content

Modul 3: Podatki in pristranskost

Site: OpenLearn Create
Course: Zaupanja vredna in demokratična umetna inteligenca - osnove
Book: Modul 3: Podatki in pristranskost
Printed by: Guest user
Date: Sunday, 15 February 2026, 9:38 AM

Description

Vabljeni v modul "Podatki in pristranskost". Raziskali bomo ključno medsebojno povezavo med podatki in pristranskostjo ter osvetlili, kako lahko podatki, ki jih zbiramo, nehote vnesejo pristranskost v različne procese. Ker podatki vse bolj oblikujejo odločevalske procese, je nujno razumeti nianse pristranskosti v podatkovnih zbirkah. Pridružite se nam pri razkrivanju zapletenosti tega medsebojnega vplivanja, preučevanju primerov iz resničnega sveta in strategij za ublažitev pristranskosti, kar zagotavlja natančnejšo in pravičnejšo uporabo podatkov v različnih aplikacijah.

V Modulu 3 bomo obravnavali naslednje lekcije:

Lekcija 3.1: Predsodki pri zbiranju podatkov

Lekcija 3.2: Metode vzorčenja podatkov

Lekcija 3.3: Etično pridobivanje podatkov

Lekcija 3.4: Predobdelava podatkov in zmanjševanje pristranskosti

Lekcija 3.5: Študije primerov pristranskosti v podatkih iz resničnega sveta

LEKCIJA 3.1: PREDSODKI PRI ZBIRANJU PODATKOV

V lekciji 3.1 se bomo poglobili v osnove pristranskosti, ki lahko pride pri zbiranju podatkov. Ključnega pomena je razumevanje, da se lahko pristranskost nenamerno vnese med postopkom zbiranja podatkov. Raziskali bomo, kako lahko dejavniki, kot so metode vzorčenja, viri podatkov in kontekst zbiranja, vplivajo na prisotnost pristranskosti. Z razumevanjem teh temeljnih vidikov, vas želimo opremiti z znanjem, ki je potrebno za prepoznavanje in odpravljanje pristranskosti pri viru, kar bo prispevalo k bolj zanesljivim in nepristranskim zbirkam podatkov.

Predsodki pri zbiranju podatkov se nanašajo na sistematične napake ali netočnosti, ki se pojavijo med postopkom zbiranja in beleženja podatkov. Te napake so lahko posledica različnih virov in lahko privedejo do izkrivljenega ali nereprezentativnega nabora podatkov. Napake pri zbiranju podatkov lahko bistveno vplivajo na zanesljivost in veljavnost pridobljenih informacij, kar vpliva na nadaljnje analize, odločitve in rezultate. Pri zbiranju podatkov lahko do pristranskosti pride na različne načine:

  • Pristranskost pri vzorčenju: Pojavi se, kadar izbran vzorec ni reprezentativen za celotno populacijo. Izključuje lahko določene skupine ali pretirano zastopa druge, kar vodi do izkrivljenega pogleda na celotno populacijo.  
  • Pristranskost pri izbiri: Nastane, kadar merila, uporabljena za izbiro udeležencev ali podatkovnih točk, dajejo prednost določeni skupini, zaradi česar vzorec ni naključen in je lahko nereprezentativen.  
  • Pristranskost pri merjenju: Pojavi se, kadar so orodja ali metode, uporabljene za zbiranje podatkov, pomanjkljive ali sistematično dajejo prednost določenim rezultatom. To lahko vključuje slabo oblikovana anketna vprašanja ali netočne merilne instrumente. 
  • Predsodek opazovalca: Pri tem gre za posledico osebnih prepričanj, pričakovanj ali vnaprejšnjih predstav posameznikov, ki zbirajo podatke. To lahko vpliva na način zapisovanja podatkov in vodi do nenamernega izkrivljanja. 
  • Kulturna ali kontekstualna pristranskost: Nastane zaradi kulturnih ali kontekstualnih dejavnikov, prisotnih med zbiranjem podatkov. Različna kulturna okolja ali kontekstualni elementi lahko vplivajo na odzive ali razlage. 
Prepoznavanje in obravnavanje pristranskosti pri zbiranju podatkov je ključnega pomena za zagotavljanje celovitosti zbranih podatkov in preprečevanje nadaljnjih negativnih učinkov na analize in postopke odločanja. Strategije za zmanjševanje pristranskosti vključujejo uporabo raznolikih in reprezentativnih vzorcev, uporabo standardiziranih merilnih orodij, zagotavljanje jasnih navodil zbiralcem podatkov in uporabo etičnih vidikov med postopkom zbiranja podatkov.

LEKCIJA 3.2: METODE VZORČENJA PODATKOV 

Lekcija 3.2 se osredotoča na metode vzorčenja podatkov, ki so ključni vidik zmanjševanja pristranskosti v podatkovnih zbirkah. Raziskali bomo različne tehnike vzorčenja in razumeli, kako lahko izbira metode vpliva na zastopanost celotne populacije. Z naključnim vzorčenjem, stratificiranim vzorčenjem ali drugimi pristopi želimo zagotoviti vpogled v izbiro metod, ki prispevajo k bolj vključujočim in nepristranskim podatkovnim zbirkam. 

Metode vzorčenja podatkov vključujejo izbiro podskupine podatkov iz večjega nabora podatkov za analizo. Cilj vzorčenja je na podlagi manjšega, lažje obvladljivega vzorca oblikovati zaključke o celotni populaciji. Obstajajo različne metode vzorčenja podatkov, vsaka pa ima svoje prednosti in primere uporabe. V nadaljevanju je predstavljenih nekaj metod vzorčenja podatkov, ki so pogosto uporabljene: 

Naključno vzorčenje [Random Sampling]
Opis: Pri naključnem vzorčenju ima vsak posameznik ali podatkovna točka enako možnost, da bo izbran. Zagotavlja nepristransko predstavitev populacije.
Primer uporabe: Kadar je populacija homogena in je vsak član enako pomemben.

Stratificirano vzorčenje [Stratified Sampling]
Opis: Pri stratificiranem vzorčenju se populacija razdeli na podskupine ali stratume, nato pa se iz vsakega stratuma vzamejo naključni vzorci. S tem se zagotovi zastopanost vsake podskupine.
Primer uporabe: Kadar ima populacija različne podskupine in je pomembno zagotoviti sorazmerno zastopanost vsake od njih.

Sistematično vzorčenje [Systematic Sampling]

Opis: Sistematično vzorčenje vključuje izbiro vsakega k-tega elementa s seznama po naključnem začetku. Vrednost k se določi tako, da se velikost populacije deli z želeno velikostjo vzorca.
Primer uporabe: Kadar obstaja strukturiran ali urejen seznam populacije in je sistematični pristop izvedljiv.

Vzorčenje v grozdih [Cluster Sampling]
Opis: Pri vzorčenju v grozdih, se populacija razdeli v skupine/grozde in nato se naključno izberejo grozdi/skupine. V vzorec so vključeni vsi člani znotraj izbranih grozdov.
Primer uporabe: Kadar je vzorčenje posameznih elementov nepraktično in je grozdenje naraven način združevanja članov v skupine.

Priročno vzorčenje [Convenience Sampling]

Opis: Priročno vzorčenje vključuje izbiro najlažjih ali najprimernejših članov populacije, ki jih je treba vključiti v vzorec. To je neverjetnostna metoda.
Primer uporabe: Kadar so čas in viri omejeni ter je potreben hiter vzorec.

Vzorčenje po kvotah [Quota Sampling]
Opis: Vzorčenje po kvotah vključuje določitev posebnih kvot za določene značilnosti (npr. starost, spol) in nato nenaključno izbiro posameznikov, ki izpolnjujejo te kvote.
Primer uporabe: Kadar so določene značilnosti ključne in želi raziskovalec zagotoviti zastopanost na podlagi teh značilnosti.

Ciljno vzorčenje [Purposive Sampling]
Opis: Ciljno vzorčenje vključuje namerno izbiro posameznikov, ki izpolnjujejo posebna merila, pomembna za raziskovalno vprašanje.
Primer uporabe: Kadar raziskovalci iščejo posameznike s posebnimi značilnostmi ali izkušnjami.

Izbira ustrezne metode vzorčenja je odvisna od ciljev raziskave, od populacije, razpoložljivih virov in želene stopnje natančnosti. Vsaka metoda ima svoje prednosti in omejitve, raziskovalci pa morajo skrbno razmisliti o posledicah svoje izbire za veljavnost in posplošljivost svojih ugotovitev.

LEKCIJA 3.3: ETIČNO PRIDOBIVANJE PODATKOV

V lekciji 3.3 se bomo osredotočili na etično pridobivanje podatkov. Ker se zavedamo, da lahko izvor podatkov pomembno vpliva na pristranskost, raziskujemo načela za etično pridobivanje podatkov. Obravnavali bomo vidike, kot sta privolitev in preglednost.

Etično pridobivanje podatkov vključuje odgovorno in pregledno pridobivanje podatkov, ki zagotavlja, da se pri zbiranju podatkov upoštevajo etična načela ter pravice in zasebnost posameznikov. Ta pristop priznava morebitni vpliv zbiranja podatkov na posameznike in skupnosti ter skuša zmanjšati morebitne negativne posledice, hkrati pa spodbuja pravičnost, preglednost in odgovornost. V nadaljevanju so predstavljeni ključni vidiki etičnega pridobivanja podatkov:

Obveščeno soglasje [Informed Consent]
Opis: Pridobitev izrecnega in informiranega soglasja posameznikov pred zbiranjem njihovih podatkov. Posamezniki morajo biti seznanjeni z namenom zbiranja podatkov, načinom uporabe njihovih podatkov in morebitnimi posledicami.
Pomembnost: Spoštuje avtonomijo posameznikov in zagotavlja, da so seznanjeni z uporabo svojih podatkov in se z njo strinjajo.

Varstvo zasebnosti [Privacy Protection]
Opis: Izvajanje ukrepov za zaščito zasebnosti posameznikov med zbiranjem, shranjevanjem in obdelavo podatkov. To vključuje anonimiziranje podatkov [anonymizing] ali odpravo identitete [de-identifying] v podatkih, da se prepreči identifikacija določenih posameznikov.
Pomembnost: Varovanje zasebnosti posameznikov in preprečevanje nepooblaščenega dostopa do občutljivih informacij.

Transparency
Opis: Preglednost glede praks zbiranja podatkov, vključno z namenom zbiranja podatkov, uporabljenimi metodami in vključenimi subjekti. Ta preglednost krepi zaupanje posameznikov, katerih podatki se zbirajo.
Pomembnost: Pospeši zaupanje in odgovornost ter posameznikom omogoči, da se o svojem sodelovanju odločajo na podlagi informacij.

Pravične in vključujoče prakse [Fair and Inclusive Practices]
Opis: Zagotavljanje, da so prakse zbiranja podatkov poštene in vključujoče ter se izogibajo diskriminaciji ali pristranskosti pri izbiri posameznikov ali skupin. Prizadevanje za zastopanost različnih demografskih skupin.
Pomembnost: Spodbuja pravičnost in preprečuje marginalizacijo ali izključevanje določenih skupin.

Varnost podatkov [Data Security]
Opis: V skladu z načelom varnosti podatkov je treba zagotoviti, da se podatki ne bodo razkrivali. Izvajanje zanesljivih varnostnih ukrepov za zaščito podatkov pred nepooblaščenim dostopom, zlorabami ali kibernetskimi grožnjami. To vključuje šifriranje (enkripcijo), nadzor dostopa in redne varnostne revizije.
Pomembnost: Varovanje pred kršitvami podatkov ter zagotavljanje integritete in zaupnosti zbranih informacij.

Zmanjšanje škode [Minimization of Harm]
Opis: Sprejemanje ukrepov za zmanjšanje morebitne škode posameznikom, ki bi lahko nastala pri zbiranju podatkov. To vključuje izogibanje nepotrebnim posegom, zagotavljanje točnosti podatkov in zmanjšanje vpliva na življenje udeležencev.
Pomembnost: Izkazuje zavezanost dobrobitu posameznikov in skupnosti, vključenih v zbiranje podatkov.

Skladnost s predpisi [Compliance with Regulations]
Opis: Upoštevanje veljavnih predpisov o varstvu podatkov in zasebnosti, kot so GDPR (Splošna uredba o varstvu podatkov) ali drugi nacionalni zakoni. Skladnost zagotavlja zakonito in etično ravnanje s podatki.
Pomembnost: Izogibanje pravnim posledicam in zagotavljanje etičnega ravnanja v skladu z regulativnimi standardi.

Etično pridobivanje podatkov je bistveno za ohranjanje zaupanja javnosti, spoštovanje pravic posameznikov in spodbujanje odgovornih praks v delu s podatki. Raziskovalci, organizacije in zbiralci podatkov morajo v celotnem procesu pridobivanja podatkov dati prednost etičnim vidikom, da bi prispevali k pozitivnemu in etičnemu podatkovnemu ekosistemu.

LEKCIJA 3.4: PREDOBDELAVA PODATKOV IN ZMANJŠEVANJE PRISTRANSKOSTI

Dobrodošli v lekciji 3.4, kjer se osredotočamo na predhodno obdelavo podatkov in zmanjševanje pristranskosti. V tej lekciji raziskujemo tehnike za učinkovito predobdelavo podatkov, ki zmanjšujejo pristranskost, vneseno med zbiranjem in vzorčenjem. Razumevanje, kako očistiti in pripraviti podatke, je bistveno za povečanje poštenosti in zanesljivosti modelov UI. Šli bomo skozi ključne korake predhodne obdelave podatkov v prizadevanju za zmanjšanje pristranskosti. 

Predobdelava podatkov in zmanjšanje pristranskosti sta ključna koraka pri pripravi in izboljšanju podatkov, ki se uporabljajo v aplikacijah UI. Cilj teh postopkov je izboljšati kakovost, zanesljivost in pravičnost podatkov ter s tem izboljšati delovanje modelov UI. 

Predobdelava podatkov vključuje čiščenje in preoblikovanje neobdelanih podatkov v obliko, primerno za analizo ali usposabljanje modelov strojnega učenja. Ta korak je bistven za odpravo težav, kot so manjkajoče vrednosti, odstopanja in nedoslednosti v podatkih. V okviru zmanjševanja pristranskosti predobdelava podatkov vključuje tehnike za ugotavljanje in zmanjševanje pristranskosti, vnesenih med zbiranjem in vzorčenjem podatkov. Običajne metode vključujejo standardizacijo podatkov, obdelavo manjkajočih vrednosti in zagotavljanje uravnotežene zastopanosti različnih skupin, da bi se izognili izkrivljenim rezultatom. 

Zmanjševanje pristranskosti se posebej osredotoča na možno pristranskost prisotno v podatkih, da se zagotovijo pošteni in nepristranski rezultati UI. Ta postopek vključuje ugotavljanje in odpravljanje neskladij pri obravnavi različnih skupin v podatkovnem nizu. Tehnike za zmanjševanje pristranskosti lahko vključujejo metode ponovnega vzorčenja, prilagajanje uteži ali uvedbo algoritmov, namenjenih zmanjševanju neenakih učinkov. Cilj je ustvariti modele UI, ki zagotavljajo pravične in nepristranske napovedi ali odločitve za različne demografske skupine. 

Če povzamemo, sta predobdelava podatkov in zmanjševanje pristranskosti sestavna dela etičnega razvoja UI. S sistematičnim čiščenjem, preoblikovanjem in odpravljanjem pristranskosti v podatkih želijo razvijalci povečati pravičnost in zanesljivost sistemov UI ter tako spodbujati pravilne in pravične rezultate preko različnih demografskih skupin.

LEKCIJA 3.5: ŠTUDIJE PRIMEROV PRISTRANSKOSTI V PODATKIH IZ RESNIČNEGA SVETA

Lekcija 3.5 nas pripelje do študij primerov o pristranskosti v podatkih iz resničnega sveta. V tej lekciji bomo preučili konkretne primere pristranskosti podatkov, ki vplivajo na aplikacije UI na različnih področjih. S poglobitvijo v te študije primerov pridobimo dragocen vpogled v resnične izzive, s katerimi se soočamo, in rešitve, ki jih izvajamo za odpravljanje pristranskosti v različnih scenarijih. Pridružite se nam pri analizi in učenju iz resničnih izkušenj, da bi bolje razumeli kompleksnost zmanjševanja pristranskosti v sistemih UI. Več študij primerov pristranskosti podatkov iz resničnega sveta zagotavlja dragocen vpogled v vpliv pristranskosti v aplikacijah UI. Ti primeri poudarjajo, kako pomembno je obravnavati pristranskost, da bi zagotovili poštene in pravične rezultate.


Predsodki pri prepoznavanju obraza
Študija primera: Spolna in rasna pristranskost v sistemih za prepoznavanje obrazov
Pregled: Pri sistemih za prepoznavanje obrazov je bila ugotovljena pristranskost glede na spol in raso, pri čemer so stopnje napak višje pri nekaterih demografskih skupinah, zlasti pri ženskah in ljudeh s temnejšo poltjo. Ta pristranskost lahko privede do netočnih in nepravičnih rezultatov, zlasti v aplikacijah nadzora in kazenskega pregona.

Razlike pri ocenjevanju kreditne sposobnosti
Študija primera: Predsodki v algoritmih kreditnega točkovanja
Pregled: Algoritmi za kreditno točkovanje so se soočili s pregledom zaradi pristranskosti, ki nesorazmerno vpliva na določene skupine. Študije so pokazale, da lahko ti algoritmi posameznikom iz marginaliziranih skupnosti prinesejo nižje kreditne ocene, kar vpliva na njihov dostop do finančnih priložnosti.

Predsodki v kazenskem pravosodju

Študija primera: Prediktivna policijska dejavnost in rasna pristranskost
Pregled: Prediktivni policijski algoritmi so bili kritizirani, ker utrjujejo rasno pristranskost pri kazenskem pregonu. Ti sistemi, ki so usposobljeni na podlagi pristranskih preteklih podatkov o kaznivih dejanjih, lahko povzročijo pretirano policijsko nadzorstvo v določenih skupnostih in tako okrepijo obstoječe razlike v sistemu kazenskega pravosodja.

Razlike v zdravstvenem varstvu
Študija primera: Predsodki v algoritmih zdravstvenega varstva
Pregled: Algoritmi zdravstvenega varstva, kot so tisti, ki se uporabljajo za napovedovanje izidov zdravljenja ali priporočil za zdravljenje, lahko odražajo pristranskost preteklih podatkov o zdravstvenem varstvu. Posledica te pristranskosti so lahko neenaki izidi zdravstvenega varstva, saj so nekatere demografske skupine deležne neoptimalne oskrbe.

Algoritmi za zaposlovanje
Študija primera: Spolna pristranskost v algoritmih za zaposlovanje
Pregled: Pri algoritmih, ki se uporabljajo v postopkih zaposlovanja, je bilo ugotovljeno, da so pristranski glede na spol, saj dajejo prednost moškim kandidatom pred enako ali bolj usposobljenimi ženskimi kandidatkami. Ta pristranskost odraža in ohranja razlike med spoloma v delovni sili, ki jih ne želimo.

Te študije primerov ponujajo oprijemljive primere, kako se lahko pristranskost kaže v sistemih UI. Pokažejo tudim, kako pomembno je obravnavati pristranskosti, se na njih učiti in oblikovati pravične in vključujoče tehnologije.

Dobro opravljeno! Svoje razumevanje predsodkov v umetni inteligenci lahko preverite tako, da rešite praktični del (čeprav to ni obvezno).