Gos - korpus govorjene slovenščine

KAJ JE GOS?

GOS je korpus GOvorjene Slovenščine. Obsega transkripcije okrog 120 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Zapis govora na posnetkih je narejen v dveh različicah, standardizirani in pogovorni, ter obsega več kot milijon besed. Po korpusu lahko iščemo prek spletnega vmesnika na teh spletnih straneh, za vsak izpis iz korpusa pa je mogoče tudi slišati pripadajoči del posnetka. Korpus je nastajal v okviru projekta Sporazumevanaje v slovenskem jeziku.

ZAKAJ SMO ZGRADILI GOS?

Zato ker vemo zelo malo o tem, kako govorimo v vsakdanjem življenju. V slovnicah, slovarjih, šolskih učbenikih slovenščine in pri pouku slovenščine se v glavnem ukvarjamo s tem, kako slovenščino pišemo in kako naj bi jo govorili v njeni standardni različici. Dialektologija na drugi strani ve precej o tem, kakšni so (bili) glasoslovni sestavi, oblikoslovne paradigme in besedje »čistih« narečij, ki jih govorijo stari ljudje in ki danes bliskovito izginjajo. Toda niti predpisane standardizirane slovenščine niti čistega narečja v vsakdanjem življenju ne slišimo pogosto in le redko kdo med nami zna govoriti eno ali drugo. Kakšno slovenščino torej v resnici govorimo? To lahko izvemo le tako, da jo posnamemo v njeni čim bolj avtentični različici, jo zapišemo ter nato raziščemo in poslušamo. Zato smo zgradili GOS.

KOMU JE GOS NAMENJEN?

Seveda vsem tistim, ki želijo raziskovati govorjeno slovenščino, bodisi z jezikoslovnega bodisi s kakega drugega, recimo sociološkega ali jezikovnotehnološkega vidika. Toda krog uporabnikov je širši: GOS-ov spletni vmesnik je uporabniško nadvse prijazen in enostaven, zato da bi ga uporabljali tudi učitelji v šoli pri pouku slovenščine ali v jezikovnih tečajih za tujce, lektorji govora na radiu, televiziji ali v gledališču, tolmači, pisci in drugi, ki se tako ali drugače srečajo z vprašanji, povezanimi z govorjeno slovenščino.

KAKO JE GOS SESTAVLJEN?

Posnetki govora, zajeti v GOS, so zbrani tako, da bi bil korpus čim bolj reprezentativen za današnjo govorjeno slovenščino v najpogostejših vsakdanjih situacijah. Tabela 1 prikazuje, kako je bila zasnovana in kako realizirana vsebina GOS-a.

Tabela 1: Besedilnovrstni kriteriji za zajem gradiv in dejanska pokritost posameznih kategorij v GOS-u. Stanje na dan 6.11.2012.

* Označene kategorije so uravnotežene tudi po demografskih kriterijih (glej tabelo 4).

Poseben podsklop korpusa GOS (10% korpusa) predstavlja šolski diskurz, ki je v tabeli 1 predstavljen pod kategorijami javni izobraževalni, osebni stik. Zasnovan in realiziran je bil tako, kot prikazuje tabela 2.

Tabela 2: Kriteriji in pokritost šolskega diskurza v korpusu GOS. Stanje na dan 6.11.2012.

V korpusu GOS so zajeti predvsem posnetki iz let 2008-2010, kot prikazuje tabela 3.

Tabela 3: Zajem posnetkov za GOS po letih. Stanje na dan 6.11.2012.

Poleg reprezentativnosti situacij je bil pri snemanju gradiv za GOS upoštevan tudi kriterij reprezentativnosti govorcev, zato je v tistem delu, ki zajema posnetke zasebnih pogovorov, zajet ustrezen delež govorcev iz različnih regij, obeh spolov, različnih starosti ter različnih izobrazbenih ravni, kot prikazuje tabela 4.

Tabela 4: Demografski kriteriji za zajem gradiv in dejanska pokritost posameznih kategorij v GOS-u. Stanje na dan 6.11.2012.

Seveda pa se je ob tem treba zavedati, da bi bil za pravo reprezentativnost korpusa potreben veliko večji vzorec, kot je obstoječih 120 ur govora. Pravi reprezentativni korpusi obsegajo po več 100 milijonov besed, GOS le 1 milijon. Zato upamo, da bo v prihodnosti še rasel.

KORPUS GOS KOT BAZA PODATKOV: KAJ VSEBUJE?

posnetke govora
pogovorni zapis govora, tj. zapis po načelu »zapiši, kot slišiš« (primer: tko)
standardizirani zapis govora, tj. zapis po načelu »zapiši, kot pišemo« (isti primer: tako)
standardiziranemu zapisu avtomatsko dodane podatke o osnovni obliki in oblikoslovnih lastnostih besed
podatke o situaciji, kjer je bil narejen posnetek
podatke o govorcu

LASTNIŠTVO IN PRENOS

Lastnik korpusa Gos je Ministrstvo za izobraževanje, znanost, kulturo in šport Republike Slovenije. Pogodba med Ministrstvom in izvajalci projekta določa, da se za prenos baz podatkov na tretje osebe in označevanje avtorskih del uporabi licenca »priznanje avtorstva« + »nekomercialno« + »deljenje pod istimi pogoji«, ki dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, dajati v najem, priobčiti javnosti in predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela ali predelave pod istimi pogoji.

Creative Commons

To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 2.5 Slovenija

S klikom na povezavo lahko na računalnik prenesete:

korpus Gos v formatu XML. Velikost stisnjene datoteke je 13MB
stisnjeno datoteko z Document Type Definition (DTD), W3C schema (XSD) in RelaxNG (RNG), ki definirajo formalno strukturo korpusa Gos v formatu XML

AVTORJI

Korpus Gos kot podatkovna zbirka: Ana Zwitter Vitez, Jana Zemljarič Miklavčič, Simon Krek, Marko Stabej, Tomaž Erjavec
Konkordančnik za korpus Gos (projekt Spletni konkordančnik za nacionalni govorni korpus slovenskega jezika): Darinka Verdonik, Ana Zwitter Vitez, Rok Rejc, Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek

SODELAVCI (po nalogah)

Specifikacije korpusa Gos: Simon Krek, Agnes Pisanski Peterlin, Marko Stabej, Tina Verovnik, Jana Zemljarič Miklavčič, Ana Zwitter Vitez
Snemanje: Ana Zwitter Vitez, Brigita Bec, Mojca Bizjak, Rebeka Dragič, Aja Barbo Gruden, Jernej Golobič, Andreja Gregorič, Pija Kapitanovič, Ana Kočevar, Katja Krapež, Jaruška Majovski, Iztok Mikulan, Alenka Mirkac, Dusán Mukics, Barbara Omahen, Neža Pahovnik, Tomaž Potočnik, Lucija Ramovš, Lucija Rap, Erika M. Roblek, Mateja Strmšek, Ivana Šlaus, Maja Štefančič, Jure Tompa, Andrej Tomše, Slavka Vesenjak, Pija Vrezner
Urejanje posnetkov: Rebeka Dragič
Transkribiranje – pogovorni zapis: Aja Barbo Gruden, Mariša Bizjak, Mojca Bizjak, Jernej Golobič, Ana Gorinšek, Katja Krapež, Jaruška Majovski, Iztok Mikulan, Alenka Mirkac, Barbara Omahen, Neža Pahovnik, Tomaž Potočnik, Erika M. Roblek, Mateja Strmšek, Maja Štefančič, Maja Šučur, Andrej Tomše, Bojana Zevnik
Kontrola transkripcij – pogovorni zapis: Mariša Bizjak, Alenka Mirkac, Tomaž Potočnik, Andrej Tomše
Validacija transkripcij – pogovorni zapis: Ana Zwitter Vitez
Transkribiranje – standardizirani zapis: Ana Zwitter Vitez
Izdelava XML-sheme za tekstovni del korpusa: Tomaž Erjavec

Vodja projekta Spletni konkordančnik za nacionalni govorni korpus slovenskega jezika: Darinka Verdonik
Procesiranje datotek: Amebis, d. o. o., Kamnik, Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru
Izdelava konkordančnika GOS: Rok Rejc, Simon Rigač

Publikacije

Korpus je opisan v:
Verdonik, Darinka, Zwitter Vitez, Ana, 2011: Slovenski govorni korpus Gos. Ljubljana: Trojina, zavod za uporabno slovenistiko.

Ostale publikacije v zvezi s korpusom:

Zemljarič Miklavčič, Jana, Stabej, Marko, Krek, Simon, Zwitter Vitez, Ana, 2009: Kaj in zakaj v referenčni govorni korpus slovenščine. Stabej, Marko (ur.): Obdobja 28: Infrastruktura slovenščine in slovenistike. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 437–442.
Zwitter Vitez, Ana, Zemljarič Miklavčič, Jana, Stabej, Marko, Krek, Simon, 2009: Načela transkribiranja in označevanja posnetkov v referenčnem govornem korpusu slovenščine. Stabej, Marko (ur.): Obdobja 28: Infrastruktura slovenščine in slovenistike. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 437–442.
Zwitter Vitez, Ana, 2010: Kako in zakaj uporabljati govorni korpus slovenskega jezika. Predstavitev na konferenci Korpusi, več kot le statistika, Ljubljana, FDV.
Verdonik, Darinka, Zwitter Vitez, Ana, Romih, Miro, Krek, Simon, 2010: Konkordančnik za govorni korpus GOS. Erjavec, Tomaž, Žganec Gors, Jerneja (ur.): Zbornik Sedme konference Jezikovne tehnologije - IS 2010. Ljubljana: Institut Jožef Stefan. 12-15.
Verdonik, Darinka, 2011: Govorni korpus kot lektorjev priročnik. Krakar Vogel, Boža (ur.): Slavistika v regijah - Maribor: Zbornik Slavističnega društva Slovenije. Ljubljana: Zveza društev Slavistično društvo Slovenije. 171-173.
Zwitter Vitez, Ana, 2011: Korpus Gos in njegova uporaba v raziskovalne, didaktične in ljubiteljske namene. Kranjc, Simona (ur.): Meddisciplinarnost v slovenistiki - Obdobja 30. Ljubljana: Center za slovenščino kot drugi/tuji jezik. 559-564.

PIŠKOTKI

Mnoge spletne strani shranjujejo informacije o vaši dejavnosti na spletni strani. Te informacije se shranijo na vašem računalniku v obliki majhnih datotek, ki jih imenujemo piškotki.

Na tej spletni strani uporabljamo naslednje piškotke:

ClientId: Ta piškotek vam omogoča shranjevanje zgodovine vaših iskanj. Ob prvem iskanju vam spletna stran dodeli enoličen identifikator (naključni niz znakov in številk). Glede na vaš identifikator spletna stran shranjuje in prikazuje vaša pretekla iskanja. V kolikor piškotkov ne sprejmete se vaša pretekla iskanja ne bodo shranjevala. Podatke o vaših preteklih iskanjih ne posredujemo tretjim osebam. Ta piškotek je trajen.
InterfaceCulture: Sprememba jezika spletne strani zahteva uporabo piškotkov. V kolikor piškotkov ne boste sprejeli si bo stran vaš izbrani jezika zapomnila do konca seje (dokler ne zaprete brskalnika). V kolikor boste piškotke sprejeli si bo stran vaš jezik zapomnila trajno.
_utma, _utmb, _utmc, utmz: To so piškotki storitve Google Analytics. Te piškotke uporabljamo za anonimno zbiranje podatkov o gibanju na spletnih straneh brez prepoznavanja posameznih obiskovalcev. Piškotek "_utma" je trajen piškotek, piškotek "_utmb" je piškotek, ki mu veljavnost poteče konec tekočega dne, piškotek "_utmc" je piškotek, ki mu veljavnost poteče ob izhodu iz vašega brskalnika, piškotek "_utmz" pa je veljaven 6 mesecev.
cc_cookie_accept, cc_cookie_decline: To sta piškotka, ki si zapomneta ali ste piškotke sprejeli, ali ne. Piškotka sta veljavna 1 leto.

Upravljanje s piškotki

Če želite omogočiti piškotke potem v obvestilu na vrhu strani kliknite možnost "SPREJMEM PIŠKOTKE". Če ne želite omogočiti piškotkov potem kliknite možnost "NE SPREJMEM PIŠKOTKOV". Če obvestila ne vidite ali pa želite spremeniti svojo odločitev potem kliknite tukaj. Navodila za izključitev storitve Google Analytics najdete na spletni strani http://tools.google.com/dlpage/gaoptout.

Datoteke

Načela transkribiranja in označevanja posnetkov v referenčnem govornem korpusu slovenščine
Prenesi datoteko (178 KB)
Splošne specifikacije zbiranja gradiva
Prenesi datoteko (510 KB)
Navodila za standardizacijo zapisa govora
Prenesi datoteko (181 KB)
Javna navodila za transkribiranje pogovorov
Prenesi datoteko (163 KB)
Kaj in zakaj v referenčni govorni korpus slovenščine
Prenesi datoteko (219 KB)

O korpusu