Predlog za izdelavo Slovarja sodobnega slovenskega jezika (Simon Krek, Iztok Kosem, Polona Gantar) - page 24

Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
24
relevantnimi gesli (npr.
osnovna šola
pod
šola
) je namreč smiselno le v slovarjih, kjer so gesla razvrščena
po abecednem vrstnem redu in ni drugih iskalnih mehanizmov. Funkcijske in slovnične besede, kot so
vezniki, predlogi itd., bodo obravnavane drugače od ostalih gesel, poudarek bo na njihovi vlogi v
besedilu oz. slovničnem opisu.
Po obsegu bo torej predlagani slovar primerljiv z obstoječim slovarjem slovenskega jezika, v katerem pa
je že zdaj precejšen del besedišča zanimiv zgolj s historičnega vidika.
33
V primeru, da bi bilo mogoče
povezati bazo SSKJ in novi slovar, bi bilo ob uspešni integraciji (ki sicer ni del predlaganega projekta)
število gesel lahko še bistveno večje. Na ravni obsega – in v povezavi z načrtom dela – so bolj ključne
soodvisne novosti, ki odražajo sodobne leksikografske trende, in sicer:
a)
določitev prioritetnega zaporedja priprave gesel
b)
detektiranje pomenskih in leksikalnih sprememb besedišča in
c)
sprotno ažuriranje slovarskih gesel v posameznih fazah.
Izhodišče za prioritetno obravnavo besedišča predstavlja frekvenčna lista korpusa Gigafida, v kombinaciji
z natančno in razmeroma kompleksno statistično obravnavo podatkov iz korpusa Kres, Gos in drugih baz,
ki so na voljo (Pravopis, Sloleks, Slogovni priročnik itd.). Kompleksna obravnava obsega primerjalne
statistike glede na pojavljanje iztočnic po žanrih, obdobjih, prisotnost/odsotnost v različnih bazah,
pojavljanje v prioritetnih podkorpusih, kot je denimo učbeniški podkorpus, in podobno. Izhodiščni
geslovnik bo obsegal približno četrtino več gesel od predvidenega končnega števila iztočnic. Prvi spisek,
izdelan v šestih mesecih po začetku projekta, bo obsegal okrog 100.000 korpusnih lem, kar po izračunih
generira približno 130.000 slovarskih iztočnic.
Kot kaže leksikografska praksa, je neizogibno, in tudi potrebno, da se geslovnik v teku izvajanja projekta
prilagaja, ker je treba sproti spremljati nastajanje novih leksemov oz. dodajati pomene obstoječim. Zato
je treba v okviru projekta predvideti tako redno vzdrževanje korpusa kot tudi vzpostaviti mehanizem za
avtomatično opozarjanje na potencialne nove iztočnice ali pomene (s pomočjo kontekstualnih
podatkov).
2.2
V
SEBINA
Pri slovarju je treba ločiti med več vrstami vsebin: (1) vsebino slovarskih gesel v leksikalni oz. slovarski
bazi kot podatkovni zbirki, ki je obsežnejša in vsebuje tudi podatke, ki niso namenjeni človeškemu
uporabniku, zlasti npr. podatke za jezikovnotehnološke namene,
34
(2) vsebino slovarskih gesel, do katere
dostopa uporabnik slovarja prek spleta in so torej ustrezno vizualizirana, in (3) vsebine, ki so
vizualizirane, vendar niso del slovarske baze, temveč so organizirane kot samostojne baze, s slovarsko
bazo pa so povezane preko identifikatorjev na ustreznih mestih. Vsebine so med seboj povezane, saj so
33
Približno desetina gesel/pomenov je v SSKJ označenih s kvalifikatorji, ki signalizirajo odsotnost realne rabe že v času izhajanja
slovarja (1970-1991), npr. 1819 označenih s "starinsko" ali "zastarelo" (docirati, dojmiti, fronki, golomraz, kamižola, pojata,
pozoj itd.), 1596 z "redko" (bandera, barusa, čestitkar, hučati, krcelj, polšina, prižmuriti itd.), 5008 s "knjižno neobčevalno"
(agnoscirati, akribija, bedeker, bleskot, cisterca, defravdant, donebnik, gladež, lornjon, pasjica, prednočje itd.), če omenimo
samo nekatere oznake, ki opozarjajo na zastarelost ali redko rabo besed.
34
O tem glej Poglavje 3.
I...,14,15,16,17,18,19,20,21,22,23 25,26,27,28,29,30,31,32,33,34,...150
Powered by FlippingBook