Predlog za izdelavo Slovarja sodobnega slovenskega jezika (Simon Krek, Iztok Kosem, Polona Gantar) - page 54

Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
54
1.
R
DEČA FAZA
AVTOMATSKO IZDELANO GESLO
V prvi t. i. avtomatski – rdeči fazi izdelave slovarskega gesla so za celotno besedišče, za katerega
predvidevamo slovarski opis v spletnem slovarju, tj. za 100.000 korpusnih lem, ki jih določimo glede na
prag pogostosti v korpusu Gigafida in glede na predvidene parametre, določene v Kazalniku 2 (gl.
poglavje 6), avtomatsko izločeni naslednji podatki:
iztočnica v osnovni obliki, besedna vrsta, podatek o
pogostosti v korpusu, določena slovnična opozorila, ki se v slovarskem geslu generirajo kot oznake, npr.
pogosto zanikano
,
pogosto v 3. os. ednine
,
pogosto z lastnim imenom
ipd., poleg tega tudi slovnične
relacije, ki se v geslu prepišejo v vzorce, ter pripadajoče
kolokacije in njihovi zgledi. Postopek
avtomatizacije je bil za slovenščino že preizkušen pri izdelavi Leksikalne baze (Kosem idr. 2012), kjer smo
s pomočjo v ta namen izdelane slovnice besednih skic, ki deluje v orodju Sketch Engine, s pomočjo
posebej prilagojene API skripte, ki vsebuje opise vseh relevantnih slovničnih relacij za luščenje kolokacij,
in s pomočjo t. i. GDEX konfiguracije, ki opredeli lastnosti dobrih zgledov, iz korpusa Gigafida izluščili
zgoraj navedene podatke in jih avtomatsko prenesli v slovarsko bazo, kjer so bili pripravljeni za nadaljnjo
obdelavo.
40
V prvih šestih mesecih, ko poteka postavitev računalniške infrastrukture, nameravamo
izkoristiti tudi uporabo funkcije gručenja (
clustering
) kolokacij na podlagi informacij iz tezavra v orodju
Sketch Engine ter implementirati funkcijo povezav na večbesedne leksikalne enote (
MW links
), kar bo
omogočilo avtomatično luščenje tudi t. i. razširjenih kolokacij tipa:
[delovno] mesto → [prosto, novo]
delovno mesto
neposredno v slovarsko bazo in prek nje v spletni slovar.
Poleg avtomatsko izluščenih podatkov iz korpusa, ki so prek slovarske baze preneseni v spletni slovar, so
v prvi fazi iztočnici pripisani tudi drugi podatki, ki jih je mogoče avtomatsko pridobiti iz obstoječih baz
podatkov. Sem sodijo podatki o izgovoru (če so na voljo, sicer jih dopolnimo v modri fazi), statistični
podatki, ki jih pridobimo s pomočjo aplikacij v orodju Sketch Engine, podatki o besednih oblikah iz
leksikona besednih oblik Sloleks, sinonimih, ki jih pridobimo iz baze SloWNet, starinskih oblikah iz
Slovarja starejšega slovenskega knjižnega jezika in referenčnega korpusa starejše slovenščine, podatki o
različnih govornih variantah, značilnih za slovenske pokrajine, ki se zgenerirajo na podlagi podatkov v
korpusu govorjene slovenščine Gos, ter normativni podatki, ki so vsebovani v Slogovnem priročniku. Vsi
podatki, ki so na voljo v prvi fazi geselske izdelave, so prikazani tudi v obliki nevronske mreže v zavihku
Vizualizacija
.
40
Za izdelavo spletnega slovarja bomo postopek nekoliko prilagodili, v nadgradnjo sodi predvsem prilagoditev sheme XML vrsti
podatkov v slovarski bazi in kasneje slovarju, avtomatsko odstranjevanje kolokatorjev, ki ponudijo same enake zglede in
postavitev leme in/ali kolokatorja pri izpisu v slovarsko bazo v ustrezen sklon, spol in število.
I...,44,45,46,47,48,49,50,51,52,53 55,56,57,58,59,60,61,62,63,64,...150
Powered by FlippingBook