Predlog za izdelavo Slovarja sodobnega slovenskega jezika (Simon Krek, Iztok Kosem, Polona Gantar) - page 61

Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
61
3
L
EKSIKALNA BAZA ZA SLOVENŠČINO KOT VIR PODATKOV ZA
S
LOVAR
SODOBNEGA SLOVENSKEGA JEZIKA
3.1 M
OTIV IN OZADJE
Z namenom zapolniti vrzel na področju sodobnega slovenskega leksikalno-gramatičnega opisa in
digitalnih skladenjsko-semantičnih virov je bila ob upoštevanju potreb različnih končnih uporabnikov
jezikovnih virov in opisov pri projektu Sporazumevanje v slovenskem jeziku (SSJ) med letoma 2008 in
2012 zasnovana Leksikalna kot baza za slovenščino. Na obsegu 2.500 gesel so bili za vse segmente
določeni tipi leksikalnogramatičnih podatkov, preverjeni so bili leksikografski postopki ter postopki
avtomatičnega pridobivanja in urejanja podatkov, ki bi predstavljali optimalen vir za izdelavo Sodobnega
slovarja slovenskega jezika in hkrati zadovoljevali jezikovnotehnološke potrebe po procesljivih leksikalnih
podatkih.
3.2
N
AMEN IN UPORABNIK
Leksikalna baza je bila že v izhodišču zasnovana za dva tipa uporabnikov: kot baza slovarskih podatkov,
namenjenih človeškemu uporabniku, in kot baza, v kateri so podatki strukturirani in kodirani na način, ki
omogoča nadaljnje računalniško procesiranje.
Z vidika
človeškega
oz.
splošnega uporabnika
je v leksikalno bazo zajeto jedrno besedišče sodobne
slovenščine (tj. v obsegu zadnjih 20 let), za bolj specializirane uporabnike, npr. šolarje in učence
slovenščine kot tujega jezika, pa je poudarek na besedišču osnovno- in srednješolskih učbenikov. Za
potrebe sodobnega slovarja je v nadaljevanju v leksikalno bazo smiselno zajeti in analizirati besedišče, za
katerega se ugotovi hitrejše spreminjanje, npr. na prehodu iz terminološke v splošno rabo, in besedišče,
po katerem se v jezikovni skupnosti ugotavlja večje »povpraševanje«, npr. novo nastale besede, pomeni
in prevzete besede, ki se v jeziku šele uveljavljajo.
Sodobne leksikografske prakse in digitalno okolje narekujeta izdelavo sodobnih slovarskih priročnikov na
podlagi baz, kjer so vsi v njej struktirirani podatki na voljo tudi
jezikovnotehnološki skupnosti
. Leksikalna
baza je zato izdelana tudi kot računalniško berljiv jezikovni vir, v katerem je vsak besedni pomen
identifikacijsko povezan z vrsto specifičnih leksikalnih in skladenjskih podatkov v svoji besedilni okolici.
Tako strukturirane podatke je mogoče povezati z drugimi bazami podatkov in jih uporabiti pri
avtomatičnem luščenju informacij iz besedil, oblikovanju sistemov odgovorov na vprašanja (npr. pri
izdelavi jezikovnih aplikacij za starostnike ali hendikepirane), v avtomatskih prevajalnih sistemih in
aplikacijah, ki temeljijo na bazah procesljivih jezikovnih podatkov. Uporabiti jih je mogoče za avtomatsko
označevanje slovenskih besedil na oblikoskladenjski, skladenjski in pomenski ravni ter za izboljšanje
orodij, kot je npr. skladenjski razčlenjevalnik in označevalnik za slovenščino. Taka zasnova omogoča tudi
avtomatično pridobivanje kolokacijskih podatkov iz elektronskih besedilnih korpusov in z njimi
povezanih korpusnih zgledov, kar izredno pohitri postopek izdelave slovarja in omogoča izdelavo v
različnih redakcijskih fazah, ki so uporabnikom na voljo na spletu.
I...,51,52,53,54,55,56,57,58,59,60 62,63,64,65,66,67,68,69,70,71,...150
Powered by FlippingBook