Predlog za izdelavo Slovarja sodobnega slovenskega jezika (Simon Krek, Iztok Kosem, Polona Gantar) - page 13

Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
13
novimi mediji ponuja splet, namreč omogočajo uporabo strukturiranih slovarskih podatkov tudi kot
jezikovnotehnoloških virov in obratno.
1.3
P
RIMERI DOBRE PRAKSE
21
V evropskem prostoru smo v zadnjih letih priča nastanku vrste
hibridnih jezikovnotehnoloških in
slovarskih podatkovnih baz
, ki so prosto dostopne na spletu. Tovrstni spletni slovarji oz.
jezikovnoinformacijski portali zagotavljajo jezikovne informacije za različne profile končnih uporabnikov,
v različnih stopnjah zahtevnosti in različnih načinih vizualizacije. Zagotavljajo pa tudi možnosti
pridobivanja podatkov v surovi obliki za nadaljnje procesiranje, kar je zanimivo predvsem za
računalniško skupnost.
Med primeri dobre prakse, po katerih se je mogoče zgledovati, lahko omenimo: DANTE –
Database of
Analysed Text of English
, Splošni spletni nizozemski slovar:
Algemeen Nederlands Woordenboek
(ANW),
Leksikalno podatkovno bazo za francoščino:
Base lexicale du français
(BFL), in sodobni Poljski spletni
slovar:
Wielki słownik języka polskiego
.
1. 3. 1
DANTE
(D
ATABASE OF
A
NALYSED
T
EXT OF
E
NGL ISH
)
Podatkovna baza DANTE prinaša sistematični opis pomenov, slovničnega in kolokacijskega obnašanja ter
besedilne značilnosti za približno 50.000 najpogostejših angleških besed. Osnovno leksikografsko orodje
pri projektu je bil Sketch Engine, vsaka beseda je bila analizirana v 1,7 milijardnem korpusu v dveh fazah.
Prva faza je zajemala identifikacijo posameznih rab ali pomenov, v drugi fazi pa so za vsak pomen
ugotovljena relevantna jezikovna dejstva. Posamezni pomen predstavlja ključno enoto podatkovne baze
in tako za razliko od številnih slovarjev postavlja v središče semantični in ne sintaktični (besednovrstni)
princip organiziranja podatkov. Pri določanju besednih pomenov so se avtorji osredotočali na
sobesedilo. Na podlagi analize sobesedila so registrirali tipične pomenske in skladenjske lastnosti
pomena, njegovo kolokacijsko obnašanje in besedilnotipske preference, kot so področje rabe, register,
stil ipd. Drugi temeljni izziv, ki ga uresničuje DANTE, je beleženje vseh ugotovljenih dejstev v obliki
formaliziranih kod, ki jih je mogoče računalniško procesirati. V bazi, ki je prosto dostopna na spletu,
22
lahko iščemo po vseh jezikovnih podatkih, ki so v leksikalni bazi strukturirani v obliki 40 različnih
podatkovnih tipov, kot npr. besedna vrsta, inherentne slovnične lastnosti, kot so npr. števnost in
neštevnost pri samostalnikih, glagolske oblike pri glagolih, vezljivostne lastnosti pri glagolih,
samostalnikih in pridevnikih, skladenjski kontekst pri posameznih besednih vrstah in številni tipi
slovničnih, stilnih, področnih in drugih oznak. Posamezne podatkovne tipe je mogoče med seboj tudi
kombinirati.
21
Več o opisanih projektih v razdelku PRIMERI DOBRE PRAKSE v poglavju Bibilografija.
22
DANTE:
<
>
.
I...,3,4,5,6,7,8,9,10,11,12 14,15,16,17,18,19,20,21,22,23,...150
Powered by FlippingBook