Slovenščina pridobila vrsto novih jezikovno tehnoloških orodij

4. Oktober 2013 - 11:38

Slovenščina je v okviru večletnega projekta Sporazumevanje v slovenskem jeziku pridobila vrsto novih jezikovno tehnoloških orodij. Slednja so potrebna za računalniško obdelavo digitalnih vsebin v slovenskem jeziku in posledično za storitve, kot sta strojno razpoznavanje govora in pomensko interpretiranje besedil.

"To je največji jezikovno tehnološki projekt, ki smo ga kadarkoli imeli v Sloveniji," je na zaključni konferenci projekta v Ljubljani povedal vodja projekta Miro Romih iz kamniškega podjetja Amebis, ki se ukvarja z jezikovnimi tehnologijami. V okviru projekta so, kot omenjeno, razvili vrsto temeljnih jezikovno tehnoloških orodij in virov, potrebnih za računalniško procesiranje digitalnih besedil in drugih vsebin v slovenskem jeziku.

Razvili so učni korpus ssj500k, označevalnik Obeliks, razčlenjevalnik MSTParser, pisni korpus Gigafida, govorni korpus Gos, uravnoteženi korpus Kres in korpus šolskih pisnih izdelkov Šolar. Poleg tega so razvili tudi leksikalno bazo Sloleks, pripravljeno za nadgradnjo za računalniško in za slovarsko rabo, ter tako imenovana Slogovni priročnik in Pedagoški slovnični portal.

Kot je pojasnil koordinator projekta Simon Krek, je Slovenija s tem poravnala svoj dolg za nazaj na tem področju, vendar pa jo čaka še kar nekaj nadaljnjega dela na poti zagotovitve vseh potrebnih temeljev za računalniško procesiranje digitalnih vsebin v slovenskem jeziku. To pa je nujno, ker je vse več vsebin, tudi tistih iz preteklosti, namreč dostopnih v digitalni obliki, nekatere celo samo v takšni obliki.

Ta trend potrjujejo vse bolj priljubljena spletna družbena omrežja, mobilne pametne naprave z dostopom do interneta, selitev tiska na digitalne platforme, knjige v digitalni obliki, oblačno računalništvo, množični odprti spletni tečaji.

Projekt Sporazumevanje v slovenskem jeziku v obdobju od junija 2008 do decembra letos izvaja konzorcij partnerjev - podjetje Amebis, Znanstvenoraziskovalni center SAZU, Institut Jožef Stefan, Univerza v Ljubljani ter zavod za uporabno slovenistiko Trojina. Vrednost projekta je 3,2 milijona evrov. Delno ga financirata Evropska unija iz Evropskega socialnega sklada ter ministrstvo za izobraževanje, znanost in šport. Več informacij o projektu je na voljo na spletnem naslovu http://www.slovenscina.eu/.