Kamniško podjetje Amebis razvija jezikovne tehnologije že več kot dve desetletji, zadnji dosežek pa je sistem samodejnega učenja Piflar. Namenjen je samodejnemu pridobivanju znanja iz poljubnih besedil in odgovarjanju na vprašanja. Znanje, ki je potrebno, da sistem zna odgovoriti na vprašanje, pridobi samostojno, brez pomoči človeka. Tovrstne napredne jezikovne tehnologije za zajem, pomnjenje in obvladovanje informacij neposredno iz besedil so redke tudi v svetovnem merilu. Je edini tovrstni sistem za slovenski jezik, obvlada pa tudi angleščino.

Piflar je v razumljivejšem jeziku baza znanj z dodatki. Modul za analizo enostavnih in sestavljenih povedi (stavkov), modul za hranjenje informacij in modul za odgovarjanje oziroma oblikovanje odgovorov na zastavljena vprašanja v naravnem jeziku. Kako Piflar deluje? Besedilo najprej slovnično in pomensko analizira ter samodejno izloči dejstva, ki jih neka poved z vsemi morebitnimi odvisnimi stavki vsebuje. Pridobljene informacije shrani in jih uporabi za odgovore na vprašanja v naravnem jeziku. Vprašamo ga, kot bi vprašali človeka, in odgovori nam, kot bi nam odgovoril človek. Obenem pa lahko tudi pokaže, kje je odgovor našel. Na primer pokaže na spletno stran ali na vir besedilnih informacij v digitalni obliki. Tehnologija omogoča, da je jezik odgovarjanja neodvisen od jezika analize. Piflar lahko odgovarja v slovenščini tudi na podlagi pridobljenega znanja iz angleških besed in obratno.

Piflar je uporaben na več področjih, tudi kot del navideznih spletnih asistentov, kot je bila pred kratkim upokojena asistentka Vida z davčne uprave. Pomaga pa lahko povsod, kjer so besedila. Na spletnih straneh, v dokumentnih sistemih, v bazah znanj, sistemih CRM, arhivih, v pametnih iskalnikih ali sistemih umetne inteligence. Podjetje Amebis bo tehnologijo, ki je zrela za praktično uporabo, najprej vgradilo v svoj izdelek, navideznega asistenta SecondEgo.

Samodejna prepoznava govora
Na slovenskih sodiščih so lani izvedli preizkus delovanja sistema za samodejno prepoznavo in zapis govora. Sodelovalo je petdeset sodnikov, pravilnost prepoznave njihovega nareka pa je v povprečju dosegla 97 odstotkov, kar naj bi bilo po mnenju ministrstva za pravosodje zadovoljivo. Prednosti samodejne prepoznave govora so v prihranku časa, ki je potreben za izdelavo zapisa nareka in njegovega preverjanja, sistem pa je uporaben pri vseh vrstah postopkov.

V projektu so za prepoznavo govora uporabili sistem (program) Speechmagic ameriškega podjetja Nuance, ki ga že nekaj let uporabljajo v slovenskem zdravstvu, največ v radiologiji. Sistem tam v besedilo spreminja narek zdravnika, ki analizira rentgensko sliko poškodovanca. Podpora slovenskemu jeziku pa je bila razvita v sodelovanju s slovenskim podjetjem Interexport. To je za izdelavo podpore potrebovalo približno leto dni, pilotski projekt na slovenskih sodiščih pa nas je stal 54 tisoč evrov. Največ težav so imeli s skloni. Zaradi njih je v slovenskem radiološkem besedišču 60 tisoč različnih besed, kar je trikratnik besed v podobnem angleškem. Sodno besedišče je še obširnejše, saj vključuje 350 tisoč besed.

Nekaj je pilotski projekt, drugo pa implementacija sistema. Kdaj torej, saj bi sistem vplival tudi na hitrejše delo sodišč? Odgovora ni. Sistem je velika novost, na kar bi se morali vsi vpleteni navaditi, je pa tudi velik finančni zalogaj. Kako je z javnim denarjem v teh časih, pa vsi zelo dobro vemo.

Moj mikro, marec - april 2014 | Jan Kosmač