Hrvatski je jedan od najzapuštenijih europskih jezika
Thread poster: Gordana Podvezanec
Gordana Podvezanec
Gordana Podvezanec  Identity Verified
Croatia
Local time: 21:31
Member (2003)
German to Croatian
+ ...
SITE LOCALIZER
Jul 13, 2014

STRUČNJACI UPOZORAVAJU
Hrvatski je jedan od najzapuštenijih europskih jezika

Hrvatski je jedan od najzapuštenijih europskih jezika

Računalni programi koji čovjekov govor pretvaraju u tekst, koji su u velikim svjetskim jezicima postigli veliku popularnost, zadugo još neće izići iz hrvatske radionice elektroničke komunikacije.

Profesor Fakulteta elektrotehnike i računarstva u Zagreba Šandor Dembitz, koji je prije 20 godina s kolegama pokren
... See more
STRUČNJACI UPOZORAVAJU
Hrvatski je jedan od najzapuštenijih europskih jezika

Hrvatski je jedan od najzapuštenijih europskih jezika

Računalni programi koji čovjekov govor pretvaraju u tekst, koji su u velikim svjetskim jezicima postigli veliku popularnost, zadugo još neće izići iz hrvatske radionice elektroničke komunikacije.

Profesor Fakulteta elektrotehnike i računarstva u Zagreba Šandor Dembitz, koji je prije 20 godina s kolegama pokrenuo online strojnu provjeru pravopisa hrvatskog i engleskog jezika "Hascheck", kaže da u Hrvatskoj ne postoje strategije niti konkretna ulaganja u takvu vrstu jezičnog razvitka.

Dok iza najpopularnije inačice "Dragon Dictation" američke tvrtke Nuance, koju su prilagodili za 40 zemalja svijeta, prema medijima radi šest tisuća zaposlenika u 35 država svijeta, oko "Haschecka" se trse trojica stručnjaka FER-a koji imaju druge redovite obaveze.

Osim Dembitza to su Gordan Gledec koji je izradio web-sučelje i Hrvoje Miholić koji je autor sučelja izbornika s ispravcima, i povremeno im kroz obrazovne obveze pomaže izvjestan broj studenata.

Već godinama nismo dobili nikakva sredstva, i kad zatražimo desetak tisuća eura od Ministarstva znanosti dobijemo odgovor da nemaju za to, kaže Dembitz.

Međutim, "Hascheck" su uočili francuski stručnjaci i pozvali ga za partnera u razvijanju hrvatsko-francuskog rječnika u kojoj suradnji nude svoj respektabilni know how potencijal. Mi smo prihvatili poziv, ali imamo lošu infrastrukturu što nam može otežavati realizaciju projekta, kaže Dembitz.

Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika, a jezik se u doba interneta brani tehnologijom, upozorava Dembitz i napominje da se oko očuvanja hrvatskog jezika mora brinuti hrvatska država, jer je jezik jedan od ključnih elemenata hrvatskog identiteta.

U hrvatskom jeziku morate uložiti istu muku kao u engleskom koji ima veliki broj korisnika, i u njemu osnovni jezičnotehnološki alati moraju biti javno dobro. Zbog toga je "Hascheck" besplatno dostupan svim malim korisnicima, dodaje profesor sa Zavoda za osnove elektrotehnike i električka mjerenja.

"Hascheckov" rječnik je s početnih 100 tisuća različnica hrvatskog općejezičnog fonda godinama narastao na 2.1 milijuna različnica, od čega 53 posto pripada hrvatskom općejezičnom fondu, 44 posto hrvatskom posebnojezičnom, dominantno imenskom fondu, te oko 3,5 posto engleskom općejezičnom fondu.

Glavna "Hascheckova" stranica bilježi između tri i četiri tisuće posjeta dnevno. Prosječno dnevno obrađuje se oko osam tisuća tekstova. Do sada je rječnik koristilo oko pola milijuna korisnika diljem svijeta. To pokazuje da za elektroničkom obradom hrvatskog jezika postoji potreba i da bi se ta potreba trebala širiti i na druge projekte.

"Hascheck" je solidna baza za pokretanje mnogih projekta, pa i projekta obrade prirodnog govora i njegova pretvaranja u tekst, smatra Dembitz i to dokumentira aktivnostima na razvoju tzv. n-gramske strukture.

N-gramska struktura su svi slijedovi riječi koji nisu odvojeni interpunkcijskim znakovima a koje software prepoznaje u obradi.

Oni se pojavljuju kao paralelne forme koje softwareu olakšavaju pretraživanje sadržaja. N-gramske strukture su korak u realizaciji projekta pretvaranja prirodnog govora u tekst.

"Hascheck" u tom smislu ima obrađenih 15 tisuća najfrekventnijih riječi, što je oko 75 posto upotrebnog fonda. To čini osnovni n-gramski sustav s više od 1.2 milijarde članova, a kad im se pribroji još n-gramski sustav od četiri do sedam članova, sustav naraste na oko 1,7 milijarde članova.

Tih 15 tisuća najfrekventnijih riječi čini oko 75 posto upotrebnog fonda, a za koliko toliko kvalitetno pretvaranje govora u tekst bi bilo potrebno obraditi 95 posto najfrekventnijih hrvatskih riječi, kaže Dembitz.

Međutim, za njega moraju postojati solidni tehnološki i ljudski resursi.

U Hrvatskoj se digitalnom obradom komunikacijske bavi i skupina stručnjaka na Sveučilištu u Rijeci koje vodi profesor Ivo Ipšić, a najjaču grupu u regiji okuplja tvrtka Alfanum iz Novog Sada, koja u svojoj ponudi ima niz proizvoda od onih za gluhe do projekta za automatsko titlovanje nekih televizijskih sadržaja. Alfanum ima neke svoje inačice namijenjene hrvatskom tržištu.

Identitet je jedan od glavnih izazova globalizacije a on počiva na jeziku. Hrvatski jezik nije neposredno ugrožen, ali će postati ako se ne pokrene tehnološka briga i taj me problem muči a ovdje se nedovoljno prepoznaje, zaključuje profesor Fakulteta elektrotehnike i računarstva u Zagreba Šandor Dembitz.

Danas.hr/Hina
13.07.2014.
Collapse


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Hrvatski je jedan od najzapuštenijih europskih jezika






CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

Buy now! »
Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »