U sklopu obilježavanja Mjeseca hrvatskoga jezika 13. ožujka u Dubrovačkim knjižnicama održano je predavanje o velikim jezičnim modelima i umjetnoj inteligenciji. O temi koja sve snažnije utječe na način na koji razumijemo i koristimo jezik govorio je istaknuti hrvatski računalni i korpusni lingvist Marko Tadić, profesor koji se već desetljećima bavi računalnom obradom hrvatskoga jezika. Na predavanju je predstavio osnovna načela razvoja velikih jezičnih modela te rezultate vlastitih istraživanja o njihovu utjecaju na hrvatski jezik.
Tadić je objasnio da su veliki jezični modeli (VJM-i) opsežni jednojezični ili višejezični skupovi tekstnih podataka koji u kondenziranom obliku predstavljaju ljudsku uporabu jezika. Takvi se modeli treniraju na milijardama tekstova, a tijekom obuke uče kako su riječi, rečenice i odlomci međusobno povezani i strukturirani.
„Modeli tijekom obuke pokušavaju tu strukturu odnosa prikazati kao mrežu znanja. Kada je jednom usvoje, mogu je primjenjivati na nove tekstove – bilo tako da ih razumiju, bilo tako da stvaraju nove“, objasnio je.
Iako se u javnosti često koristi izraz umjetna inteligencija, Tadić upozorava da je riječ o vrlo širokom pojmu. „Uporaba prirodnoga jezika samo je jedna sastavnica umjetne inteligencije. Uz nju postoje računalni vid, robotika, prepoznavanje obrazaca, (zdravorazumsko) zaključivanje, tehnologije znanja.“
Jedan od problema koje je istaknuo odnosi se na položaj „manjih“ jezika u digitalnom prostoru. Budući da veliki jezični modeli uče iz ogromnih količina podataka, jezici s velikim brojem govornika – ponajprije engleski – imaju veliku prednost. Maloljudni jezici, poput hrvatskoga, imaju znatno manje digitalnih tekstova na raspolaganju, pa su posljedično slabije zastupljeni u takvim modelima.
Upravo je zbog toga Tadić sa suradnicima razvio prvi hrvatski jednojezični model HR-GPT Beta, obučen na gotovo osam milijardi hrvatskih riječi i dostupan u repozitoriju jezičnih podataka HR-CLARIN. Cilj toga modela jest bolje razumjeti specifičnosti hrvatskoga jezika i izbjeći interferencije koje se javljaju u višejezičnim modelima, osobito između vrlo sličnih jezika poput slovenskoga, slovačkoga, srpskoga i bošnjačkoga. Takav veliki jezični model može se već sada koristiti u istraživanjima, obrazovanju i razvoju jezičnih tehnologija.
Posebno zanimljiv dio predavanja odnosio se na pitanje mogu li veliki jezični modeli stvarati nove riječi. U preliminarnom istraživanju koje je proveo Tadić analiziran je hrvatsko-engleski paralelni korpus novinskih tekstova. U oko 193 tisuće riječi tekućega teksta na hrvatskom pronađena je 321 riječ koja nije postojala ni u jednom hrvatskom rječniku, ni u postojećim hrvatskim korpusima, niti na mreži. Te su riječi nastale strojnim prevođenjem, ali i pravilnom primjenom hrvatskih tvorbenih pravila – kao složenice ili izvedenice.
“Stroj nema straha od novih riječi kao mi koji smo prošli kroz obrazovni proces. Međutim, djeca od jedanaest mjeseci slažu nove riječi koje žive u ‘kućnom registru njihove obitelji’, a pjesnici krše gramatiku i leksik kad im je to potrebno iz poetskih razloga.”, istaknuo je Tadić.
Kao zanimljiv primjer naveo je slučaj kada je strojnoprevoditeljski sustav engleski izraz „three-goal“ preveo kao „trogol“. Iako riječ nije postojala u rječnicima, godinu dana kasnije pojavila se u novinskom članku o nogometnoj utakmici. Sličan je primjer riječ „burzer“, koju je sustav stvorio pri prijevodu engleskoga izraza „broker“ na hrvatski, premda takav oblik do tada nije bio standardno nigdje zabilježen.
Takvi primjeri imaju i praktične posljedice za leksikologiju i leksikografiju. Leksikografi mogu odlučiti odbaciti svaku novu kombinaciju morfema koju su generirali strojevi ili pak prihvatiti takve riječi ako ih govornici počnu koristiti. Upravo zato Tadić smatra da bi u analizi jezika tehnološki pristup uvijek trebao biti dopunjen humanističkim. Prema njegovim riječima, u proučavanju velikih jezičnih modela najvažniji je opći lingvistički pristup – komponenta iz humanističkih znanosti koja na kraju mora prevagnuti nad tehničkim aspektom razvoja velikih jezičnih modela.
U završnom dijelu predavanja Tadić je postavio i šira filozofska pitanja. Ako računala sve bolje ovladavaju prirodnim jezikom – jednom od ključnih osobina ljudske vrste – što to znači za budućnost komunikacije i identiteta čovjeka? Može li stroj biti kreativan u jeziku ili je kreativnost isključivo ljudska osobina?
Ipak, zaključio je kako postoji jasna granica: „Nijedan stroj nikada neće moći jezik nazvati materinskim jer jednostavno nema majke.“
Predavanje je završilo raspravom s publikom o budućnosti hrvatskoga jezika u digitalnom dobu i ulozi lingvistike u razumijevanju novih tehnologija.

















