Google Translate gai da entrenamendurik gabe itzultzeko

 Iturria: Google Research blog

Azken hamar urteotan, Google Translate hizkuntza gutxi batzuen arteko itzulpenak egitetik 103 hizkuntzaren artekoak egitera iritsi da, eta egunero 140 miliar hitz baino gehiago itzultzen ditu. Aurrerapen hori egin ahal izateko, hainbat sistema garatu eta mantendu behar izan dituzte, hizkuntza-bikote guztien itzulpenak egiteko. Bide horretan, sistemaren oinarrian zegoen teknologia aldatu behar izan dute.

Joan zen irailean iragarri zuten Google Translate aldatzen ari zela Google Neural Machine Translation (GNMT) izeneko sistema batera. Sistema horrek milioika adibidetatik ikasten du, eta hobekuntza nabarmenak lortzen ditu itzulpenetan. Hala ere, sistema berrira aldatzea erronka handia da 103 hizkuntzarekin lan egiteko.

Arkitektura berriak ez du
eskatzen oinarrizko GNMT sisteman  aldaketak egiterik  baina sorburu-hizkuntzako esaldiaren hasieran token edo ikur-marka bat erabiltzen du, esaldia zer hizkuntzatara itzuli behar den zehazteko. Itzulpenaren kalitatea hobetzeaz gainera, sistema berria gai da, inoiz esplizituki  ikusi gabeko hizkuntza-bikoteetan itzulpenak egiteko, entrenamendurik gabe. Horri “Zero-Shot Translation” deitzen diote.

Hara nola lan egiten duen: demagun sistema entrenatzen dela japonieraren eta ingelesaren arteko eta koreeraren eta ingelesaren arteko itzulpen-adibideekin. Sistema eleaniztunak, GNMT sistemaren tamaina bera duenak, bere parametroak partekatzen ditu lau hizkuntza-bikote horien arteko itzulpenak egiteko. Partekatze horrek ahalbidetzen dio sistemari itzulpen-jakituria transferitzea hizkuntza-bikote batetik besteetara.
 

Hurrengo urratsa litzateke sistemak inoiz ikusi ez duen  hizkuntza-bikote baten itzulpenak egitea, adibidez koreeraren eta japonieraren arteko itzulpenak egitea, hizkuntza horien arteko itzulpenak sistemari inoiz erakutsi gabe. Bada, hori ere egiten du nahiko ondo.

Sistemak, esalditik esaldirako itzulpenak memorizatu ez ezik, semantikaz ere zerbait kodetzen du. Horrek sare neuronalean interlingua bat dagoela iradokitzen du.

Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

Kale-neurketak eta kaleko neurketak

bozak, bozkak, bozketak, botoak