Irudien bidez entrena daiteke hizketa ezagutzeko sistema bat

Iturria: MITNews

Hizketa ezagutzeko sistemek, hala nola sakelako telefonoetan hizketa testu bihurtzen dutenek, gehienetan ikaskuntza automatikoan oinarritzen dira. Ordenagailu batek milaka eta are milioika audio-fitxategi beren transkripzioekin arakatzen ditu eta ikasten du zer ezaugarri akustiko dagokion zer hitz idatziri. Alabaina, grabazioak transkribatzea garestia da eta denbora asko behar du. Horregatik, herrialde aberatsetan mintzatzen diren hizkuntza gutxi batzuetarako bakarrik dago hizketaren ezagutza. Munduan 7.000 hizkuntza inguru daude baina horietatik % 2k baino ez dute hizketa ezagutzeko sistema. Prozedura berri horrek lagundu dezake egoera hori erremediatzen.

Izan berria den Neural Information Processing Systems konferentzian, MITeko Informatika eta adimen artifizialeko laborategiko ikertzaileek hizketa ezagutzeko sistemak entrenatzeko transkripziorik behar ez duen prozedura bat aurkeztu dute. Transkripzioa erabili ordez, haien sistemak audio-grabazioekin batera jasotako irudiak eta hizketazko deskribapenak aztertzen ditu. Sistemak ikasten du grabazioen zer ezaugarri akustiko dagozkien irudien ezaugarriei.  

Ahozko esaldi bat erlazionaturik baldin badago irudi mota batekin eta irudiak testuekin erlazionaturik baldin badaude aurki daiteke esaldiaren transkripzioa, gizakien parte hartzerik gabe. Horren antzera, hainbat hizkuntzatako testuak erlazionaturik dituen irudi mota bat baliagarria izan daiteke itzulpen automatikorako. Alderantziz, antzeko irudi multzoekin erlazionaturik dauden testuek antzeko adierak dituztela ondoriozta daiteke.

Sistemak bi sare neuronal ditu: batak sarreran irudiak hartzen ditu eta besteak audioko seinaleei dagozkien espektrogramak
. Sare bakoitzaren goiko geruzaren irteera 1.024  dimentsioko bektore bat da, hau da, 1.024 zenbakiz osaturiko segida bat. Sarearen azken nodoak bi bektoreen biderkadura eskalarra jasotzen du, hots, bektoreetan posizio bera duten terminoak biderkatzen ditu eta emaitza guztiak batzen ditu, azkenean zenbaki bakarra lortzeko. Entrenatzen ari direnean, sareek saiatu behar dute ahalik eta biderkadura eskalarrik handiena lortzen, audioko seinale bati irudi bat dagokionean eta ahalik txikiena lortzen, ez dagokionean.

Sistemak, aztertzen duen espektrograma bakoitzeko, identifika ditzake biderkadura eskalar handiena ematen duten puntuak. Esperimentuetan, handienak ziren balio horiek irudi-etiketa zehatzak ematen zituzten hitzak ateratzen zituzten. Lanean aurrera egin ahala, ikertzaileek sistema finduz joan dira, hitz bakoitzaren espektrograma hartu eta hari irudian dagokion eskualdea identifika zezan
lortu arte

Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

Kale-neurketak eta kaleko neurketak

bozak, bozkak, bozketak, botoak