Noam Chomsky analisi estatistikoak hizkuntzalaritzari egiten dion ekarpenaz.

Noam Chomskyk Google bisitatu zuen apirilaren 8an eta han Talks at Google programan elkarrizketa bat egin zioten. Hona zer erantzun zuen gai honetaz: 

Zein da zure ustez hizkuntzaren prozesamendu estatistikoaren arloko ikerketa hizkuntzalaritzari egiten ari zaion ekarpena?


1955 inguruan edo, teoria linguistikoan lanean ari nintzenean, iruditu zitzaidan bide bakarra zela, eman dezagun haur batek hitzak identifikatu ahal izateko testu jarraituan-- badakizu, ez zara ari hitz bakanak entzuten munduan bizi zarenean. Testu jarraitua ari zara entzuten. Iruditzen zitzaidan soinuen edo silaben trantsizio-probabilitateak detektatzea izan zitekeela era bakarra. Hitz baten mugara iristen bazara, hurrengo hitza aurresateko probabilitatea txikiagoa da haren barruan bazaude baino. Ezta? Arrazoi nabariengatik. Bazirudien trantsizio-probabilitate horiek aztertzen bazenituen, hitzak detektatzeko gai izango zinela. Hori izango da seguru asko lehen proposamena literaturan. Gertatzen da ez dela zehatza. Azken pare bat urtean lan benetan zainduak egin dira testuen analisi estatistikoaz. Charles Yang-ek, MITen doktoregoa egin zuen linguistika kognitibo konputazionaleko zientzialariak, orain Penn-en dagoenak, frogatu zuen teknika hori erabiltzen baduzu testu jarraituan, lortzen dituzunak silabak direla eta ez hitzak. Beraz, ez du funtzionatzen. Halaber, printzipio linguistiko bat gehitzen baduzu hitzetara, hobeto hurbiltzen zarela erakutsi zuen. Printzipio linguistikoa da hitz batek-- hobeto esan, benetako hitzek azentua barruan izan ohi dutela-- tonu-azentu altuena barruan izaten dutela. Hortaz, printzipio hori gehitzen baduzu eta gero analisi estatistikoa egiten baduzu, hurbilketa hobea egiten duzu. Ondoren zenbait zientzialari kognitiboren lana dago, erakutsi duena gehitzen baduzu egitura prosodikoa deritzona-- perpaus baten tonu-azentuaren egitura osoa-- hura gora eta behera joaten dela, baina benetan esaldiak ondotxoz hobeto islatuz, begiratzen badiozu tonuaren egiturari. Hori dena gehitzen baduzu eta gero analisi estatistikoa egiten baduzu, oraindik hurbilketa hobea lortzen duzu. Orain hori da kasu gutxitako bat analisi estatistikotik emaitzaren bat lortzen dena. Izan da-- bada sektore bat zientzia kognitibo konputazionalean eta informatikan saiatzen dena erakusten hizkuntza baten ezagutza esanguratsua lor daitekeela testuen analisi estatistikoaren bidez. Oso nekez izango du arrakasta horrek. Ez dira egiten aurkikuntzak zientzietan datu kopuru erraldoiak hartuz, haiek ordenagailu batean sartuz eta haien analisi estatistikoa eginez. Saiatu hori zientzien historian bilatzen. Ez da gertatzen. Hori ez da gauzak ulertzeko bidea. Ikuspegi teorikoa behar da. Jakin behar da zer esperimentu mota egin-- zer datu mota merezi duen aztertzea, zein baztertu behar diren eta abar. Era horretan lan egin dute beti zientziek. Esate baterako, higiduraren legeak estudiatu nahi bazenitu, har zenezake leihotik kanpora gertatzen ari denaren bideoko zinta mordo bat eta horiei analisi estatistikoa aplikatu. Lor zenezake leihotik kanpora hurrena gertatuko denaren aurreikuspen on samarra-- Fisika sailak egin dezakeena baino hobea, baina hori ez da zientzia. Hori datuak erlazionatzeko modu bat da eta again datu berri batzuk aurreikusteko. Baina hori ez da ulertzea. Eta hizkuntzarentzat ere oso nekez funtzionatuko du. Eta uste dut orain arte ikusitakoak erakusten duela guztiz huts egiten duela. Errepasa nitzake adibideak. Baina arretaz aztertu den adibide orok ez du funtzionatzen, Charles Yang-ek eta bere ondorengoek aurkitu zituzten arrazoi askorengatik. Izan behar dituzu-- ulertu behar dituzu sistemak azpian dituen printzipioak. Eta gero printzipio horien ertzen inguruan begiratzen baduzu, aurki ditzakezu batzuetan datu estatistiko erabilgarriak. Uste dut seguru asko hori dela jarraituko den bidea.en

Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

Kale-neurketak eta kaleko neurketak

bozak, bozkak, bozketak, botoak