Noam Chomsky analisi estatistikoak hizkuntzalaritzari egiten dion ekarpenaz.
Noam Chomskyk Google bisitatu zuen apirilaren 8an eta han Talks at Google programan elkarrizketa bat egin zioten. Hona zer erantzun zuen gai honetaz:
Zein da zure ustez hizkuntzaren
prozesamendu estatistikoaren arloko ikerketa hizkuntzalaritzari
egiten ari zaion ekarpena?
1955 inguruan edo, teoria linguistikoan
lanean ari nintzenean, iruditu zitzaidan bide bakarra zela, eman
dezagun haur batek hitzak identifikatu ahal izateko testu
jarraituan-- badakizu, ez zara ari hitz bakanak entzuten munduan bizi
zarenean. Testu jarraitua ari zara entzuten. Iruditzen zitzaidan soinuen edo silaben trantsizio-probabilitateak detektatzea izan zitekeela era
bakarra. Hitz baten mugara iristen bazara, hurrengo hitza
aurresateko probabilitatea txikiagoa da haren barruan bazaude baino.
Ezta? Arrazoi nabariengatik. Bazirudien trantsizio-probabilitate
horiek aztertzen bazenituen, hitzak detektatzeko gai izango zinela.
Hori izango da seguru asko lehen proposamena literaturan. Gertatzen
da ez dela zehatza. Azken pare bat urtean lan benetan zainduak egin
dira testuen analisi estatistikoaz. Charles Yang-ek, MITen doktoregoa
egin zuen linguistika kognitibo konputazionaleko zientzialariak,
orain Penn-en dagoenak, frogatu zuen teknika hori erabiltzen baduzu
testu jarraituan, lortzen dituzunak silabak direla eta ez hitzak.
Beraz, ez du funtzionatzen. Halaber, printzipio linguistiko bat
gehitzen baduzu hitzetara, hobeto hurbiltzen zarela erakutsi zuen.
Printzipio linguistikoa da hitz batek-- hobeto esan, benetako hitzek
azentua barruan izan ohi dutela-- tonu-azentu altuena barruan izaten
dutela. Hortaz, printzipio hori gehitzen baduzu eta gero analisi
estatistikoa egiten baduzu, hurbilketa hobea egiten duzu. Ondoren
zenbait zientzialari kognitiboren lana dago, erakutsi duena gehitzen
baduzu egitura prosodikoa deritzona-- perpaus baten tonu-azentuaren
egitura osoa-- hura gora eta behera joaten dela, baina benetan
esaldiak ondotxoz hobeto islatuz, begiratzen badiozu tonuaren
egiturari. Hori dena gehitzen baduzu eta gero analisi estatistikoa
egiten baduzu, oraindik hurbilketa hobea lortzen duzu. Orain hori da
kasu gutxitako bat analisi estatistikotik emaitzaren bat lortzen
dena. Izan da-- bada sektore bat zientzia kognitibo konputazionalean
eta informatikan saiatzen dena erakusten hizkuntza baten ezagutza
esanguratsua lor daitekeela testuen analisi estatistikoaren bidez.
Oso nekez izango du arrakasta horrek. Ez dira egiten aurkikuntzak
zientzietan datu kopuru erraldoiak hartuz, haiek ordenagailu batean
sartuz eta haien analisi estatistikoa eginez. Saiatu hori zientzien
historian bilatzen. Ez da gertatzen. Hori ez da gauzak ulertzeko
bidea. Ikuspegi teorikoa behar da. Jakin behar da zer esperimentu
mota egin-- zer datu mota merezi duen aztertzea, zein baztertu behar
diren eta abar. Era horretan lan egin dute beti zientziek. Esate
baterako, higiduraren legeak estudiatu nahi bazenitu, har zenezake
leihotik kanpora gertatzen ari denaren bideoko zinta mordo bat eta
horiei analisi estatistikoa aplikatu. Lor zenezake leihotik kanpora
hurrena gertatuko denaren aurreikuspen on samarra-- Fisika sailak
egin dezakeena baino hobea, baina hori ez da zientzia. Hori datuak
erlazionatzeko modu bat da eta again datu berri batzuk aurreikusteko.
Baina hori ez da ulertzea. Eta hizkuntzarentzat ere oso nekez
funtzionatuko du. Eta uste dut orain arte ikusitakoak erakusten duela
guztiz huts egiten duela. Errepasa nitzake adibideak. Baina arretaz
aztertu den adibide orok ez du funtzionatzen, Charles Yang-ek eta bere
ondorengoek aurkitu zituzten arrazoi askorengatik. Izan behar
dituzu-- ulertu behar dituzu sistemak azpian dituen printzipioak. Eta
gero printzipio horien ertzen inguruan begiratzen baduzu, aurki
ditzakezu batzuetan datu estatistiko erabilgarriak. Uste dut seguru
asko hori dela jarraituko den bidea.en
Comments
Post a Comment