Posts

Showing posts from April, 2016

Nola lortu duen Watsonek elkarrizketazko hizketa ezagutzea

Iturria: venturebeat IBMk aurrerapen handia lortu du bere Watson ordenagailuak elkarrizketazko hizketa ezagutzeko duen gaitasunean.  Iaz, Wa tson gai zen elkarrizket etan ingelesezko hizketa ezagutzeko, %8ko errore -t asarekin. Orain errore-tasa %6,9ra jaistea lortu dute.  Lorpen horrek erakusten du adimen artifiziala gero eta ahaltsuagoa dela, eta gero eta hurbilago dagoela ataza asko tan robotek gizakiak ordezkatzea. Azkenaldian hobekuntzaren oi narri sendoena sare neuronal sakon e k ekarri dute . Azken helburua da gizakiaren zehaztasunaren parekoa edo hobea lortzea , hau da , %4 inguruko errore-tasara iristea.  Hobekuntzak egin dituzte bai modelizazio akustikoan eta baita hizkuntzarenean ere . Alderdi akustikoan bi sare neuronal sakon bateratu dituzte, testuinguruaren arabera sarrerako audioko fonoak aurreikusten dituztenak. Eredua k entrenatzeko, Switchboard , Fisher eta CallHome corpusetako audio tr abskribatuko 2.000 ordu erabili dituzte.

Hiztegi elebidunak erabiltzeak dituen arriskuak

Image
Hiztegi elebidunak baliokidetza-hiztegi soilak izan ohi dira. Hizkuntza bateko hitz baten ondoan beste hizkuntza bateko "baliokidea(k)" erakusten dituzte. Asko horretan geratzen dira, beste batzuek kategoria gramatikalak zehazten dituzte eta onenean erabilera-adibideren bat ere ematen dute.  Hiztegi elebakarrek, aldiz,  askoz informazio gehiago ematen dute: ebakera, kategoria gramatikala, erabilera-eremua, etimologia, definizioa, adibideak, beste hitz batzuekiko erreferentziak, erregistro-markak, etab. Hiztegi elebidunen arazoetako bat izaten da baliokidetzaren mugak ez dituztela argi azaltzen, eta oker handiak egiteko arriskuan jaus gaitezkeela. Esate baterako, espainiera /euskara hiztegi batean espainierazko "repostero" hitzaren baliokide gisa "gozogile, gozogin" ikusten baduzu ez zaitez fida hori eta horrenbestez, bestela behin euskal erakunde bateko itzultzaile bati gertatu zitzaiona gerta dakizuke. Liburu bat itzultzen ari zen eta presa zuten arg

Farmazia-industria testu-meatzaritza erabiltzen ari da

Iturria: science business Informazioa o so ugar ia denean, ez d u balio eskuz bilaketa arruntak egiteak. Makinak behar dira milaka dokumentutan , testu-meatzaritza bidez, ezkutaturik da goen informazioa eta datuen arteko loturak aurkitzeko. Farmazia-industrian, esate baterako, ikerketarako ezinbesteko tresna bihurtu da testu-meatzaritza. Bilaketak egiteko ez ezik laburpenak egiteko, lehiakideak zertan ari diren jakiteko, kongresuetan edo patenteetan zer berrikuntza ari diren agertzen jakitek o. Kongresu askotara joa tea saihestea ere lortzen dute, informaziorik galdu gabe. Teknika horiek erabiltzea ez dago, ordea, edonoren esku. Enpresa handiek bai, di ru asko dutelako, baina erakunde publikoetako ikertzaileek zailtasunak dituzte, bai baliabide faltaz eta baita argitaratzaileek oztopoak jartzen dizkietelako meatzaritza erabiltzeko, kopia-eskubideak di rela eta . Europan Erresuma Batuak bakarrik atera du testu-meatzaritza kopia-eskubideen legetik . Hala ere, joan zen abenduan, Europ

Nola aztertu zituzten Panamako paperak

Iturria: wired.co.uk  Datu guztiak Panaman egoitza duen Mossack Fonseca bulego juridikotik lortu zituzten. Inoiz ezkutuan atera den datu kopururik handienak adierazten du mundu mailako 70 agintarik baino gehiagok milaka milioi euroko zergak ordaintzeari ihes egin diotela, Panamako isilpeko kontuak baliatuz. Panamako paperek erakusten dute Mossack Fonseca bulegoak munduko jende boteretsuarekin zerikusia zuten ehunka bezerori lagundu ziela dirua zuritzen, zergak ordaintzeari ihes egiten eta isunak saihesten. Paperak ezezagun batek iritsarazi zizkien 100dik gora albiste-organizaziori eta 400 kazetariri baino gehiagori, eta ikerketak ia urtebete iraun du. Datu gordinak kazetariei eskuera jartzeko prozesuak digitalizatzea, ordenagailu eta algoritmo ahaltsuak erabiltzea behar izan du, milaka xehetasunen artean izen ezagunak aurkitzeko. Guztira 11,5 milioi dokumentu dira. Multzo horretan badaude, besteak beste, emailak, kontratuak, transkripzioak eta eskaneaturiko dokumentuak. Guztira 4,