Teknologia semantikoa oso gaingiroki

Zertako prestatu dudan idazki hau

Gaur egun web semantikoa, bilaketa semantikoak, teknologia semantikoa eta antzekoak hitzetik hortzera aipatzen dira, baina gehienok ez dakigu zehazki ez zer diren eta ez praktikan zertan erabiltzen diren. Panorama hori axaletik bederen argitzea izan da nire helburua.

Teknologia semantikoaren xedea

Interneten bikaletak egiten ditugunean, jasotzen dugun emaitzen kopurua izugarri handia izaten da beti. Erantzun horietako gutxi batzuk arakatzen ditugu eta beste guztiak begiratu ere gabe baztertzen ditugu, nahiz eta, again, harribitxi batzuk baztertuen artean egon. Enpresetako intraneten edo sareen barruan ere gauza bera gertatzen da. Egoera horrek ez gaitu asebetetzen, eta teknologia semantikoan dugu jarria emaitza esanguratsuagoak lortzeko esperantza.

Nahi genukeena da, edonork, informatikaria izan gabe, software egokia erabili ahal izatea, galderak modu erosoan egin eta erantzun esanguratsuak lortzeko, esan nahi baita interesatzen den informazio guztia eta hura bakarrik eskuratzeko.

Enpresaren kasuan, makina baten planoak, bezero baten fakturak, higiezin baten eskriturak, eta abar izan daitezke bilatu nahi diren dokumentuak.

Tresna semantikoen sailkapena

Hemen aztertuko ditugun tresna semantikoen arloak honako hauek izango dira:

Testu meatzaritza eta testuen analisia
Kontzeptuen eta entitateen erauzketa
Kontzeptuen analisia
Hizkuntzaren prozesamendua
Edukien normalizazioa
Hainbat iturritatik jasotako informazioak bateratzea
Sentimenduen analisia
Autokategorizazioa

Ondoren, banan-banan aztertuko ditugu arlo horiek.

Testuen meatzaritza eta testuen analisia

Jarduera horien xedea testuetatik informazio esanguratsua ateratzea da. Helburu hori lortzeko, hainbat teknika konbinatzen dira: ikaskuntza automatikoa, hizkuntzaren prozesamendua, informazioaren erauzketa eta informazioa aurkitzeko algoritmo matematikoak. Arloaren barruan zenbait azpiarlo bereiz daitezke:

Gakohitzen erauzketa

Dokumentu bati dagozkion gakoitzak dokumentu horren edukiaren muina forma kondentsatuan adierazten duten hitzak edo hitz multzoak dira. Gakohitzen erauzketa da, hain zuzen, erabiltzaileak egin duen galdera identifikatzeko lehen urratsa. Adibidez, galderak “nor” hitza badarama, ondoriozta daiteke bilatzen den erantzuna pertsona-izen bat dela, eta galdera “non” baldin bada, aldiz, leku-izen bat bilatzen dela. Beste gakohitz batzuk “zenbat”, “noiz”, etab. izan daitezke. Zoritxarrez beste galdera batzuk askoz anbiguoagoak izaten dira. Hitzen kategoria gramatikala etiketatzeko teknikak eta analisi sintaktikoa ere erabiltzen dira bilatzen den erantzun mota identifikatzeko. Testuingurua ulertzeko, WordNet, FrameNet edo VerbNet moduko hiztegi bat erabil daiteke.

Behin galdera mota identifikatuz gero, informazioa bilatzeko sistema bat erabil daiteke, hari dagozkion gakohitzak dauzkaten dokumentuak bilatzeko. Galderak “nor” edo “non” motakoak izanez gero, entitate-erauzle bat erabil daiteke bilaketa zehazteko.

Gakohitzak identifikatzeko, testua hitz solteka eta hitz-segidaka zatikatzen da, eta horiek gakohitz izateko hautagaitzat hartzen dira. Gero hautagai horiek aldi berean zenbat aldiz ageri diren zenbatzen da eta zenbait irizpide aplikatuz, konbinazio bakoitzari pisu bat ematen zaio, eta pisu batetik gorakoak hartzen dira gakohitz bezala. Hainbat irizpide erabil daitezke, ez guztiak eraginkortasun berekoak.

Biltegi bateko dokumentu guztiak hizkuntza berekoak direnean baino konplikatuagoa da, jakina, hainbat hizkuntzatakoak direnen kasua. Azken finean, arazoaren gakoa eredu algebraiko egokia asmatzean datza. Matrizeen kalkuluaren ingurukoak izaten dira arazoak, eta kalkulu hori azken urteotan estatistikaren bidetik joan da.

Sailkapena eta taldekatzea

Testuen sailkapenaren xedea aldez aurretik zehazturiko sailkapen-eredu baten arabera, testu multzo bateko dokumentuak sailka banatzea da. Hori lortzeko bide bat hainbat adibide eskuz sailkatzea da eta, ikasketa-algoritmo bat erabiliz, dokumentu berriak haiekiko hurbiltasunaren arabera sailkatzea. Eredu bakarra hasieratik zehaztea zaila izaten denez, hainbat eredu zehaztu eta haien zehaztasuna konparatzeko ebaluazio-metodoak erabiltzen dira.

Eredu baten zehaztasunak zerikusi handia du ikasketa egiteko erabiltzen den laginak zehaztu nahi den sailkapenarekiko duen adierazgarritasunarekin.

Ikasketarako laginak erabili ordez, beste batzuetan, sailkatzeko aurkezten diren dokumentuen edukiak konparatzen dira haiek taldekatzeko. Dokumentu batekiko antzik handiena eta besteekiko desberdintasunik handiena duten dokumentuak erreferentziazkotzat hartu denaren talde berean sartzen dira eta konparazio hori dokumentu guztien artean egiten da. Taldekatzeko teknika asko daude.

Anomalien eta joeren detekzioa

Testu-multzo batean agertu behar ez luketen forma edo ereduak atzematea da anomaliak detektatzea. Anomalien detekzioa hainbat arlotan aplikatzen da, hala nola intrusioen, iruzurren, hutsegiteen, osasun-asalduren, sentsore-sareetan edo ekosistemetan sorturiko alarmen detekzioan.

Anomaliak detektatzeko sistema batek ezagunak diren eta ontzat ematen diren formak eta ezezagunak direlako txartzat ematen diren formak bereizten ditu. Batzuetan, ezezaguna den forma ez da txartzat ematen, baizik eta ezagutzea interesgarria izan daitekeen berrikuntzatzat. Adibidez, helburua dokumentu baten bertsio desberdinetan izan diren aldaketak atzematea denean.

Zenbait teknika desberdin erabiltzen dira anomaliak detektatzeko:

- Normaltzat eta anormaltzat ematen diren adibideak ikasteko erabiliz eta gero sailkatu nahi diren kasuak horiekin konparatuz, normaltzat edo anormaltzat hartzeko probabilitate-maila batekin.

- Portaera normalaren eredutzat hartuko den datu-multzo bat prestatuz eta ondoren eredu horrek kasu berri jakin bat sortzeko probabilitatea neurtuz.

- Datu-multzoko elementu gehienak normalak direla suposatuz eta gehiengotik saihesten direnak atzemanez.

Agertzen ari diren joeren detekzioa da antzeko beste jarduera bat. Denbora igaro ahala pisua hartzen ari den gai bat da agertzen ari den joera bat. Adibidez, informatika-munduan “tablet” terminoa gero eta gehiago ari da agertzen 2000. urtetik hona.

Sortzen ari diren joerak atzematea interes handikoa da, enpresetako marketin-sailentzat, esate baterako.

Joerak detektatzeko aplikazio batek, testu-multzo berri bat sartzen zaionean, erreferentziakotzat duen corpus batekin konparatzen du, multzo berrian pisua hartzen ari den gairen bat ageri den ikusteko. Badira aplikazio guztiz automatikoak eta erdi-automatikoak.

Sistema guztiz automatikoek corpusa arakatzen dute eta gai berriak izan daitezkeenak zerrendatzen dituzte, gero giza operadore batek azter ditzan eta erabaki dezan benetan gai berriak diren edo ez. Erdi-automatikoetan, berriz, gizakiak sartzen duen testua konparatzen dacorpusarekin.

Testu-segidak

Denboran zehar sortzen diren testu-multzo erlazionatuak dira. Adibidez, gai bati buruz agertzen diren artikuluak edo posta-mezuen hariak. Azken finean hauen tratamendua anomalien eta joeren detekzioaren kasu partikular bat dela esan daiteke. Izan ere, bat-batean agertzen diren elementu berriak edo denboran zehar gertatzen diren aldaketak atzematea izaten da helburua.

Kontzeptuen eta entitateen erauzketa

Goian esan bezala, teknologia semantikoaren helburuetako bat bilaketa esanguratsuagoak lortzea da. Kontzeptuen eta entitateen erauzketa da, hain zuzen, horretan lagundu dezakeen teknika bat.

Esate baterako, web orri batean dauden kontzeptuak zein diren automatikoki agertuko balitzaizkio bilaketa egiten duenari, bilaketaren emaitza gisa agertzen zaizkion erantzun guztietatik errazago aukeratu ahal izango lituzke benetan interesatzen zaizkionak.

Hizkuntza aldetik, kontzeptu bat ager daiteke hitz bakarreko termino gisa, adibidez motor, edo hitz anitzeko unitate lexikal gisa, adibidez, motor asinkrono trifasiko.

Kontzeptuak erauzteko aplikazio batek, sinpleki esanda, testua zatikatzen du hitzetan, irazten ditu kodea izan daitezkeenak (html etiketak-eta) eta hitz hutsak (aditz laguntzailearen formak, baina moduko juntagailuak, eta abar), puntuazio-zeinuak eta karaktere bereziak, gero hitzen maiztasunak neurtzen ditu eta maiztasunen araberako pisua atxikitzen dio hitz bakoitzari. Pisu batetik gorako hitzak termino izateko hautagaitzat hartzen dira. Bestetik kontuan izan behar da hitz anitzeko unitate lexikalak atzemateak hitz bakoitzaren ingurunea, “leiho” bat, aztertzera behartzen duela.

Entitateak ezaugarri semantiko interesgarriak dituzten testu-elementuak dira. Esate baterako, entitateak dira pertsona-izenak, leku-izenak, enpresen edo produktuen izenak, datak, telefono-zenbakiak edo prezioak. Hortaz, entitateak erauztea horrelako hitz edo hitz-multzoei aldez aurretik zehazturiko etiketak atxikitzea da.

Lan hori egiteko hainbat teknika daude, batzuk gramatika-erregeletan oinarrituak eta beste batzuk estatistikoak.

Posta-kodeak izan daitezkeen karaktere-segidak identifikatzen laguntzen du, adibidez, bost zifraz osaturikoak bilatzeak, edo izen propioen hautagaiak izango dira maiuskulaz hasten direnak. Alabaina, hautagai horietatik erauzi beharrekoak zein diren erabakitzeak arazo konplexuak gainditzea eskatzen du. Horretan lagungarri gertatzen da kasu batzuetan erreferentziazko hiztegiak izatea.

Adibide egoki bat osasun-arloko dokumentazioak eskaintzen digu. Osasun-arloko testuetako terminologian garrantzi handia du sinonimoak, hiperonimoak eta hiponimoak bereizteak. Hori dela eta, ontologiak garatu dituzte terminologiaren sistema errepresentatzeko. Ontologia bat hiztegi kontrolatu bat da, terminoen definizioak eta terminoen arteko erlazioak zehaztuak dituena eta gizakiek nahiz sistema informatikoek interpreta dezaketena.

Horrekin batera, osasun-arloko profesionalek hizkuntza naturalez egiten dituzten desbribapenetetatik kontzeptuak erauzteko sistemak garatu dituzte, gero bilaketetan eta bilaturiko emaitzen egokitasunaren balorazioan lagungarri gerta daitezen.

Kontzeptuen analisia

Goraxeago esan bezala, informazio-sistema batean taxonomia edo kontzeptu-egiturak garrantzitsuak dira bilaketak eta sailkapenak errazteko.

Kontzeptu bat defini daiteke bere hedaduraren eta intentsioaren arabera. Kontzeptuak hartzen dituen objektuen multzoa da hedadura, eta intentsioa, berriz, objektu horiek partekatzen dituzten atributuen multzoa da. Arlo bateko kontzeptuen eta atributuen arteko erlazioek sare bat osatzen dute, diagrama batez adieraz daitekeena. Arlo horretaz arduratzen den zientzia-adarra, Kontzeptuen Analisi Formala oso baliagarria gertatu da informazio-bilaketan eta baita testu-corpusetatik kontzeptu-hierarkiak erauzteko ere.

Hizkuntzaren prozesamendua

Bilaketa-sistema batean ideala litzateke erabiltzaileak hizkuntza libreki erabili ahal izatea, zer aurkitu nahi duen adierazteko. Alabaina, hizkuntzak, hizkuntza naturalak, baditu hori zaila egiten duten ezaugarri batzuk: ideia berbera hainbat modutan adierazi ahal izatea batetik eta anbiguotasuna edo esakune batek interpretazio bat baino gehiago izatea, bestetik.

Horregatik, hizkuntza naturala erabiliz egiten den bilaketa batek agian ez du emaitzarik sortuko, sistemak galdera ulertzen ez badu, nahiz eta berez galdera horri erantzungo lioketen edukiak izan sistemaren barruan, eta anbiguotasunaren eraginez galderari ez dagozkion emaitzak ere sor ditzake. Hizkuntza prozesatzeko teknikek arazo horiek gainditzen laguntzen dute.

Hizkuntza prozesatzeko teknikak bi sail handitakoak izan daitezke:

teknika estatistikoetan oinarrituak
tratamendu linguistikoan oinarrituak

Gaur egun, bi teknikak konbinatzeko joera ari da nagusitzen.

Teknika estatistikoetan oinarrituriko sistemek dokumentuetako hitz guztiak erabiltzen dituzte. Bakoitzari pisu bat esleitzen zaio garrantziaren arabera, eskuarki agerpen-maiztasunaren arabera, eta galderan erabiltzen diren hitzak aurkibidean gorde direnekin konparatzen dira, galderari erantzuten dioten dokumentuak aurkitzeko.

Hitz batek dokumentu bat ondo ordezkatzen duen ikusteko, dokumentu bakoitzean hitz hark duen agerpen-maiztasuna beste dokumentuetan duen agerpen-maiztasunarekin konparatzen da. Lehenbizikoa handia baldin bada bigarrenaren aldean hitzak ondo ordezkatzen du dokumentua, baina alderantzizkoa gertatzen bada edo dokumentu guztietan antzeko balioa baldin badu hitz baten maiztasunak hitz horrek ez du dokumentua ondo ordezkatzen.

Hitz solteez gainera hitz anitzeko unitate lexikalak atzematea ere interesatzen da, hitz konposatuak eta beste sintagma batzuk ere garrantzizkoak izan daitezkeelako: paper-fabrika, disko gogor eta horrelakoak.

Bestetik, testu baten barruan hainbat hitz huts daude: dut, eta, agian, ... Horiek ez dira aintzakotzat hartzen.

Ezagutza linguistikoan oinarrituriko sistemak erabiltzen direnean testuak zenbait mailatan analizatzen dira: morfologikoa eta agian sintaktikoa eta semantikoa. Maila bakoitzeko analisiak anotazioak sartzen ditu testuan: lema, kategoria gramatikala, etab. Mailarik arruntena morfologikoa da. Sintaktikoa eta batez ere semantikoa zailagoak dira.

Edukien normalizazioa

Eduki erdiegituratuak normalizatzea adierazpen, formatu edo egitura estandar batera eraldatzea da.

Antzeko atributuak izanik ere nomenklatura desberdinaz adieraziak dituzten dokumentuak forma estandar erkide batean jartzeak asko errazten du haien analisi semantikoa. Hori lortzeko urratsak, hain zuzen ere, analisia, kontzeptuen eta entitateen erauzketa eta eraldaketa dira. Normalizazioa beharrezkoa izaten da biltegi desberdinetan kudeatzen diren datuak batera erabili behar direnean. Esate baterako datu klinikoak trukatu behar dituzten osasun-sistemek arazo hori izaten dute.

Hainbat iturritatik jasotako informazioak bateratzea

Batzuetan bilaketa bat hainbat sistematan aldi berean egiten da eta gero emaitzak batu egin behar izaten dira. Hor sortzen da normalizatu beharra, eta ondoren egitura jakin baten arabera antolaturik eskainzen zaizkio emaitzak galdera egin duenari.

Sentimendu-analisia

Testuek garraiatzen duten informazioa funtsean bi motatakoa izan daiteke: entitateei, gertaerei eta haien ezaugarriei buruzko adierazpen objetiboak, adibidez Berlin Alemanian dago, eta iritziak, hau da, norbaitek entitateei, gertaerei eta haien ezugarriei buruz adierazten dituen sentimenduak edo balorazioak, esate baterako Athleticek atzo partida bikaina jokatu zuen.

Azken urteotan sentimendu-analisia indar handia hartzen ari da. Izan ere, erabaki asko hartzen dira jendearen sentimenduen arabera, adibidez burtsako kotizazioek merkatuko sentimenduarekin zerikusi handia dute. Beti izan du garrantzia arlo horrek, baina amarauna sortu zen arte oso zaila zen sentimenduei buruzko datuak edukitzea, eta batez ere garaiz edukitzea. Orain asko erraztu da hori, Interneti eskerrak. Jende askok ematen ditu iritziak sarean enpresez, produktuez, politikariez, etab.

Arazoa orain ez da ez dagoela informaziorik, baizik eta informazio-iturrien kopurua izugarri handia dela eta bakoitzak informazio-kopuru izugarriak dituela. Eskuz informazioa eskuratu, aztertu eta ondorioak atertatzea ezinezkoa da. Horretarako sistema automatikoak behar dira. Sentimendu-analisi edo iritzi-meatzaritza deritzon jarduerak erantzun nahi dio behar horri.

Sentimendu-analisiaren xedea funtsean testuak sailkatzea da: adierazpen subjektiboak dauzkaten dokumentuak eta ez dauzkatenak, subjektiboen artean iritzi positiboak, negatiboak eta neutroak adierazten dituzten pasarteak.

Liburu baten erreseinak, adibidez, normalean iritziak emango ditu haren edukiaz, pasarte batzuetan positiboak, beste batzuetan negatiboak eta beste datu batzuk, fitxa bibliografikoa adibidez, neutroak izango dira.

Kasu guztietan objektu batzuk eta haiei atxikitzen zaizkien atributuak edo ezaugarriak atzeman behar dira testuan. Esate baterako, produktua, konexioa edo inbertsioa objektuak dira garestia, geldoa edo arriskutsua, berriz, atributuak.

Hortik aurrera, batzuetan iritziak positiboak ala negatiboak diren jakitea nahikoa da, beste batzuetan, aldiz, zehazki jakin nahi da zer atributu edo ezaugarriri buruz zer iritzi positibo edo negatibo adierazten den.

Beste kasu batzuetan konparazioak egiten dira, adibidez, hotel hau beste hau baino garestiagoa da.

Sentimendu-analisiak interes handia sortu duenez, bada jendea analisi hori distortsionatzen saiatzen dena ere, iritzi-spamak sarean zirkularaziz. Horren ondorioz, sentimendu-analisiaren beste eginkizun batzuk spama dena eta baliagarria dena bereiztea eta baliagarriak diren iritziak garrantziaren arabera sailkatzea dira.

Goian esan bezala, objektuak identifikatu behar dira testuan. Objektu bat zehaztasun handiz identifikatzeko, haren osagaien eta azpiosagaien zuhaitza edo hierarkia eta osagai eta azpiosagai horien atributuen zuhaitza zehaztu behar dira. Hori, ordea, kasu batzuetan konplikatuegia izan daiteke eta nahikoa da objektuari bere osotasunean dagozkion iritziak eta haren atributuei buruzko iritziak identifikatzea. Iritzi-emailea identifikatzea ere interesa daiteke.

Dokumentu multzo bateko dokumentuak sailkatzeko modu bat lagin bat eskuz sailkatzea da, sistemak bi motak bereizten ikas dezan. Hori ez bada egiten, analisi sintaktikoan oinarritu behar da. Aditzak eta izenondoak dituzten esaldiak izaten dira iritziak adierazten dituztenak. Horiek hautatzen dira eta aditz edo izenondo horien testuingurua ere kontuan hartzen da. Testuinguru horretako hitzen kategoria gramatikalen arabera, kategoria-sekuentzia batzuei iritzia adierazteko probabilitate handiagoa esleitzen zaie eta beste batzuei txikiagoa. Horren ostean, agertzen diren terminoen maiztasunetan oinarrituriko teknika estatistikoak erabiltzen dira.

Sentimenduak hitzek, esaldiek eta esamoldeek adierazten dituztenez, horien bilduma bat, lexiko bat, osatu behar da sentimendu-analisian lan egiteko. Bilduma hori egiteko bi bide nagusi daude: lehen zerrenda bat osatu eta ondoren datu-base lexikal batean, WordNeten adibidez, zerrendako hitzen sinonimoak eta antonimoak bilatu, bilduma aberasteko, eta prozesua behin eta berriz errepikatu, hitz berririk ez dela agertzen egiaztatu arte, edo bestela corpus bat eta izenondo-zerrendak erabiliz, izenondo horiek eta beste batzuk lotzen dituzten juntagailuen bidez atzeman daitezke izaera bera (positiboa edo negatiboa) edo kontrakoa duten beste izenondo batzuk: erosoa baina garestia, sendoa eta fidagarria.

Autokategorizazioa

Jarduera honen xedea corpus bateko edukiak gaika edo entitateka antolatzea da, kontzeptuen analisia eta aldez aurretik prestaturiko hiztegiak erabiliz. Entitateen eta kontzeptuen erauzketa izaten da autokategorizazioaren aurreko urratsa.

Edukia metadatuz horniturik baldin badago, autokategorizazioa errazagoa da, baina gaur egun badaude metadaturik gabeko edukien autokategorizaziorako tresnak.

Bukatzeko

Badakit gaien enumerazio bat baino askoz gehiago ez dudala egin hemen eta hutsune asko utzi ditudala, baina espero dut tutik ez dakienari behintzat gai interesgarri honetara lehenbiziko hurbilketa bat egiteko baliagarria gertatuko zaiola.

Search This Blog

Iparrorratza

Teknologia semantikoa oso gaingiroki

Comments

Post a Comment

Popular posts from this blog

Publication Standards Project egitasmoa: manifestu bat ebooken arloko estandarizazioaren alde

Zenbateraino da onuragarria papera birziklatzea?

Hiztegi elebidunak erabiltzeak dituen arriskuak