Semantika enpresaren zerbitzuan

Semantika hizkuntzalaritzaren adar bat da

Hizkuntzalaritza hizkuntzaren azterketa zientifikoa da eta semantika esanahiaren aldetik hizkuntza aztertzen duen hizkuntzalaritzaren adarra.

Hizkuntzalaritza eta informatika eskuz esku doaz gaur egun

1950eko hamarkadatik hona bi jakintza-arlo horiek gero eta lankidetza estuagoan dihardute eta Linguistika Konputazionala deritzogun arlo berri bat sortu dute. Hiru esparru nagusitan ari da lanean diziplina hori:

  • Ahozko hizketaren tratamenduan, hau da, seinale akustikoaren tratamenduan,  hizketa -ezagutze automatikoan, hizketa testu bihurtzean eta ahotsaren sintesian.
  • Hizkuntzaren tratamendu edo ingeniaritza linguistikoan, batez ere eginkizun hauetan: corpusen anotazioan, entitateen (pertsona- eta leku-izenak, markak, etab.en) erauzketan, itzulpen automatikoan, laburpen automatikoan, dokumentu multzoetan bilaketak egitean.
  • Gizakiaren eta makinaren arteko elkarrizketan.
Web semantikoa

Asko aipatzen den izen horren azpian, egia esan, ez dago semantika askorik. Dagoena da Interneteko informazioa egituratzeko eta erlazionatzeko modu bat, e
rlazioak deskribatzen dituzten metadaduen bidez. Datuek duten esanahia ez da benetan tratatzen ezta interpretatzen ere. Horrek balio du batez ere datuak hainbat aplikaziok, enpresak eta erabiltzaile-taldek partekatzeko eta berrerabiltzeko.

Hizkuntzaren prozesamendu automatikoaren (HPA) eta web semantikoaren arteko erlazioak

Zein bere aldetik jaiotako teknologiak izan arren, elkarren osagarri dira. HPA desanbiguatzeko edo anotazioak eta dokumentuen itzulpena automatizatzeko baliagarria da. Web semantikoak, berriz, baliabideak partekatzeko eta bateragarri egiteko estandarrak eskaintzen ditu. Horrela, HPAk denbora irabazten eta produktibitatea handitzen laguntzen du, entitateen erakuzketaren, dokumentuen sailkapenaren eta anotazioaren bidez, web semantikoaren estandarrak erabiliz.

Gainera web semantikoak kontzeptuak sare semantikoen arabera antolatzen ditu. Sare semantikoen ideia hori Hizkuntzalaritzatik datorkio hain zuzen. 


Informazioa enpresan

Enpresetan gero eta informazio gehiago erabiltzen da. Horrek sistema informatiko batek informazioa automatikoki tratatzeko moduan egituraturik edukitzea eskatzen du ezinbestean. Hau da, formularioak, fakturak eta kudeaketan erabiltzen diren gainerako dokumentu eta datuak sistema informatikoak automatikoki prozesatzeko moduan egon behar dute egituraturik.

Enpresetan, ordea, informazio asko egituratu gabe egoten da. Informazio horiek gizakiek soilik prozesa ditzakete. Testuak, irudiak, soinu- edo bideo-grabazioak izaten dira era horretako informazioak.

Beste informazio batzuk erdi egituratuak izaten dira. Adibidez, email bat erdi egituratua da, baduelako zati bat egituratua (hartzaileak, izenburua, helbidea) eta beste bat (mezua) egituratu gabea.

Informazio egituratu gabea kudeatu beharra dago enpresan

Enpresetan informazioa gero eta ugariagoa izateaz gain, informazio egituratu gabearen proportzioa gero eta handiagoa dela diote aditu batzuek. Datu multzoak oso handiak eta konplexuak egiten direnean ezin izaten dira datu-baseak kudeatzeko ohiko sistemez prozesatu. Datu multzo erraldoi horiei Big Data esaten zaie. Bestalde, Open Data deritzen datu multzo publikoak eta hainbat jatorri dituzten Linked Data datu-multzoak kontuan hartzen baditugu, arazoa are konplexuagoa dela ohartuko gara.


Informaziotik jakintzara

Datuak izateak ez du askorik balio, horietatik ondorioak ateratzen ez badira. Saltoki handi batek, esate baterako, milaka salmenta asko prozesatzen ditu egunero eta salmenta bakoitzari datu asko dagozkio: produktu mota, prezioa, kopurua, bezeroaren fidelizazio-txartelaren datuak, salmentaren eguna eta ordua, produktu horrekin batera saldu diren produktuen datuak, hornitzailearenak, etab. Zertako balio du, ordea, datu horiek guztiak gordetzeak, hortik ondoriorik ateratzen ez bada?

Teknologia semantikoen ekarpenak

Batez ere informazioa bilatu ahal izateko, garrantzitsua da informazio egituratu gabea nola edo hala sailkaturik izatea. Askoz informazio gutxiago erabiltzen zen garaian dokumentalistek, liburuzainek eta artxibozainek eskuz etiketatzen zituzten dokumentuak, gakohitzak erabiliz eta hauen zerrenda kontrolatuak kudeatuz. Gaur egun, testu-meatzaritzako aplikazioek eta entitate-erauzleek laguntzen diete kategoriak identifikatzen, eta gero metadatuen bitartez egiten da dokumentuen anotazio semantikoa.

Bilaketak egiteko, antzina dokumentalistarengana jo behar izaten zen, hark zekielako espezialista ez zen galdera-egilearen hizkera gakohitzetara itzultzen. Oraingo dokumentazio-sistemak sinonimoak, hiperonimoak eta hiponimoak, osoa/atala edo zioa/ondorioa moduko erlazioak maneiatzeko gai izaten dira, eta horrela erabiltzaile arruntak ez du dokumentalistaren hainbesteko beharrik izaten.

Teknologia semantikoek, zuzenketa ortografikoaren bidez ere laguntzen dute bilaketak egiten. Erabiltzaileak teklak gaizki jotzen dituenean edo grafia okerra erabiltzen duenean bilaketa bat egiteko garaian sistemak hurbileko formak proposatzen dizkio. Hitzak osorik idatzi gabe ere sistemak igartzen du askotan erabiltzaileak idatzi nahi duena, eta denbora irabazten laguntzen dio. Polisemia dagoen kasuetan ere laguntzen dio, testuinguruaren araberako desanbiguazioaren bidez.

Edukiak hainbat irizpideren arabera sailkatuz gero, enpresaren zerbitzu bakoitzak bere bilaketa-irizpide propioekin lan egin ahal izango du. Bakoitzak irazki egokiak erabiliz esanguratsua zaion informazioa aurkituko du. Zenbat eta irizpide gehiagoren arabera etiketatu edukiak metadatuen bitartez orduan eta bilaketa zehatzagoak egin ahal izango dira.

Teknologia semantikoek eta, batez ere, web semantikoak irauli egin dute datuei buruzko planteamendua. Orain arte datu-base erlazionalen eredua erabiltzen zen, eta aldiro-aldiro datuen eskema, hau da, taulen egitura birdefinitu behar zen. Orain, aldiz, ontologiak erabiltzen dira eta  hori eredu unibertsalagoa da. Baliabide bakoitza nodo bat da, beste nodo batzuei erlazio bidez estekatua. Baliabideen multzoa kontzeptu-grafo bat da eta erlazioak subjektu-predikatu-objektu hirukoteen (RDF)  bidez zehazten dira. Adibidez, ondoko irudian ageri den hirukoteak adierazten du Usurbilen kokapena Gipuzkoa dela.


Amaraunean hirukote honek, atzitu ahal izateko, identifikatzaile bakar bat, URI bat, behar du.

Ontologia bat bi geruzak osatzen dute:


  1. Geruza kontzeptualak, non objektu motak eta objektuen arteko erlazioak zehazten baitira, dela RDFS eskema baten bitartez, kasu sinpleetan, edo weberako OWL ontologia-lengoaiaren bidez, kasu konplexuagoetan.
  2. Instantziazio-geruzak, non ereduaren araberako objektu erreala sortzen baita.
Aurreko irudian ikusten dena instantziazio-geruzari dagokio hain zuzen, baina bistan denez kasu konkretu horretarako ez ezik klase bereko guztientzat kontzeptu-mailan zehaztu behar da herria-kokapena-herrialdea eredua.

Datu-eredua mantentzeko, beharrezkoa da eremu jakin bateko terminoak zerrendatzea eta haien artean izan daitezkeen erlazio semantikoak zehaztea. 

Datuak biltegiratzea

Jakintza grafo bidezko ereduen bidez adierazteak eskatu du datuak biltegiratzeko era berriak asmatzea, zehazki RDF hirukoteak biltegiratzeko eta eskuratzeko datu-base bereziak, triplestoreak. Datu-base erlazionalak kudeatzeko SQL lengoaia erabiltzen den bezala, triplestoreak kudeatzeko SPARQL lengoaia erabiltzen da. Triplestoreek, datu-base erlazionalek ez bezala, aski dute taula bakarra, non hirukoteak biltegiratzen baitira. Bakoitzak bere abantailak ditu: datu-base erlazionalak egokienak dira datuak sinpleak direnean eta triplestoreak, berriz, datuak konplexuak direnean dira egokienak.

Badira, triplestoreez landa, RDF hirukoteak biltegiratzeko beste era batzuk, hala nola XML lengoaiaren bidezkoak.

Edukien analisia eta iritzien meatzaritza

Edukien analisirako tresna gisa, gero eta gehiago, web semantikoa erabiltzen da eta arlo horren barruko aplikaziorik erabilienetako bat Interneten harat-honat sare sozialetan, foroetan, etab. dabiltzan solas-jarioetako sentimenduen analisia da. Enpresa batek laster ezagut ditzake produktu, zerbitzu edo marka bati buruz bezeroek eta bezerogaiek azaltzen dituzten iritziak.

Testu-meatzaritzako eta anotazio semantikorako tresnek, berriz, edukien kudeaketa ahalbidetzen dute, informazio egituratu gabeetatik informazio esanguratsua erauziz, dokumentuari atxikitako metadatuak automatikoki aberastuz, dokumentuak eta haietako edukia aurkitzea erraztuz.

Teknologia semantikoek aplikazio zuzena dute merkataritza elektronikoan. Lehenik eta behin, amaraunean erabiltzaileek egiten dituzten bilaketetatik trafiko ugariagoa bideratzen da webgunera. Behin bezeroa webgunera iritsi ondoren, teknologia semantikoari esker, hura hobeto orientatuko da, katalogoa ondo indexaturik egongo delako, erabiltzaileak teklak jotzean egiten dituen akatsak gorabehera erantzun zuzenak jasoko dituelako, informazioa irazteko baliabideak izango dituelako, bezeroari bilatzen ari den produktuen osagarriak eskainiko dizkiolako. 

Enpresaren intraweb semantikoa

Web semantikoaren bidez amaraun osoko datuak elkarrekin erlazionatzea ametsa izan daiteke, baina hori enpresa mailan egitea ez da hainbesteko ametsa. Gainera, helburu hori jartzeak enpresetan izaten den arazo bati konponbidea eman dakioke: enpresetan, behar berriak sortu ahala, datu-base berriak sortu ohi dira, eta, horren ondorioz, erlazionatu gabeko hainbat datu-biltegi sortzen dira, datu guztien ikuspegi bateratua izatea oztopatuz.

Teknologia semantikoko soluzioak eskaintzen dituzten enpresa batzuk


Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

Kale-neurketak eta kaleko neurketak

bozak, bozkak, bozketak, botoak