Big data marketinean (I). Oinarriak.

 Big data eta marketina

Informatikan, ohiko datu-baseak kudeatzeko softwarea edo datuak prozesatzeko ohiko aplikazioak erabiliz nekez prozesa daitezkeen datu-multzo erraldoiei esaten zaie big data. Gaur egun uholdeka sortzen dira datuak eta urtean-urtean izugarri hazten da kopuru hori. Marketinaren ikuspegitik, bezeroekiko harremanetako datuak kudeatzeko gai izanez gero, datu horiek altxor baliotsua dira, baina hortxe dago koska: nola atzeman, analizatu, gorde, transmititu, kontsultatu, hain datu multzo handiak?

Dagoeneko enpresa askok erabiltzen dituzte datu horiek, beren bezeroekiko komunikazioak pertsonalizatzeko. Datu horien bidez, bezeroen erosketen historiala ezagutzen dute, webgunean zer bilaketa egin dituzten, zer ikusi duten, zer erosi duten, zer duten gustuko eta zer ez, etab.


Teknika horren aplikazioetako bat bezeroari egokienak zaizkion gomendioak ematea da. Erabiltzaileak enpresarekin izan dituen harremanek portaera molde batzuk erakusten dituzte. Horiek baliatuz, aurreikus daiteke beste zer produktu eta zerbitzu interesatuko zaizkion gehiena. 

Beste aplikazio bat sentimenduen analisia da, hau da, jendeak enpresaz eta bere produktu eta zerbitzuez azaltzen dituen aldeko eta kontrako iritzien azterketa. Idatziz azaldutako iritzien azterketan, hizkuntzaren prozesamendua erabiltzen da.

Noiznahi eta non-nahi aldean eramaten ditugun sakelako telefono aurreratuen erabilera guztiz hedaturik dagoenetik, telefono bidezko publizitatea oso garrantzitsua bihurtu da. Interneteko plataformek telefonoetako sentsoreek igortzen dizkieten datuak jasotzen dituzte, hala nola GPSarenak. Informazio hori erabiliz, erabiltzaileari posizio geografikoaren araberako iragarkiak eta eskaintzak iritsarazten zaizkio.


Enpresa guztiek bezeriaren joerak ezagutu nahi dituzte, merkatuaren bilakaera zein den jakiteko. Big datarako produktu batzuek fenomeno horien ereduak egiten dituzte, enpresei bezeria egokienetan arreta jartzea ahalbidetzen dietenak. Mota horretako aplikazioek ez dituzte bezero jakinen datuak aztertzen, bezeroen multzoarenak baizik.

Datu egituratu gabeen arazoak

Organizazioetan datu asko transakzioetatik datoz eta datu-baseetan gordetzen dira. Horiek datu egituratuak dira baina beste datu asko egituratu gabeak izaten dira: emailak, dokumentuak, argazkiak, sare sozialetako mezuak, blogak, Interneteko bilaketak eta bideoak. Era horretako datu gehienak testuzkoak  izaten dira baina hainbat formatutakoak, hau da PDFak, Power Pointeko aurkezpenak, XML formatukoak, etab. Datu hauek ez dira egokiak ohiko datu-baseen bidez kudeatzeko. Ez da erraza haiek antolatzea, daukaten informazioaren arabera. Txarrena da, gainera, asko datozela denbora jakin batean. Datu horiek eskuratzeak, gordetzeak, garbitzeak, bilatzeak eta prozesatzeak kostu handia dute eta denbora asko eskatzen dute.

Datu egituratu gabeak tratatzeko teknologiak

Datu egituratu gabeak tratatzeko teknologia gehienak kode irekiko oinarri batzuen gainean daude eraikiak, batez ere Hadoop deritzonaren gainean. Datu multzo handiak ingurune informatiko banatu batean prozesatzen laguntzeko diseinatuta dago Hadoop.

Hadoopek informazioa banatuz osaturiko sorta handiak maneia ditzake baina gehienetan Twitter edo Facebooken jendeak sortzen dituen datuak denbora errealean prozesatu beharra izaten da. Datu horiek abiadura handian iristen dira. Horiek denbora errealean maneiatzeko, badira kode irekiko beste bi ingurune: Storm eta Spark
. Bai batak eta bai besteak integra ditzake datuak datu-baseak kudeatzeko edozein sistemarekin. Esan dugun bezala, ordea, datu egituratu gabeak ez dira egokiak datu-base erlazionalen eredura moldatzeko. 


Enpresa asko planteamendu hibrido bat ari dira erabiltzen, datu egituratuak datu-baseetan kudeatzen dituzte eta datu egituratu gabeen multzo handiak SQL motakoak ez diren hodeiko datu-baseetan izaten dituzte. SQL motakoak ez diren datu base horiek antola daitezke datuekin egin nahi denaren arabera. Adibidez, datu multzoen arteko loturak bilatzeko analisian erabili nahi badira  soluziorik onena datu-base grafiko bat izan daiteke, adibidez Neo4j.

Dena den, datu multzo handiei probetxua ateratzeko, urratsez urrats joan behar da: eskuratu, biltegiratu, garbitu eta analizatu. Hori egiteko joera bat urrats bakoitza geruza batean egitea da.

Datu egituratuak eta egituratu gabeak konbinatzeak dituen abantailak


Salmentan diharduen enpresa batek sare sozialetako mezuak, lekuan lekuko eguraldiari buruzko datuak, webguneetan egiten diren klikak, dendetan egiten diren trans
akzioak, bezeroei eta produktuei buruzko datuak jasotzen ditu etengabe. Datu horiek aztertuz jakin daiteke zer produktu saltzen diren elkarrekin eta zein den produkturik egokiena dendan jartzeko, saltoki jakin batean izango den eskaria aurreikusteko edo bezeroei eskaintza pertsonalizatuak egiteko.


 Datu mota desberdinen integrazioa

Big datarako aplikazioa eta tratatu beharreko datu motak edozein direlarik ere, datu mota guztiak integratzea da egokiena. Datuak integratzeak esan nahi du hainbat iturritatik datozen datuak batzea eta horietatik informazio esanguratsua lortzea. Datuak integratzeko prozesuak hainbat urrats ditu. Datuak atzituz hasten da; gero datuak modelizatu eta eraldatu egiten dira. 

Big dataren ezaugarriak



Hiru dira ezaugarri nagusiak: kopurua, abiadura eta aniztasuna. Kontuan izan beharreko beste bi ezaugarri fidagarritasuna eta datuen arteko konexioak dira. Kopuruak terabyten mailakoak izaten dira gutxienez. Gogoan izan 1 TB = 103 GB = 106 MB dela.

Kopuru horiek maneiatzeak hainbat eragozpen ditu. Lehena leku asko behar dela. Gero datuak bilatzeko eta mugitzeko behar diren denbora, sarea, banda-zabalera. Erabaki behar da enpresaren sisteman ala hodeian eduki eta prozesatuko diren datuak. Gogoan izan behar da, gainera, analizatzeko sistemek gai izan behar dutela kopuruak handitu ahala balio izaten jarraitzeko, hau da eskalagarriak izan behar dutela. Bestela errendimendua txartzen joango da eta kostua handitzen.

Datuak gero eta lasterrago sortzen dira. Denbora errealean tratatu behar badira, esate baterako erabiltzaile bat webean egiten ari den bilaketen edo erosketen arabera hari publizitatea igortzeko, gaitasuna behar du sistemak lastertasun horri erantzuteko. Biltegiraturik dauden datu sortak prozesatzeak, aldiz, ez ditu horren eskakizun estuak.

Datuen aniztasuna hainbat eratakoa da. Ahotsezko mezu bat, argazki bat, Facebook-eko mezu bat eta PDF dokumentu bat desberdinak dira egituraz. Email bat, berriz, konplexua izan daiteke, testuaz gain fitxategi atxikiak baldin baditu.

Konplexutasun horren guztiaren ondorioz beste arazo bat ere agertzen da: datuen fidagarritasunarena.


Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

bozak, bozkak, bozketak, botoak

Kale-neurketak eta kaleko neurketak