Big data marketinean (II). Datuen prozesamendua

Prozesua osatzen duten urratsak

Lehenengo eginkizuna datuak eskuratzea da. Eskuratzearen barruan datuak aurkitzeko egin beharreko guztia sartzen da: bilatzea, atzitzea, lortzea eta mugitzea. Batzuetan beharko da datuak soiltzea, leku edo denbora jakin bati dagozkionak hautatzeko. 

Hurrengo jarduera datuen prestakuntza da eta horren barruan lehenbizi datuak aztertzea, zer ezaugarri dituzten ikusteko, hau da, zer informazio daukaten, zer formatu duten eta haien kalitatea zein den. Hori lagin batzuk erabiliz egin ohi da. Horren ondoren, aurreprozesamendua dator: datuak garbitzea, azpimultzoak egiteko iragaztea, irakurtzeko eta ulertzeko egokiak izan daitezkeen programak aukeratzea, datu gordinak modelizatzea, datu-eredu zehatzagoa lortzeko, edo paketatzea.

Hainbat datu multzo baldin badaude jokoan, urrats horretan bertan integratzen dira datu-iturri edo -jario desberdinak. Gero, prestaturiko datuak analisira bideratzen dira, analisi-teknikak zehazten, datuak modelizatzen eta emaitzak aztertzen dira. Urrats hau ziklikoa izan daiteke, datu gehiago sartuz edo datuak beste era batera paketatuz aldi bakoitzean.


Ondoren, analisiaren emaitzak ebaluatu behar dira, aurkezteko prestatu eta komunikatzeko interpretatu eta laburbildu. Azkenekoa helburuaren araberako erabakiak hartzea da.

Datuak prestatzea

Aplikaziorako behar diren datuak batu bezain laster ez da hasi behar datuak aztertzeko ereduak garatzen. Hori baino lehen ikuskatu egin behar dira datuak. Lehen begirada batek lagundu egiten du datuen ezaugarriak hobeto ezagutzen. Korrelaziorik, joera nagusirik eta joera horretatik saihesten den daturik baden ikusiko da. Grafikoak erabil daitezke datuetako aldagaien arteko mendekotasunak aztertzeko. Aldagaien joera nagusiak grafikoen bidez adieraziz gero, ikus daiteke ea aldagai horien balioak norabide beretsuan mugitzen diren, adibidez prezioak goranzko ala beheranzko joera duten.


Saihesten diren datuak batzuetan neurketa-akatsak izaten dira baina beste batzuetan gertaera arraroren baten ondorio izan daitezke. Parametro estatistikoek, hala nola batezbestekoak, mediak, batez besteko desbideratzeak eta ibiltarteak datuen izaeraren ideia bat ematen dute. Batez ere errakuntzak detektatzeko balio dute. Esate baterako, adinak ezin dira negatiboak izan. estatistikan erabiltzen diren histogramak, gaztak, puntu-diagramak, lerro-diagramak eta abar oso erabilgarriak gertatzen dira.

Datuen aurreprozesamendua

Aurreprozesuaren bi helburu nagusiak dira datuak garbitzea, haien kalitatea bermatzeko, eta datu gordinak eraldatzea, analisirako egokiak izan daitezen. Oso ohikoa da kalitate txarreko datuekin topo egitea, esate baterako bezero berberaren helbide bat baino gehiago edo fitxa bat baino gehiago, bat ez datozenak, datu demografiko garrantzitsuak, hala nola, adina edo sexua, digitu kopuru okerra duten posta-kode edo telefono-zenbakiak. Askotan ez da izaten aukerarik datuak jasotzen direnean akatsik gabeak izan daitezen bermatzea. Beraz, akatsak atzeman eta zuzendu egin behar dira.

Erremedioak izan daitezke balioak falta dituzten erregistroak baztertzea, errepikaturik daudenetatik bat uztea, berdinak baldin badira, eta, bestela,  aztertu egin beharko da zein den zuzena edo zuzenik baden, edo berriena ontzat eman. Asko saihesten diren datuak baztertzea egokia izan daiteke. Adibidez, Euskal Herrian bizi diren bezeroen ezaugarriak aztertzen badira atzerrian bizi denen bat agertuz gero kontuan ez izatea.

Behin datuak garbitu eta gero, formatuz egokitu behar dira analisirako. Fase honetan datuak zer ibiltartetakoak izango diren erabaki behar da, hau da, zer adin-tarte, zer esparru geografiko, zer urte-tarte, zer tartetako erosketa-zenbateko, eta abar. Beste eginkizun bat datuak agregatzea da. Esate baterako, adin asko erabili ordez, 18 eta 25 urte dituzte bezero guztiak multzo berean sartzea edo egun berean egiten diren erosketa guztiak bi multzotan sartzea, goizekoak alde batetik eta arratsaldekoak bestetik. Jakina, agregazio maila loturik dago analisiak lor dezakeen bereizmenarekin. Goizeko erosketa guztiak sail berean sartzen baditugu ez dugu modurik izango jakiteko 9:00etatik 10:00etara baino gehiago ala gutxiago saltzen den 10:00etatik 12:00etara.


Sarritan datu gordinak formatuz aldatu behar izaten dira analisirako.

Datuen analisia

Analisiak datuen eredu bat prestatzea eskatzen du. Hainbat motatako arazoak agertzen dira, analisi-teknika desberdinak eskatzen dituztenak. Analisi-teknika nagusiak
dira: sailkapena, erregresioa, multzokatzea, asoziazioen analisia eta analisi grafikoa. Sailkapenaren helburua sartzen diren datuen kategoria aurreikustea da. Adibidez, bezeroak gizonezkoak ala emakumeak diren bereiztea. Kasu horretan sailkapena bitarra da, bi kategoria soilik dituelako. Ereduak kategoria baten ordez zenbakizko balio bat aurreikusi behar duenean erregresio-arazo bat dago. Adibidez zerbaiten salneurria aurreikusi behar denean. Multzokatzean antzeko elementuak taldetan banatzea da eginkizuna. Adibidez, erabiltzaileak heldu, gazte eta haurren taldetan sartzea. Asoziazioen analisian elementuen arteko erlazioak atzemango dituzten erregelak izatea da helburua. Asoziazioen analisiaren adibide bat erosketa-saskiaren azterketa da, hau da, aztertzea zer produktu erosten diren beste produktu batzuekin batera. Datuak adieraz daitezkeenean grafikoki, nodoekin eta estekekin, egokia izan daiteke analisi grafikoa erabiltzea.

Modelizazioan, lehenik eta behin, goian aipaturiko tekniken arteko bat aukeratu behar da, aztergaiaren arabera, Gero eredua sortzen da prestatu diren datuekin. Eredua balidatzeko, beste datu-lagin batzuei aplikatzen zaie. Ohikoena izaten da prestatu diren datuen parte bat eredua sortzeko erabiltzea,  eta beste parte bat gordetzea eredua ebaluatzeko. Erabiltzen diren analisi-tekniken arabera, ebaluatzeko era desberdina izango da.

Sailkapenerako eta erregresiorako, sartzen den lagin bakoitzari dagokion irteera ebaluatuko da. Emaitza egokia ereduak ematen duenarekin alderatuz egingo da ebaluazioa. Multzokatzean, ikusi beharko da emaitzak zentzurik baduen dugun helbururako. Adibidez, bezeroen multzokatzeak islatzen duen gure bezeria, marketin-kanpainetan erabili ahal izateko.


Behin eredua ebaluatu eta gero kontuan hartzekoak dira: ea datu gehiago erabiliz eredua hobetu ote litekeen edo beste era bateko datuak erabiltzea komeni ote den. Bezeria segmentatzeko garaian, ditugun datuekin ezin baditugu bezeroak beren bizilekuen arabera multzokatu posta kodeak sartzea komeniko d.

Comments

Popular posts from this blog

Euskaltzaindiaren Hiztegia. Euskara txukun erabiltzen laguntzen duen tresna.

Kale-neurketak eta kaleko neurketak

bozak, bozkak, bozketak, botoak