13 Οκτωβρίου 2024
Η εξόρυξη δεδομένων εξελίσσεται στην νέα εποχή της επιστήμης δεδομένων
Στον κόσμο των big data, βασιλεύουν οι νέες ιδέες. Και είτε αυτό είναι ο εντοπισμός των πιθανοτήτων εξαπάτησης μέσω πιστωτικών καρτών, είτε είναι οι χρήσιμες πληροφορίες για τους πελάτες είτε η παρουσίαση μακρινών γαλαξιών χάρη σε άπειρα αστρονομικά δεδομένα, ένα πράγμα γίνεται όλο και πιο σίγουρο: η εξόρυξη δεδομένων.
Ξεκίνησε πριν περίπου 15 χρόνια. Για πολλά χρόνια, δεν μπορούσε να συμμετέχεις σε συνέδριο ΙΤ χωρίς να ακούσεις τουλάχιστον έναν ομιλητή να μιλά για τον αστικό μύθο της επιτυχίας των Walmart στον τομέα των τεχνολογιών για να ξεσκεπάσει άγνωστες πτυχές των καταναλωτικών συνηθειών των πελατών.
Λεγόταν μάλιστα ότι η εταιρία είχε βρει τον τρόπο να ξέρει ότι θα μπορούσε να πωλήσει περισσότερο αλκοόλ τα απογεύματα αν παρουσίαζε τα αλκοολούχα δίπλα στα βρεφικά προϊόντα. Ο λόγος ήταν ότι οι πατεράδες μικρών παιδιών πρέπει πάντοτε να πηγαίνουν και να κάνουν τα ψώνια μετά τη δουλειά. Αν λοιπόν βλέπουν μια μπύρα δίπλα στα βρεφικά προϊόντα, σίγουρα θα την αγοράσουν.
Τότε, η εξόρυξη δεδομένων ήταν κατά πολύ δυνατότητα μόνο μεγάλων επιχειρήσεων με μεγάλες αποθήκες δεδομένων. Αλλά, χάρη στην αύξηση της κινητής τηλεφωνίας, των κοινωνικών δικτύων και του cloud όλα αυτά τα χρόνια, όχι μόνο υπάρχουν πολύ περισσότερα μη δομημένα δεδομένα που χρειάζονται επεξεργασία, αλλά και πολλές επιχειρήσεις μπορούν πια να αντέξουν οικονομικά την χρήση κέντρων δεδομένων.
Σήμερα, πολλοί οργανισμοί προσπαθούν να αναπτύξουν στρατηγικές big data. Και αν και δεν ακούγεται τόσο πολύ πια η εξόρυξη δεδομένων όσο παλιότερα, παραμένει όμως σημαντική, αναπτύσσεται και είναι απαραίτητη για κάθε επιστήμονα δεδομένων. Αλλά τι ακριβώς είναι και πώς διαφέρει από τα business analytics;
Ουσιαστικά, η εξόρυξη δεδομένων είναι υποκατηγορία των analytics που χρησιμοποιεί αλγόριθμους για να ελέγχει τεράστιους όγκους δεδομένων και να εντοπίζει νέες λειτουργίες και σχέσεις μεταξύ τους. Διαφέρει από άλλου είδους στατιστικές αναλύσεις στο ότι, αντί να κάνει υποθέσεις, διαχωρίζει τα δεδομένα με διάφορους τρόπους και εντοπίζει οτιδήποτε είναι ενδιαφέρον.
Σχέσεις και αιτίες
Ενώ οι τεχνικές εξόρυξης δεδομένων μπορούν να βρουν νέες λειτουργίες στα δεδομένα, είναι ακόμη απαραίτητος ένας επιστήμονας δεδομένων που θα ελέγξει τι ακριβώς είναι χρήσιμο από το απλά ενδιαφέρον. Η αυτοματοποιημένη αναγνώριση λειτουργιών μπορεί να εντοπίζει διάφορα πράγματα στα δεδομένα που σχετίζονται μεταξύ τους, αλλά δεν σημαίνει αυτό απαραίτητα ότι υπάρχει σχέση μεταξύ του Χ και του Ψ.
Ξεκίνησε πριν περίπου 15 χρόνια. Για πολλά χρόνια, δεν μπορούσε να συμμετέχεις σε συνέδριο ΙΤ χωρίς να ακούσεις τουλάχιστον έναν ομιλητή να μιλά για τον αστικό μύθο της επιτυχίας των Walmart στον τομέα των τεχνολογιών για να ξεσκεπάσει άγνωστες πτυχές των καταναλωτικών συνηθειών των πελατών.
Λεγόταν μάλιστα ότι η εταιρία είχε βρει τον τρόπο να ξέρει ότι θα μπορούσε να πωλήσει περισσότερο αλκοόλ τα απογεύματα αν παρουσίαζε τα αλκοολούχα δίπλα στα βρεφικά προϊόντα. Ο λόγος ήταν ότι οι πατεράδες μικρών παιδιών πρέπει πάντοτε να πηγαίνουν και να κάνουν τα ψώνια μετά τη δουλειά. Αν λοιπόν βλέπουν μια μπύρα δίπλα στα βρεφικά προϊόντα, σίγουρα θα την αγοράσουν.
Τότε, η εξόρυξη δεδομένων ήταν κατά πολύ δυνατότητα μόνο μεγάλων επιχειρήσεων με μεγάλες αποθήκες δεδομένων. Αλλά, χάρη στην αύξηση της κινητής τηλεφωνίας, των κοινωνικών δικτύων και του cloud όλα αυτά τα χρόνια, όχι μόνο υπάρχουν πολύ περισσότερα μη δομημένα δεδομένα που χρειάζονται επεξεργασία, αλλά και πολλές επιχειρήσεις μπορούν πια να αντέξουν οικονομικά την χρήση κέντρων δεδομένων.
Σήμερα, πολλοί οργανισμοί προσπαθούν να αναπτύξουν στρατηγικές big data. Και αν και δεν ακούγεται τόσο πολύ πια η εξόρυξη δεδομένων όσο παλιότερα, παραμένει όμως σημαντική, αναπτύσσεται και είναι απαραίτητη για κάθε επιστήμονα δεδομένων. Αλλά τι ακριβώς είναι και πώς διαφέρει από τα business analytics;
Ουσιαστικά, η εξόρυξη δεδομένων είναι υποκατηγορία των analytics που χρησιμοποιεί αλγόριθμους για να ελέγχει τεράστιους όγκους δεδομένων και να εντοπίζει νέες λειτουργίες και σχέσεις μεταξύ τους. Διαφέρει από άλλου είδους στατιστικές αναλύσεις στο ότι, αντί να κάνει υποθέσεις, διαχωρίζει τα δεδομένα με διάφορους τρόπους και εντοπίζει οτιδήποτε είναι ενδιαφέρον.
Σχέσεις και αιτίες
Ενώ οι τεχνικές εξόρυξης δεδομένων μπορούν να βρουν νέες λειτουργίες στα δεδομένα, είναι ακόμη απαραίτητος ένας επιστήμονας δεδομένων που θα ελέγξει τι ακριβώς είναι χρήσιμο από το απλά ενδιαφέρον. Η αυτοματοποιημένη αναγνώριση λειτουργιών μπορεί να εντοπίζει διάφορα πράγματα στα δεδομένα που σχετίζονται μεταξύ τους, αλλά δεν σημαίνει αυτό απαραίτητα ότι υπάρχει σχέση μεταξύ του Χ και του Ψ.