14 Ιανουαρίου 2025

Η Spark είναι το μεγαλύτερο πλαίσιο δεδομένων

Η Apache Spark εμφανίστηκε στον χάρτη των πολλών επαγγελματιών δεδομένων στις 30 Μαΐου όταν η Apache Software Foundation ανακοίνωσε την έκδοση 1.0  της πλατφόρμας ανοιχτού κώδικα. Είναι όμως έτοιμη η Spark να μπει για τα καλά στα επιχειρηματικά;

Ακούγοντας του ομιλητές στο συνέδριο της Spark την προηγούμενη εβδομάδα, η απάντηση μάλλον είναι ναι, αν και η πραγματικότητα είναι πιο περίπλοκη. Η Spark συχνά περιγράφεται ως περιβάλλον που απλά βασίζεται σε αποθήκες δεδομένων όπως οι Hadoop, NoSQL, Amazon Web Services (AWS) και άλλες τέτοιες, λειτουργεί ως διασύνδεση προγραμματισμού εφαρμογών (ΑΡΙ) και επιτρέπει σε προγραμματιστές να διαχειρίζονται τα δεδομένα μέσω κοινών εφαρμογών. Η Spark λειτουργεί με διάφορες εφαρμογές, όπως η μηχανή ερωτήσεων SQL, μια βιβλιοθήκη αλγορίθμων, μια μηχανή γραφικών και δεδομένων.

Υπάρχει μια ευκαιρία για την Spark να γίνει η Lingua Franca των big data, ανέφερε ο Eric Baldeschwieler, ένας σύμβουλος τεχνολογίας και πρώην συνιδρυτής και διευθύνων σύμβουλος τεχνολογίας της Hortonworks. Η Hortonworks είναι μια από τις διάφορες εταιρείες που ενσωματώνουν την Spark στις διανομές της Hadoop, συμπεριλαμβανομένων των Cloudera, IBM, MapR and Pivotal. Κάπου εκεί βρίσκεται και η υπόσχεση της Spark. Οι υποστηρικτές αναφέρουν πως συμπληρώνει την Hadoop, ενώ κάνει το νέο σύστημα αρχείων ακόμη πιο λειτουργικό. Καμία άλλη πλατφόρμα, αναφέρουν, δεν ενσωματώνει τόσο καλά τόσο διαφορετικές τεχνολογίες και λειτουργίες.

Ο M.C. Srivas, ΔΤΣ και συνιδρυτής του διανομέα της Hadoop, MapR, είναι ιδιαίτερα ενθουσιασμένος που η Spark έχει γίνει συνεργάτιδα εταιρεία με την Hadoop. Δίνει μια εναλλακτική, σύμφωνα με αυτόν, σε σχέση με την λιγότερο καλή γλώσσα MapReduce, και από τη στιγμή που η Spark κάνει προσπέλαση σε δεδομένα μνήμης, επιτρέπει την πρόσβαση σε Hadoop σε πραγματικό χρόνο. Υπάρχουν πολλές ευκαιρίες να γίνει καλύτερη, αλλά πιστεύω ότι η Apache Spark είναι ότι πιο ενδιαφέρον έχει συμβεί στα big data σήμερα, αναφέρει ο Eric Baldeschwieler, σύμβουλος τεχνολογίας και επίσης πρώην συνιδρυτής και ΔΣΤ στη  Hortonworks.

Η περισσότερη φλυαρία για την Spark έχει σχέση με την δυνατότητα ενσωμάτωσής της διάφορων δεδομένων και να παρέχει απλές διασυνδέσεις. Αλλά αρχίζει να προσφέρει όλο και περισσότερα σε επιστήμονες των δεδομένων που δεν τους ενδιαφέρει τόσο πολύ η διαχείριση των άπειρων δεδομένων.

Ο Patrick Wendell, κατασκευαστής λογισμικού στην Databricks, ανέφερε ότι η έκδοση 1.0 περιλάμβανε 15 προκαθορισμένους αλγόριθμους γνώσης μηχανής στην βιβλιοθήκη γνώσης μηχανής της (MLlib). Αναμένεται να διπλασιαστούν στην έκδοση 1.1. «Οι βιβλιοθήκες είναι το μέλλον της Spark,» ανέφερε ο Wendell. «Σε αυτές έχει επενδύσει η κοινότητα και από αυτές αναμένεται η καινοτομία. Το μέλλον της Spark βασίζεται σε αυτές.»

Άρα πρέπει όλες οι εταιρείες να ξεκινήσουν σχέδια ενσωμάτωσης της δικής τους Spark; Είναι πολύ νωρίς για να το πούμε αυτό. Η ιδέα μιας και μοναδικής ΑΡΙ για διάδραση και διαχείριση δεδομένων, ή την διαχείριση προηγμένων analytics και απλούστερων λειτουργιών αναφοράς ελκύει περισσότερο. Οι χρήστες σήμερα απογοητεύονται από τα άπειρα εργαλεία που πρέπει να διαχειρίζονται, αναλύουν και αναφέρουν τα δεδομένα. Αλλά και η Spark έχει ακόμα κάποια κενά.«Πολλές ευκαιρίες υπάρχουν για να γίνει καλύτερη, αλλά πιστεύω ότι η Apache Spark είναι ό,τι πιο συναρπαστικό στα big data σήμερα,» ανέφερε ο Baldeschwieler.