14 Ιανουαρίου 2025

H νέα λύση μεγάλων δεδομένων της Mesosphere: Προσθέστε το Spark, κρατήστε το Hadoop.

Μία λύση επεξεργασίας δεδομένων αναπτύσσει προγράμματα όπως το Spark, το Kafka και το Cassandra, αποφεύγει όμως το Hadoop, για τις ανάγκες μεγάλων δεδομένων σε αληθινό χρόνο και σε εταιρικό επίπεδο.

Αν αναφέρετε εργαλεία μεγάλων δεδομένων όπως το Spark και το Hadoop στους περισσότερους εταιρικούς χρήστες το πρόγραμμα που θα τους έρθει στο μυαλό είναι το Hadoop.

 

Το Mesosphere, εταιρικός υποστηρικτής του πρότζεκτ διαχείρισης συμπλέγματος Apache Mesos, δημιουργεί έναν σωρό μεγάλων δεδομένων που αποφεύγει το Hadoop, αλλά ενστερνίζεται το Spark (και το Cassandra, και το πλαίσιο εκδηλώσεων Akka) για επεξεργασία σε πραγματικό χρόνο.

Το Mesosphere Infinity είναι ένα μία έτοιμη προσφορά- κλειδί για τα μεγάλα δεδομένα και για την τεχνολογία πληροφορικής, και ο κύριος σκοπός της είναι να παρέχει ένα εύκολα αναπτυσσόμενο όγκο για εργασία σε αληθινό χρόνο πάνω στα δεδομένα στον χώρο των επιχειρήσεων. Αποτελεί επίσης και παράδειγμα για το πόσες από τις τεχνολογίες που σχετίζονται με τον σωρό του Hadoop δεν χρειάζονται το Hadoop για να είναι χρήσιμες.

«Κοίτα Μαμά, χωρίς Hadoop!»

Ο Matt Trifiro, διευθυντής μάρκετινγκ του Mesosphere, εξήγησε μέσω μίας τηλεφωνικής συζήτησης πως το Infinity διαχειρίζεται από μία άλλη δημιουργία του Mesosphere: To Mesosphere DCOS, που επιτρέπει σε ολόκληρα κέντρα δεδομένων γεμάτα με εφαρμογές να στήνονται πολύ εύκολα. Το Infinity με την σειρά του είναι χρήσιμο για την διαχείριση μίας σχετικά μικρής ποσότητας εφαρμογών. Το Spark είναι χρήσιμο για την επεξεργασία δεδομένων, το Kafka για την εισδοχή δεδομένων σε αληθινό χρόνο, και ένα άλλο πρότζεκτ με βάση το Apache, το Cassandra, για την αποθήκευση δεδομένων.

«Και ενώ το Infinity δεν αποκλείει το Hadoop» σύμφωνα με τον Trifiro, «δεν το χρειάζεται κιόλας. Μπορείτε να χρησιμοποιήσετε το HDFS του Hadoop, ως ένα κατάστημα δεδομένων, και μπορείτε να χρησιμοποιείτε και το Hadoop για την επεξεργασία δεδομένων που είναι αποθηκευμένα στο Cassandra, σε ότι όμως αφορά την απόκτηση σε πραγματικό χρόνο, θα χρειαστείτε έναν πιο εξειδικευμένο σωρό.»

Σπίθες (Sparks) Έμπνευσης

Το Spark τελευταία έχει τραβήξει πάνω του την προσοχή, από έναν πίνακα με τεχνολογικές φίρμες πρώτου επιπέδου που ενδιαφέρονται και για να επενδύσουν στο πρότζεκτ, αλλά και για να το αναπτύξουν ώστε να μπορεί να φέρει εις πέρας δύσκολες εργασίες επιχειρηματικής ανάλυσης. Ακόμη όμως, όπως αρκετά εργαλεία δεδομένων ανοιχτής πηγής, το Spark από μόνο του είναι περισσότερο «πρότζεκτ», παρα «προϊόν». Δεν αποτελεί μία περίπλοκη προσπάθεια χρήσης σε εταιρικό περιβάλλον.

Ο Trifiro ισχυρίζεται ότι «το Spark και το υπόλοιπο πακέτο Infinity δημιουργήθηκε παρατηρώντας το τι χρησιμοποιούσαν και παρήγαγαν οι άνθρωποι». Οι επιχειρήσεις επιχειρούσαν να ενώσουν το Spark και το Kafka για να πετύχουν ανάλυση σε πραγματικό χρόνο, είπε ο Trifiro επειδή «η ζήτηση για την επεξεργασία δεδομένων σε αληθινό χρόνο από εταιρίες που δεν σχετίζονται με το διαδίκτυο είναι σχετικά καινούρια, και ασκείται ιδιαίτερη πίεση στις ομάδες πληροφοριακών συστημάτων για να πραγματοποιήσουν κάτι τέτοιο.» Το στήσιμο ενός ολόκληρου τέτοιου σωρού στο παρελθόν χρειαζόταν «πολύ εξειδίκευση,» και το Infinity έχει σχεδιαστεί έτσι ώστε να απαιτεί ελάχιστο κόπο για το στήσιμο και την λειτουργία του.

Η Mesosphere σκοπεύει να κάνει ακόμη πιο εύκολη την κατανάλωση του Infinity, προσφέροντας το μέσω των ήδη υπαρχόντων υπηρεσιών cloud. Αυτήν τη στιγμή βέβαια, ο μόνος γνωστός συνεργάτης για την διανομή σε επιχειρήσεις με βάση το cloud είναι η Cisco, η ίδια εταιρία που δούλεψε πλάι στην Mesosphere για την δημιουργία του Infinity.

Μια πιθανή αναλογία είναι η λειτουργία των εφαρμογών σε container, σε σχέση με την χρήση ψηφιοποιήσεων και του OpenStack. Τα container προσφέρουν μία λύση με μεγαλύτερη ακρίβεια στα προβλήματα λειτουργίας των εφαρμογών, στο ίδιο επίπεδο με τα VM. Με τον ίδιο τρόπο, το Spark από μόνο του σε αντίθεση με το Spark σε συνδυασμό με το Hadoop, ίσως να παρουσιάζει μία καλύτερη λύση για τα προβλήματα που αντιμετωπίζουν οι επιχειρήσεις- αρκεί βέβαια να μην γυρνάνε πίσω στο μηδέν εξαιτίας της ανάπτυξης και της διαχείρισης του σωρού Stark.