
IBM bets big on Spark, calling it the Linux of Big Data analytics
Η IBM ποντάρει πολλά στην υποστήριξη του Apache Spark, την μηχανή υψηλών-ταχυτήτων ανάλυσης και εκμάθησης-μηχανής, η οποία είναι ότι πιο hot αυτή τη στιγμή σε σχέση με Big Data. Η IBM ανέφερε ότι θα ενσωματώσει το Spark σε όλες τις πλατφόρμες της, θα δεσμεύσει πάνω από 3,500 ερευνητές και developers σε projects σχετικά με το Spark και θα ανοίξει τον κώδικα λογαριασμού του SystemML, τεχνολογία εκμάθησης μηχανής, για να ανοίξει την πόρτα στην τεχνολογία του Spark. Επίσης θα προσφέρει μαθήματα για να εκπαιδεύσει πάνω από ένα εκατομμύριο επιστήμονες και ερευνητές δεδομένων, ,οι οποίοι θα μπορούν να χρησιμοποιήσουν το Spark.
Παρόλο που θεωρείται από μερικούς ταυτόχρονα και συμπλήρωμα αλλά και ανταγωνιστής του Hadoop, το Spark στην πραγματικότητα είναι ένα από τα πολλά τμήματα του μεγάλου οικοσυστήματος του Hadoop. Είναι μια μηχανή ανάλυσης εσωτερικής μνήμης η οποία δουλεύει σε πολλά συστήματα αρχείων back-end, συμπεριλαμβανομένου του HDFS παρόμοιο με το Hadoop. Το Spark έγινε γρήγορα δημοφιλές σε επιχειρήσεις, οι οποίες δυσκολεύονται στην ανάλυση δεδομένων σε πολλαπλά formats τα οποία έχουν διασκορπιστεί σε μη συμβατές βάσεις δεδομένων και συστήματα αρχείων.
Επειδή τρέχει στην μνήμη, το Spark λειτουργεί 100 φορές πιο γρήγορα από την παρόμοια μηχανή επεξεργασίας MapReduce του Hadoop σε παρόμοια HDFS αρχεία. Επίσης δουλεύει σε αρμονία με τα αποθηκευμένα δεδομένα στα Amazon Web Services' S3, HBase, Apache Cassandra, MySQL και άλλα γνωστά συστήματα αρχείων, που σημαίνει ότι οι εφαρμογές δεν χρειάζεται να επαναγράφονται για κάθε μηχανή. Το Spark θεωρείται ιδιαίτερα δυνατό, όταν δουλεύει πάνω σε μη δομημένα δεδομένα όπως τα Twitter streams.
Με το να θέτουμε ένα ουσιώδες βάρος στο Spark, η IBM κατευθύνεται προς την απλότητα, δήλωσε ο George Gilbert, αναλυτής Big Data στη Wikibon. Ένα από τα κύρια παράπονα για το Hadoop είναι ότι είναι περίπλοκο, μια λειτουργία του μεγάλου οικοσυστήματος που το περιβάλλει, συνέχισε ο Gilbert. Projects σχετικά με το Hadoop όπως τα Hive, Pig, Spark και Impala έχουν τα δικά τους προγράμματα ενημέρωσης, που σημαίνει ότι οι χρήστες πρέπει να κάνουν οι ίδιοι την ενσωμάτωση.