Η Amazon λύνει ένα πρόβλημα που ταλαιπωρεί τα data centers εδώ και δεκαετίες – και μπορεί να αποκτήσει σημαντικό πλεονέκτημα στην εποχή της AI

Περίληψη
Η Amazon ανακοίνωσε ότι ανέπτυξε και ήδη χρησιμοποιεί σε πραγματικά data centers μια νέα αρχιτεκτονική δικτύωσης που ονομάζει RNG. Η προσέγγιση βασίζεται σε «ημι-τυχαία» (quasi-random) δίκτυα και υπόσχεται μεγαλύτερη ταχύτητα, χαμηλότερη κατανάλωση ενέργειας και σημαντική μείωση του εξοπλισμού που απαιτείται για τη λειτουργία cloud υποδομών.
Κύρια σημεία
Τι πέτυχε η Amazon
Σύμφωνα με την AWS:
- 33% μεγαλύτερη διακίνηση δεδομένων (throughput)
- 40% λιγότερη κατανάλωση ενέργειας
- 27% χαμηλότερο λειτουργικό κόστος
- 69% λιγότεροι routers και switches
σε σχέση με παραδοσιακές αρχιτεκτονικές data centers.
️ Τι είναι το RNG
Τα περισσότερα data centers σήμερα χρησιμοποιούν αρχιτεκτονική τύπου Fat Tree.
Δηλαδή:
- τα δεδομένα ανεβαίνουν και κατεβαίνουν σε επίπεδα
- υπάρχουν κεντρικοί κόμβοι
- δημιουργούνται bottlenecks
Η Amazon δημιούργησε ένα σχεδόν επίπεδο (flat) δίκτυο όπου τα δεδομένα μπορούν να ταξιδεύουν από πολλές διαφορετικές διαδρομές.
Η ιδέα θυμίζει τα παλιά ερευνητικά concepts τύπου Jellyfish Networks, τα οποία θεωρούνταν εξαιρετικά θεωρητικά αλλά δύσκολα στην υλοποίηση. Η Amazon ισχυρίζεται ότι κατάφερε να τα εφαρμόσει σε παραγωγή.
Το μυστικό όπλο: ShuffleBox
Η Amazon σχεδίασε νέο hardware με το όνομα:
ShuffleBox
Το οποίο:
- οργανώνει αυτόματα τις οπτικές ίνες
- μειώνει δραματικά την πολυπλοκότητα καλωδίωσης
- επιτρέπει την τυχαία συνδεσιμότητα χωρίς χάος στο φυσικό δίκτυο
Το ShuffleBox φαίνεται να είναι η πραγματική καινοτομία που έκανε το RNG πρακτικά υλοποιήσιμο.
Γιατί αυτό είναι σημαντικό για την AI
Το άρθρο αναφέρει ότι η Amazon δεν σχεδίασε το RNG ειδικά για AI training.
Αλλά στην πράξη η εξέλιξη αυτή είναι τεράστια για την AI γιατί:
- τα μεγάλα μοντέλα χρειάζονται όλο και περισσότερα data centers
- η ενέργεια γίνεται ο μεγαλύτερος περιορισμός
- η δικτύωση είναι πλέον εξίσου σημαντική με τα GPUs
Σήμερα η αγορά επικεντρώνεται σε:
- Nvidia
- AMD
- Intel
- TSMC
Όμως το επόμενο bottleneck ίσως είναι:
το δίκτυο που ενώνει τα chips μεταξύ τους.
Σύνδεση με Nvidia και Intel
Η Nvidia έχει επενδύσει τεράστια ποσά σε:
- InfiniBand
- NVLink
- NVSwitch
γιατί γνωρίζει ότι σε μεγάλα clusters η επικοινωνία μεταξύ chips είναι κρίσιμη.
Η Amazon τώρα φαίνεται να δημιουργεί το αντίστοιχο πλεονέκτημα σε επίπεδο data center infrastructure.
Αν οι αριθμοί της επιβεβαιωθούν:
- θα μειώσει το κόστος cloud
- θα αυξήσει τα περιθώρια κέρδους της AWS
- θα αποκτήσει ανταγωνιστικό πλεονέκτημα έναντι Azure και Google Cloud
