
12 Νοεμβρίου 2025
Η Τεχνητή Νοημοσύνη είναι Μαύρο Κουτί. Η Anthropic Ανακάλυψε Έναν Τρόπο να Κοιτάξει Μέσα.

Περίληψη του άρθρου:
Ο ερευνητής ΤΝ Κρις Ολα, συνιδρυτής της Anthropic, έχει αφιερώσει τα τελευταία χρόνια στην αποκρυπτογράφηση των τεχνητών νευρωνικών δικτύων. Με την εξάπλωση των γλωσσικών μοντέλων όπως το ChatGPT και το Claude, η έλλειψη κατανόησης για τον τρόπο λειτουργίας αυτών των «μαύρων κουτιών» έχει γίνει σημαντική ανησυχία. Η ομάδα του Ολα στην Anthropic επιδιώκει να «κοιτάξει μέσα» σε αυτά τα μοντέλα για να κατανοήσει πώς προκύπτουν συγκεκριμένα αποτελέσματα και να ενισχύσει την ασφάλεια τους.
Χρησιμοποιώντας μια τεχνική που ονομάζεται «εκμάθηση λεξικών», οι ερευνητές της Anthropic ανακάλυψαν πώς οι συνδυασμοί τεχνητών νευρώνων σχετίζονται με συγκεκριμένες έννοιες, όπως «βιολογικά όπλα» ή η «Γέφυρα του Golden Gate». Αυτό το «λεξικό» βοηθά στην κατανόηση του τρόπου με τον οποίο το μοντέλο συνδυάζει δεδομένα για να δημιουργήσει τις απαντήσεις του. Έχουν, επίσης, επιτύχει να χειραγωγήσουν αυτές τις νευρωνικές αλληλουχίες, επιτρέποντας να μειώσουν ή να ενισχύσουν συγκεκριμένα χαρακτηριστικά, κάτι που θα μπορούσε να οδηγήσει σε ασφαλέστερες εφαρμογές.
Η έρευνα της Anthropic δεν είναι η μόνη στον τομέα αυτό. Ομάδες σε άλλες εταιρείες, όπως η DeepMind και το Πανεπιστήμιο Northeastern, εργάζονται επίσης πάνω στην κατανόηση των μοντέλων. Ωστόσο, η δουλειά της Anthropic προσφέρει νέες δυνατότητες στη δημιουργία ασφαλέστερων και πιο διαφανών μοντέλων ΤΝ. Αν και αυτή η έρευνα βρίσκεται ακόμα σε πρώιμο στάδιο, οι ερευνητές πιστεύουν ότι έχουν καταφέρει να ρίξουν λίγο φως στο «μαύρο κουτί» της τεχνητής νοημοσύνης.
Κύρια σημεία του άρθρου:
- Ερευνητές από την Anthropic πέτυχαν σημαντική πρόοδο στην κατανόηση του τι συμβαίνει μέσα σε μεγάλα γλωσσικά μοντέλα (LLMs).
- Χρησιμοποιώντας τεχνικές μηχανιστικής ερμηνευσιμότητας, κατάφεραν να αντιστοιχίσουν συγκεκριμένες συνδυασμένες νευρωνικές διεγέρσεις με έννοιες όπως «βιολογικά όπλα» και «Γέφυρα του Golden Gate».
- Η ανακάλυψη αυτή μπορεί να βελτιώσει την ασφάλεια της ΤΝ, επιτρέποντας στους ερευνητές να αποφεύγουν την παραγωγή επικίνδυνων αποτελεσμάτων.
- Η ομάδα της Anthropic πειραματίζεται με τη χειραγώγηση νευρωνικών δικτύων για να τροποποιήσει συμπεριφορές και να ενισχύσει ή να μειώσει την παρουσία συγκεκριμένων χαρακτηριστικών.
- Αυτή η έρευνα μπορεί να οδηγήσει σε ασφαλέστερες εφαρμογές και καλύτερη κατανόηση των εννοιών που ενσωματώνονται στα LLMs.
Αναλυτικά το άρθρο:
Αυτό που συμβαίνει μέσα στα τεχνητά νευρωνικά δίκτυα παραμένει σε μεγάλο βαθμό ένα μυστήριο, ακόμη και για τους δημιουργούς τους. Αλλά οι ερευνητές της Anthropic κατάφεραν να ρίξουν μια ματιά.Τα τελευταία δέκα χρόνια, ο ερευνητής της ΤΝ Κρις Ολα έχει εστιάσει στις τεχνητές νευρωνικές δικτυώσεις. Μία ερώτηση τον έχει απασχολήσει ιδιαίτερα, που είναι και το κέντρο της δουλειάς του πρώτα στην Google Brain, μετά στην OpenAI και τώρα στην Anthropic, όπου είναι συνιδρυτής: «Τι συμβαίνει μέσα τους;» λέει. «Έχουμε αυτά τα συστήματα, και δεν ξέρουμε τι γίνεται. Φαίνεται τρελό».
Η ερώτηση αυτή έχει γίνει κρίσιμη, καθώς τα μοντέλα γεννητικής ΤΝ έχουν κατακτήσει την καθημερινότητά μας. Μεγάλα γλωσσικά μοντέλα όπως το ChatGPT, το Gemini και το Claude της Anthropic έχουν καταπλήξει τους ανθρώπους με τις γλωσσικές ικανότητές τους, αλλά έχουν επίσης προκαλέσει δυσφορία με την τάση τους να παράγουν αναληθείς πληροφορίες. Οι δυνατότητές τους να επιλύσουν προβλήματα που θεωρούνταν άλυτα γοητεύουν τους τεχνο-αισιόδοξους. Αλλά τα LLM είναι ξένοι στον κόσμο μας. Ακόμη και οι άνθρωποι που τα κατασκευάζουν δεν ξέρουν ακριβώς πώς λειτουργούν, και απαιτείται τεράστια προσπάθεια για να δημιουργηθούν μέτρα προστασίας που θα εμποδίζουν την παραγωγή μεροληψίας, παραπληροφόρησης και ακόμη και σχεδίων για επικίνδυνα χημικά όπλα. Εάν οι δημιουργοί αυτών των μοντέλων ήξεραν τι συμβαίνει μέσα σε αυτά τα «μαύρα κουτιά», θα ήταν ευκολότερο να τα κάνουν πιο ασφαλή.
Ο Ολα πιστεύει ότι είμαστε σε αυτό το μονοπάτι. Ηγείται μιας ομάδας στην Anthropic που έχει καταφέρει να «ρίξει μια ματιά» στο εσωτερικό του μαύρου κουτιού. Σε μεγάλο βαθμό προσπαθούν να κάνουν αντίστροφη μηχανική στα μεγάλα γλωσσικά μοντέλα για να κατανοήσουν γιατί παράγουν συγκεκριμένες απαντήσεις. Σύμφωνα με μια μελέτη που δημοσιεύθηκε σήμερα, έχουν σημειώσει σημαντική πρόοδο.
Οι ερευνητές της Anthropic βυθίστηκαν στον ψηφιακό ιστό του νευρωνικού δικτύου του Claude και εντόπισαν ποιοι συνδυασμοί τεχνητών νευρώνων προκαλούν συγκεκριμένες έννοιες ή «χαρακτηριστικά». Η δουλειά αυτή έχει τεράστιες προοπτικές για την ασφάλεια της ΤΝ: Εάν μπορείς να εντοπίσεις πού κρύβεται ο κίνδυνος μέσα σε ένα LLM, θεωρητικά είσαι καλύτερα εξοπλισμένος να τον αποφύγεις.
Στη συνέχεια, η ομάδα επιχείρησε την πιο δύσκολη εργασία της αποκωδικοποίησης ενός πλήρους LLM στην άγρια φύση. Χρησιμοποίησαν το Claude Sonnet, τη μεσαίας ισχύος έκδοση από τα τρία μοντέλα της Anthropic. Και αυτό δούλεψε. Ένα χαρακτηριστικό που τράβηξε την προσοχή τους συσχετιζόταν με τη Γέφυρα του Golden Gate. Χαρτογράφησαν το σύνολο των νευρώνων που, όταν πυροδοτούνται μαζί, δείχνουν ότι το Claude «σκέφτεται» για τη διάσημη γέφυρα.
Η ομάδα της Anthropic στη συνέχεια έκανε το επόμενο βήμα, προσπαθώντας να χρησιμοποιήσει αυτές τις πληροφορίες για να αλλάξει τη συμπεριφορά του Claude. Άρχισαν να τροποποιούν το νευρωνικό δίκτυο για να ενισχύσουν ή να μειώσουν συγκεκριμένες έννοιες. Για παράδειγμα, κατάφεραν να μειώσουν τα χαρακτηριστικά που σχετίζονται με μη ασφαλείς πρακτικές.
Παρά τους περιορισμούς της προσέγγισης αυτής, οι ερευνητές της Anthropic πιστεύουν ότι έχουν ανοίξει ένα μικρό ρήγμα στο μαύρο κουτί της ΤΝ.
Πηγή: AI Is a Black Box. Anthropic Figured Out a Way to Look Inside






