16 Μαϊος 2024

Οι ερευνητές της DeepMind ανακαλύπτουν εντυπωσιακές ικανότητες μάθησης σε μακρύ πλαίσιο LLMs

 

Περίληψη άρθρου:

Η μελέτη διερευνά τον αντίκτυπο της μάθησης «πολλών πυροβολισμών» στο πλαίσιο (ICL) με τη χρήση μεγάλων γλωσσικών μοντέλων με εκτεταμένα παράθυρα πλαισίου, επιτρέποντας βελτιωμένη απόδοση χωρίς λεπτομερή ρύθμιση. Η μελέτη καταδεικνύει πώς η κλιμάκωση του αριθμού των παραδειγμάτων στις προτροπές ενισχύει τις ικανότητες του μοντέλου, ιδίως σε εργασίες όπως η μετάφραση και η περίληψη. Νέες τεχνικές όπως η ενισχυμένη και η μη επιβλεπόμενη ICL μειώνουν την ανάγκη για δεδομένα που δημιουργούνται από τον άνθρωπο. Η ICL με πολλές βολές μπορεί να προσαρμόσει τα μοντέλα σε νέες εργασίες και τομείς, μειώνοντας ενδεχομένως την εξάρτηση από τεχνικές όπως η παραγωγή με ενίσχυση της ανάκτησης (RAG) για τις επιχειρήσεις. Ωστόσο, η επεκτασιμότητα παραμένει πρόκληση για την ευρεία υιοθέτηση.

 

Κύρια σημεία του άρθρου:

  • Τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν πλέον να χειριστούν περιεχόμενο πολλών βιβλίων ταυτόχρονα λόγω των διευρυμένων δυνατοτήτων εισόδου.
  • Η μάθηση «πολλών βολών» στο πλαίσιο (ICL) επιτρέπει την τοποθέτηση εκατοντάδων ή χιλιάδων παραδειγμάτων εκπαίδευσης στην προτροπή για τη βελτίωση των ικανοτήτων του μοντέλου χωρίς λεπτομερή ρύθμιση.
  • Η ICL με πολλές βολές μπορεί να αποτελέσει πολύτιμο εργαλείο για τη γρήγορη δημιουργία και επανάληψη πρωτοτύπων εφαρμογών LLM πριν από την κλιμάκωση.
  • Η ICL επιτρέπει στα LLM να μαθαίνουν νέες εργασίες από παραδείγματα που παρέχονται κατά τη στιγμή της συμπερασματολογίας, χωρίς να αλλάζουν οι παράμετροι του μοντέλου.
  • Τα σημερινά μοντέλα υποστηρίζουν πάνω από 100.000 tokens, επιτρέποντας τη συμπερίληψη πολλών παραδειγμάτων σε κάθε προτροπή για ICL.

 

 

Αναλυτικά το άρθρο:

Μέσα σε λίγα χρόνια, τα μεγάλα γλωσσικά μοντέλα (LLM) έχουν περάσει από τον χειρισμό μερικών εκατοντάδων λέξεων εισόδου σε περιεχόμενο πολλών βιβλίων ταυτόχρονα. Αυτές οι διευρυμένες δυνατότητες εισόδου, που αναφέρονται επίσης ως «παράθυρο πλαισίου», επιτρέπουν νέες εφαρμογές και περιπτώσεις χρήσης που ήταν προηγουμένως αδύνατες χωρίς εκτεταμένες προσπάθειες μηχανικής.

Μια νέα μελέτη από ερευνητές της Google DeepMind διερευνά την ικανότητα μάθησης «πολλών βολών» στο πλαίσιο (ICL) των LLM που έχουν πολύ μεγάλα παράθυρα πλαισίου.

Τα ευρήματά τους δείχνουν ότι με την τοποθέτηση εκατοντάδων ή και χιλιάδων παραδειγμάτων εκπαίδευσης στην προτροπή, μπορείτε να βελτιώσετε τις ικανότητες του μοντέλου με τρόπους που προηγουμένως θα απαιτούσαν λεπτομερή ρύθμιση.

Το ICL με μακρύ παράθυρο μπορεί να γίνει ένα σημαντικό εργαλείο για τις επιχειρήσεις που θέλουν να δημιουργήσουν γρήγορα και να επαναλάβουν πρωτότυπα εφαρμογών LLM πριν από τη βελτιστοποίησή τους για κλίμακα.

 

ICL με λίγες βολές έναντι πολλών βολών

Η ICL επιτρέπει στα LLMs να μαθαίνουν νέες εργασίες από παραδείγματα που παρέχονται κατά τη στιγμή της εξαγωγής συμπερασμάτων. Στο LLM δίνεται μια προτροπή που περιέχει πολλά λυμένα παραδείγματα της επιθυμητής εργασίας μαζί με το πρόβλημα που πρέπει να επιλύσει. Η μάθηση εντός πλαισίου αναφέρεται μερικές φορές ως «μάθηση λίγων βολών».

Σε αντίθεση με τη λεπτομερή ρύθμιση συγκεκριμένων εργασιών, η ICL δεν απαιτεί αλλαγή των παραμέτρων του μοντέλου, γεγονός που την καθιστά ευκολότερη στη χρήση και προσιτή σε περισσότερους χρήστες. Ωστόσο, η ICL περιορίζεται από το παράθυρο πλαισίου του μοντέλου. Για παράδειγμα, το GPT-3, είχε ένα παράθυρο πλαισίου περίπου 2.000 tokens, το οποίο περιόριζε τον αριθμό των παραδειγμάτων που μπορούσαν να εισαχθούν στην προτροπή.

Όμως τα σημερινά μοντέλα υποστηρίζουν πάνω από 100.000 μάρκες -και πάνω από ένα εκατομμύριο στην περίπτωση του Gemini 1.5 Pro. Μπορείτε να τοποθετήσετε εκατοντάδες ή χιλιάδες παραδείγματα ICL σε κάθε προτροπή.

Στη μελέτη τους, οι ερευνητές της DeepMind διερεύνησαν τον τρόπο με τον οποίο η ICL με πολλές βολές επηρεάζει την απόδοση των LLM σε επόμενες εργασίες. Πειραματίζονται με διάφορα προβλήματα domains, συμπεριλαμβανομένου του μαθηματικού προβλήματος-solving, ερώτηση-ανταπόκριση, αποτέλεσμα ανταμοιβή-modeling, μετάφραση των χαμηλών πηγών γλωσσών, σχεδιασμός και sentiment ανάλυση.

Σε ορισμένες περιπτώσεις, συμπεριέλαβαν έως και 8.192 παραδείγματα ICL σε μία προτροπή. Τα ευρήματά τους δείχνουν ότι η απόδοση του μοντέλου συνεχίζει να βελτιώνεται καθώς προστίθενται περισσότερα παραδείγματα στην προτροπή. Στις μεταφραστικές εργασίες, το μακρόχρονο ICL στο Gemini Pro έθεσε νέα κορυφαία επίδοση στα κουρδικά και τα ταμίλ, δύο γλώσσες χαμηλού πόρου. Σε εργασίες σύνοψης, η ICL πολλών βολών έφερε το Gemini Pro στο ίδιο επίπεδο με τα μοντέλα σύνοψης που έχουν ρυθμιστεί με ακρίβεια. Σε όλες τις εργασίες, η απόδοση του μοντέλου έφτασε στο μέγιστο μόνο όταν ο αριθμός των παραδειγμάτων εντός πλαισίου κλιμακώθηκε σε εκατοντάδες χιλιάδες tokens.

 

Ενισχυμένη και μη επιβλεπόμενη ICL

Ο κύριος περιορισμός της ICL με πολλές λήψεις είναι η ανάγκη δημιουργίας μεγάλου όγκου παραδειγμάτων υψηλής ποιότητας που δημιουργούνται από τον άνθρωπο, γεγονός που επιδεινώνεται περισσότερο σε εργασίες συλλογιστικής. Οι ερευνητές προτείνουν δύο τεχνικές για τη μείωση της εξάρτησης της μάθησης πολλών βολών από δεδομένα που δημιουργούνται από τον άνθρωπο.

Η πρώτη τεχνική, η «ενισχυμένη ICL», αντικαθιστά τα ανθρώπινα δημιουργημένα παραδείγματα με λογικές που δημιουργούνται από μοντέλα. Στο LLM δίνεται ένα εκπαιδευτικό πρόβλημα και μια προτροπή για αλυσίδα σκέψης λίγων ή μηδενικών βολών για να δειγματίσει πολλαπλές λογικές. Στη συνέχεια, υποθέτοντας ότι υπάρχει ένας μηχανισμός επαλήθευσης της τελικής απάντησης, επιλέγονται οι απαντήσεις με τη σωστή απάντηση για να δημιουργηθεί ένα σύνολο δεδομένων ICL από ζεύγη προβλήματος/ορθολογίας.

Η δεύτερη τεχνική, η «μη επιβλεπόμενη ICL», αξιοποιεί την εσωτερική γνώση του LLM για το πρόβλημα. Στη μη επιβλεπόμενη ICL, η προτροπή αποτελείται από έναν κατάλογο άλυτων προβλημάτων μαζί με μια προτροπή μηδενικής ή ολιγόλεπτης λήψης για το πρόβλημα-στόχο. Αυτό καθιστά περιττή την ανάγκη για ανθρώπινες απαντήσεις. Οι ερευνητές υποθέτουν ότι, όταν το LLM κατέχει ήδη την απαιτούμενη γνώση για την επίλυση μιας εργασίας, η προσθήκη σχετικών πληροφοριών στην προτροπή μπορεί να βοηθήσει το μοντέλο να εστιάσει καλύτερα στις εσωτερικές έννοιες που μπορούν να λύσουν το πρόβλημα.

«Διαπιστώνουμε ότι είτε η χρήση λογικών που δημιουργούνται από μοντέλα είτε μόνο προβλήματα μπορούν να μειώσουν την εξάρτηση της μάθησης πολλών βολών από δεδομένα που δημιουργούνται από τον άνθρωπο», γράφουν οι ερευνητές.

 

Αλλαγή της συμπεριφοράς του μοντέλου

Οι ερευνητές διαπίστωσαν επίσης ότι το many-shot ICL μπορεί να ξεπεράσει τις προκαταρκτικές προκαταλήψεις και να μάθει εργασίες πρόβλεψης μη φυσικής γλώσσας, όπου το few-shot ICL δυσκολεύεται.

Για παράδειγμα, οι ερευνητές αντέστρεψαν τις ετικέτες ενός συνόλου δεδομένων ανάλυσης συναισθήματος έτσι ώστε να έρχονται σε σύγκρουση με τις προκαταλήψεις συναισθήματος που μπορεί να είχε μάθει η LLM κατά τη διάρκεια της εκπαίδευσης. Τα πειράματά τους δείχνουν ότι καθώς περισσότερα παραδείγματα ΔΚΛ τοποθετούνται στην προτροπή, η απόδοση στις αναποδογυρισμένες και αφηρημένες ετικέτες βελτιώνεται δραματικά, πλησιάζοντας εκείνη των προεπιλεγμένων ετικετών.

Κατάφεραν επίσης να χρησιμοποιήσουν την ICL με πολλά πλάνα για να επαναπροσδιορίσουν το μοντέλο για γραμμική ταξινόμηση και διαδοχική ισοτιμία, ένα πρόβλημα που είναι δύσκολο να επιλυθεί χωρίς εξειδικευμένη εκπαίδευση.

«Αυτό υποδηλώνει τη δυνατότητα της μάθησης πολλών βολών να προσαρμόζεται σε νέες εργασίες και τομείς που μπορεί να μην είναι ευθυγραμμισμένοι με τα δεδομένα εκπαίδευσης ενός LLM», γράφουν οι ερευνητές.

 

Τι σημαίνει αυτό για τις επιχειρήσεις;

Καθώς οι ερευνητές και τα εργαστήρια τεχνητής νοημοσύνης συνεχίζουν να επεκτείνουν το παράθυρο πλαισίου των LLM, ορισμένοι εμπειρογνώμονες υποστηρίζουν ότι δεν υπάρχει πλέον ανάγκη για λεπτομερώς ρυθμισμένα μοντέλα ή άλλες τεχνικές όπως η ανακτήσιμη γενιά (RAG). Αντί να ρυθμίζετε τα μοντέλα σας ή να δημιουργείτε περίπλοκες σωληνώσεις ανάκτησης, μπορείτε απλώς να δημιουργήσετε μια προτροπή με τις απαραίτητες πληροφορίες, παραδείγματα εκπαίδευσης και οδηγίες για την επόμενη εργασία.

Ωστόσο, τεχνικές όπως η ICL πολλών βολών δεν είναι προς το παρόν επεκτάσιμες. Εάν έχετε μια εφαρμογή LLM που δέχεται δεκάδες εκατομμύρια αιτήσεις κάθε μέρα, τότε η επιμήκυνση κάθε προτροπής με μερικές εκατοντάδες παραδείγματα θα έχει σημαντικό αντίκτυπο στην ταχύτητα και το κόστος της εξαγωγής συμπερασμάτων.

Η ICL με πολλές βολές μπορεί να γίνει ένα σημαντικό εργαλείο για το στάδιο της διερεύνησης και της δημιουργίας πρωτοτύπων των εφαρμογών LLM. Με αυτό, οι προγραμματιστές θα μπορούν να δοκιμάζουν διαφορετικές τεχνικές μηχανικής προτροπής χωρίς να ανησυχούν για τη συμπλήρωση του παραθύρου περιβάλλοντος.

Ωστόσο, μόλις επιτύχουν τα επιθυμητά αποτελέσματα, η κλιμάκωση του προϊόντος θα εξαρτηθεί από τη χρήση όλων των σχετικών τεχνικών για τη μείωση της κατανάλωσης συμβόλων και τη χρήση μοντέλων που είναι μικρότερα, ταχύτερα και φθηνότερα.

 

Πηγή: DeepMind researchers discover impressive learning capabilities in long-context  LLMs