
12 Φεβρουαρίου 2026
Η δημιουργική τεχνητή νοημοσύνη αλλάζει τα πάντα. Αλλά τι μένει όταν η διαφημιστική εκστρατεία τελειώσει;

Περίληψη άρθρου:
Το DALL-E του OpenAI, ένα μοντέλο μετατροπής κειμένου σε εικόνα, έγινε απροσδόκητα δημοφιλές το 2022 και οδήγησε σε μια έκρηξη της γεννητικής τεχνητής νοημοσύνης. Η ταχεία ανάπτυξη διαφόρων μοντέλων μετατροπής κειμένου σε εικόνα από διάφορες εταιρείες προκάλεσε ενθουσιασμό και ανησυχίες μεταξύ των καλλιτεχνών. Αυτά τα μοντέλα έφεραν επανάσταση στη δημιουργική διαδικασία, επιτρέποντας τη γρήγορη ιδεοληψία και το σχεδιασμό σε διάφορους κλάδους. Παρά τα δυνητικά οφέλη, υπάρχουν φόβοι σχετικά με την εκτόπιση θέσεων εργασίας και ηθικές εκτιμήσεις γύρω από τη χρήση περιεχομένου που παράγεται από τεχνητή νοημοσύνη. Η ταχύτατη εξέλιξη της τεχνολογίας έχει γοητεύσει αλλά και προκαλέσει την κοινωνία καθώς περιηγείται στις επιπτώσεις αυτής της γεννητικής επανάστασης.Μοντέλα μετατροπής κειμένου σε εικόνα, όπως το DALL-E και το Stable Diffusion, επαναλαμβάνουν για να βελτιώσουν την ποιότητα της εικόνας. Βασίζονται σε γλωσσικές προτροπές για τη σύνδεση κειμένου με εικόνες από ένα σύνολο δεδομένων όπως το LAION που έχει συλλεχθεί από το διαδίκτυο, αντανακλώντας τις προκαταλήψεις του διαδικτύου. Η τεχνική λανθάνουσας διάχυσης του Stable Diffusion διαφέρει από το DALL-E 2, προσφέροντας ελαφρύτερες υπολογιστικές απαιτήσεις και προσβασιμότητα ανοικτού κώδικα. Αν και δεν είναι συνώνυμα της ανθρώπινης δημιουργικότητας ή κατανόησης, τα μοντέλα αυτά προσδίδουν καινοτομία και ομορφιά στις δημιουργίες τους, αναδιαμορφώνοντας ενδεχομένως διάφορες βιομηχανίες και συνεργατικές δημιουργικές διαδικασίες στο μέλλον.
Κύρια σημεία του άρθρου:
- Το DALL-E είναι μια γεννητική τεχνητή νοημοσύνη που απέκτησε απροσδόκητη δημοτικότητα το 2022
- Αναφέρεται ως μία από τις 10 επαναστατικές τεχνολογίες του MIT Technology Review για το 2023
- Παρόμοια προϊόντα έχουν αναπτυχθεί από εταιρείες όπως η Google και η Meta ως απάντηση στην επιτυχία του DALL-E
- Η τεχνολογία είχε σημαντικές επιπτώσεις σε βιομηχανίες και καλλιτέχνες, προκαλώντας ενθουσιασμό αλλά και ανησυχία για τις μελλοντικές επιπτώσεις
- Οι συνεχείς συζητήσεις περιβάλλουν τις ηθικές και δημιουργικές επιπτώσεις του περιεχομένου που δημιουργείται με τεχνητή νοημοσύνη
Αναλυτικά το άρθρο:
Κανείς δεν ήξερε πόσο δημοφιλές θα ήταν το DALL-E του OpenAI το 2022 και κανείς δεν ξέρει πού θα μας οδηγήσει η άνοδός του.
Το Generative AI είναι μία από τις 10 επαναστατικές τεχνολογίες του MIT Technology Review για το 2023.
Ήταν σαφές ότι το OpenAI είχε κάτι στο μυαλό του. Στα τέλη του 2021, μια μικρή ομάδα ερευνητών έπαιζε με μια ιδέα στα γραφεία της εταιρείας στο Σαν Φρανσίσκο.
Είχαν κατασκευάσει μια νέα έκδοση του μοντέλου μετατροπής κειμένου σε εικόνα της OpenAI, το DALL-E, μια τεχνητή νοημοσύνη που μετατρέπει σύντομες γραπτές περιγραφές σε εικόνες: μια αλεπού ζωγραφισμένη από τον Βαν Γκογκ, ίσως, ή ένα corgi φτιαγμένο από πίτσα. Τώρα έπρεπε απλώς να βρουν τι να το κάνουν.
"Σχεδόν πάντα, φτιάχνουμε κάτι και μετά όλοι μας πρέπει να το χρησιμοποιήσουμε για λίγο", λέει ο Sam Altman, συνιδρυτής και διευθύνων σύμβουλος της OpenAI, στο MIT Technology Review. "Προσπαθούμε να καταλάβουμε τι πρόκειται να γίνει, για ποιο λόγο θα χρησιμοποιηθεί".
Όχι αυτή τη φορά. Καθώς πειραματίζονταν με το μοντέλο, όλοι οι εμπλεκόμενοι συνειδητοποίησαν ότι πρόκειται για κάτι ξεχωριστό. "Ήταν ξεκάθαρο ότι αυτό ήταν - αυτό ήταν το προϊόν", λέει ο Altman. "Δεν υπήρχε καμία συζήτηση. Δεν κάναμε καν συνάντηση γι' αυτό".
Κανείς όμως -ούτε ο Altman, ούτε η ομάδα του DALL-E- δεν μπορούσε να προβλέψει πόσο μεγάλη αίσθηση θα προκαλούσε αυτό το προϊόν. "Αυτή είναι η πρώτη τεχνολογία τεχνητής νοημοσύνης που έπιασε φωτιά στους απλούς ανθρώπους", λέει ο Altman.
Το DALL-E 2 θα προβληθεί τον Απρίλιο του 2022. Τον Μάιο, η Google ανακοίνωσε (αλλά δεν κυκλοφόρησε) δύο δικά της μοντέλα μετατροπής κειμένου σε εικόνα, το Imagen και το Parti. Στη συνέχεια ήρθε το Midjourney, ένα μοντέλο μετατροπής κειμένου σε εικόνα που προορίζεται για καλλιτέχνες. Και τον Αύγουστο ήρθε το Stable Diffusion, ένα μοντέλο ανοιχτού κώδικα που η νεοφυής εταιρεία Stability AI με έδρα το Ηνωμένο Βασίλειο κυκλοφόρησε δωρεάν στο κοινό.
Οι πόρτες είχαν βγει από τους μεντεσέδες τους. Το OpenAI υπέγραψε ένα εκατομμύριο χρήστες σε μόλις 2,5 μήνες. Περισσότεροι από ένα εκατομμύριο άνθρωποι άρχισαν να χρησιμοποιούν το Stable Diffusion μέσω της επί πληρωμή υπηρεσίας Dream Studio σε λιγότερο από το μισό του ίδιου χρόνου- πολλοί περισσότεροι χρησιμοποίησαν το Stable Diffusion μέσω εφαρμογών τρίτων ή εγκατέστησαν τη δωρεάν έκδοση στους δικούς τους υπολογιστές. (Ο Emad Mostaque, ιδρυτής της Stability AI, λέει ότι στοχεύει σε ένα δισεκατομμύριο χρήστες).
Και μετά, τον Οκτώβριο, είχαμε τον δεύτερο γύρο: μια πληθώρα μοντέλων μετατροπής κειμένου σε βίντεο από την Google, τη Meta και άλλους. Αντί να δημιουργούν μόνο ακίνητες εικόνες, αυτά μπορούν να δημιουργήσουν σύντομα βίντεο κλιπ, κινούμενα σχέδια και τρισδιάστατες εικόνες.
Ο ρυθμός ανάπτυξης έχει κόψει την ανάσα. Μέσα σε λίγους μόνο μήνες, η τεχνολογία ενέπνευσε εκατοντάδες πρωτοσέλιδα εφημερίδων και εξώφυλλα περιοδικών, γέμισε τα μέσα κοινωνικής δικτύωσης με μιμίδια, έβαλε σε υπερδιέγερση μια μηχανή διαφημιστικής εκστρατείας - και προκάλεσε έντονες αντιδράσεις.
"Το σοκ και το δέος αυτής της τεχνολογίας είναι εκπληκτικό -και είναι διασκεδαστικό, είναι αυτό που πρέπει να είναι η νέα τεχνολογία", λέει ο Mike Cook, ερευνητής Τεχνητής Νοημοσύνης στο King's College του Λονδίνου που μελετά την υπολογιστική δημιουργικότητα. "Αλλά έχει προχωρήσει τόσο γρήγορα που οι αρχικές σας εντυπώσεις ενημερώνονται πριν καν συνηθίσετε την ιδέα. Νομίζω ότι θα περάσουμε αρκετό καιρό για να το χωνέψουμε ως κοινωνία".
Οι καλλιτέχνες βρίσκονται στη μέση μιας από τις μεγαλύτερες ανακατατάξεις της τελευταίας γενιάς. Κάποιοι θα χάσουν δουλειά, κάποιοι άλλοι θα βρουν νέες ευκαιρίες. Μερικοί θα προσφύγουν στα δικαστήρια για να δώσουν νομικές μάχες για αυτό που θεωρούν ως υπεξαίρεση εικόνων για να εκπαιδεύσουν μοντέλα που θα μπορούσαν να τους αντικαταστήσουν.
Οι δημιουργοί αιφνιδιάστηκαν, λέει ο Don Allen Stevenson III, ένας ψηφιακός καλλιτέχνης με έδρα την Καλιφόρνια που έχει εργαστεί σε στούντιο οπτικών εφέ όπως η DreamWorks. "Για τεχνικά καταρτισμένους ανθρώπους όπως εγώ, είναι πολύ τρομακτικό. Λες, "Θεέ μου - αυτή είναι όλη μου η δουλειά"", λέει. "Έπεσα σε υπαρξιακή κρίση τον πρώτο μήνα που χρησιμοποίησα το DALL-E".
Αλλά ενώ κάποιοι ακόμα αναπολούν το σοκ, πολλοί -συμπεριλαμβανομένου του Stevenson- βρίσκουν τρόπους να δουλέψουν με αυτά τα εργαλεία και να προβλέψουν τι θα ακολουθήσει.
Η συναρπαστική αλήθεια είναι ότι δεν ξέρουμε πραγματικά. Γιατί ενώ οι δημιουργικές βιομηχανίες -από τα μέσα ψυχαγωγίας μέχρι τη μόδα, την αρχιτεκτονική, το μάρκετινγκ και πολλά άλλα- θα νιώσουν πρώτα τον αντίκτυπο, αυτή η τεχνολογία θα δώσει δημιουργικές υπερδυνάμεις σε όλους. Μακροπρόθεσμα, θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία σχεδίων για σχεδόν οτιδήποτε, από νέους τύπους φαρμάκων μέχρι ρούχα και κτίρια. Η γεννητική επανάσταση έχει αρχίσει.
Μια μαγική επανάσταση
Για τον Τσαντ Νέλσον, έναν ψηφιακό δημιουργό που έχει εργαστεί σε βιντεοπαιχνίδια και τηλεοπτικές εκπομπές, τα μοντέλα μετατροπής κειμένου σε εικόνα είναι μια επανάσταση που συμβαίνει μια φορά στη ζωή. "Αυτή η τεχνολογία σε μεταφέρει από τη λάμπα στο μυαλό σου σε ένα πρώτο σκίτσο μέσα σε δευτερόλεπτα", λέει. "Η ταχύτητα με την οποία μπορείς να δημιουργήσεις και να εξερευνήσεις είναι επαναστατική - πέρα από οτιδήποτε έχω βιώσει εδώ και 30 χρόνια".
Μέσα σε λίγες εβδομάδες από το ντεμπούτο τους, οι άνθρωποι χρησιμοποιούσαν αυτά τα εργαλεία για να δημιουργήσουν πρωτότυπα και να κάνουν brainstorming για τα πάντα, από εικονογραφήσεις περιοδικών και σχέδια μάρκετινγκ μέχρι περιβάλλοντα βιντεοπαιχνιδιών και ιδέες ταινιών. Οι άνθρωποι δημιούργησαν έργα θαυμαστών, ακόμη και ολόκληρα κόμικς, και τα μοιράστηκαν στο διαδίκτυο κατά χιλιάδες. Ο Altman χρησιμοποίησε ακόμη και το DALL-E για να δημιουργήσει σχέδια για αθλητικά παπούτσια, τα οποία στη συνέχεια κάποιος έφτιαξε γι' αυτόν αφού ανέβασε την εικόνα στο Twitter.
Η Amy Smith, επιστήμονας πληροφορικής στο Πανεπιστήμιο Queen Mary του Λονδίνου και καλλιτέχνης τατουάζ, έχει χρησιμοποιήσει το DALL-E για να σχεδιάσει τατουάζ.
"Μπορείτε να καθίσετε με τον πελάτη και να δημιουργήσετε σχέδια μαζί", λέει.
"Βρισκόμαστε σε μια επανάσταση της γενιάς των μέσων ενημέρωσης".
Ο Paul Trillo, καλλιτέχνης ψηφιακών και βίντεο με έδρα την Καλιφόρνια, πιστεύει ότι η τεχνολογία θα κάνει ευκολότερο και ταχύτερο τον καταιγισμό ιδεών για οπτικά εφέ. "Οι άνθρωποι λένε ότι αυτός είναι ο θάνατος των καλλιτεχνών εφέ ή ο θάνατος των σχεδιαστών μόδας", λέει. "Δεν νομίζω ότι είναι ο θάνατος του τίποτα. Νομίζω ότι σημαίνει ότι δεν χρειάζεται να δουλεύουμε νύχτες και Σαββατοκύριακα".
Οι εταιρείες εικόνων αρχείου παίρνουν διαφορετικές θέσεις. Η Getty έχει απαγορεύσει τις εικόνες που δημιουργούνται με τεχνητή νοημοσύνη. Η Shutterstock υπέγραψε συμφωνία με την OpenAI για την ενσωμάτωση του DALL-E στον ιστότοπό της και λέει ότι θα ξεκινήσει ένα ταμείο για την αποζημίωση καλλιτεχνών των οποίων η δουλειά χρησιμοποιήθηκε για την εκπαίδευση των μοντέλων.
Ο Stevenson λέει ότι έχει δοκιμάσει το DALL-E σε κάθε βήμα της διαδικασίας που χρησιμοποιεί ένα στούντιο κινουμένων σχεδίων για την παραγωγή μιας ταινίας, συμπεριλαμβανομένου του σχεδιασμού χαρακτήρων και περιβαλλόντων. Με το DALL-E, μπόρεσε να κάνει τη δουλειά πολλών τμημάτων μέσα σε λίγα λεπτά. "Είναι αναζωογονητικό για όλους τους ανθρώπους που δεν μπόρεσαν ποτέ να δημιουργήσουν επειδή ήταν πολύ ακριβό ή πολύ τεχνικό", λέει. "Αλλά είναι τρομακτικό αν δεν είσαι ανοιχτός στην αλλαγή".
Ο Νέλσον πιστεύει ότι υπάρχουν ακόμη περισσότερα να έρθουν. Τελικά, βλέπει αυτή την τεχνολογία να υιοθετείται όχι μόνο από τους γίγαντες των μέσων ενημέρωσης αλλά και από αρχιτεκτονικά και σχεδιαστικά γραφεία. Δεν είναι όμως ακόμα έτοιμη, λέει.
"Αυτή τη στιγμή είναι σαν να έχετε ένα μικρό μαγικό κουτί, έναν μικρό μάγο", λέει. Αυτό είναι υπέροχο αν θέλετε απλώς να συνεχίσετε να δημιουργείτε εικόνες, αλλά όχι αν χρειάζεστε έναν δημιουργικό συνεργάτη. "Αν θέλω να δημιουργεί ιστορίες και να χτίζει κόσμους, χρειάζεται πολύ μεγαλύτερη επίγνωση του τι δημιουργώ", λέει.
Αυτό είναι το πρόβλημα: αυτά τα μοντέλα εξακολουθούν να μην έχουν ιδέα για το τι κάνουν.
Μέσα στο μαύρο κουτί
Για να καταλάβετε γιατί, ας δούμε πώς λειτουργούν αυτά τα προγράμματα. Εξωτερικά, το λογισμικό είναι ένα μαύρο κουτί. Πληκτρολογείτε μια σύντομη περιγραφή - μια προτροπή - και στη συνέχεια περιμένετε μερικά δευτερόλεπτα. Αυτό που λαμβάνετε πίσω είναι μια χούφτα εικόνες που ταιριάζουν με την προτροπή (πάνω κάτω). Μπορεί να χρειαστεί να τροποποιήσετε το κείμενό σας για να πείσετε το μοντέλο να παράγει κάτι που να πλησιάζει περισσότερο σε αυτό που είχατε στο μυαλό σας ή για να βελτιώσετε ένα τυχαίο αποτέλεσμα. Αυτό έχει γίνει γνωστό ως μηχανική της προτροπής.
Οι προτροπές για τις πιο λεπτομερείς, στυλιζαρισμένες εικόνες μπορούν να φτάσουν σε αρκετές εκατοντάδες λέξεις, και η εύρεση των σωστών λέξεων έχει γίνει πολύτιμη δεξιότητα. Έχουν δημιουργηθεί διαδικτυακές αγορές όπου αγοράζονται και πωλούνται προτροπές που είναι γνωστό ότι παράγουν επιθυμητά αποτελέσματα.
Οι προτροπές μπορούν να περιέχουν φράσεις που καθοδηγούν το μοντέλο να ακολουθήσει ένα συγκεκριμένο στυλ: "Η λέξη "Unreal engine" επικαλείται το γνωστό γραφικό στυλ ορισμένων βιντεοπαιχνιδιών και ούτω καθεξής. Οι χρήστες μπορούν ακόμη και να εισάγουν τα ονόματα συγκεκριμένων καλλιτεχνών και να βάλουν την τεχνητή νοημοσύνη να παράγει παστίτσιο της δουλειάς τους, γεγονός που έχει δυσαρεστήσει πολύ ορισμένους καλλιτέχνες.
Κάτω από την κουκούλα, τα μοντέλα μετατροπής κειμένου σε εικόνα έχουν δύο βασικά στοιχεία: ένα νευρωνικό δίκτυο που εκπαιδεύεται να συνδυάζει μια εικόνα με κείμενο που περιγράφει την εικόνα και ένα άλλο που εκπαιδεύεται να παράγει εικόνες από το μηδέν. Η βασική ιδέα είναι να βάλουμε το δεύτερο νευρωνικό δίκτυο να δημιουργήσει μια εικόνα που το πρώτο νευρωνικό δίκτυο αποδέχεται ως αντιστοιχία με την προτροπή.
Η μεγάλη καινοτομία πίσω από τα νέα μοντέλα έγκειται στον τρόπο με τον οποίο δημιουργούνται οι εικόνες. Η πρώτη έκδοση του DALL-E χρησιμοποιούσε μια επέκταση της τεχνολογίας πίσω από το γλωσσικό μοντέλο GPT-3 του OpenAI, παράγοντας εικόνες προβλέποντας το επόμενο pixel σε μια εικόνα σαν να ήταν λέξεις σε μια πρόταση. Αυτό λειτούργησε, αλλά όχι καλά. "Δεν ήταν μια μαγική εμπειρία", λέει ο Altman. "Είναι εκπληκτικό ότι λειτούργησε καθόλου".
Αντ' αυτού, το DALL-E 2 χρησιμοποιεί κάτι που ονομάζεται μοντέλο διάχυσης. Τα μοντέλα διάχυσης είναι νευρωνικά δίκτυα που εκπαιδεύονται για να καθαρίζουν τις εικόνες αφαιρώντας τον θόρυβο των εικονοστοιχείων που προσθέτει η διαδικασία εκπαίδευσης. Η διαδικασία περιλαμβάνει τη λήψη εικόνων και την αλλαγή μερικών εικονοστοιχείων σε αυτές κάθε φορά, σε πολλά βήματα, έως ότου διαγραφούν οι αρχικές εικόνες και μείνουν μόνο τυχαία εικονοστοιχεία. "Αν το κάνετε αυτό χίλιες φορές, τελικά η εικόνα μοιάζει σαν να έχετε βγάλει το καλώδιο της κεραίας από την τηλεόρασή σας - είναι απλώς χιόνι", λέει ο Björn Ommer, ο οποίος εργάζεται πάνω στη γεννητική τεχνητή νοημοσύνη στο Πανεπιστήμιο του Μονάχου στη Γερμανία και ο οποίος βοήθησε στη δημιουργία του μοντέλου διάχυσης που τροφοδοτεί τώρα το Stable Diffusion.
Το νευρωνικό δίκτυο εκπαιδεύεται στη συνέχεια να αντιστρέφει αυτή τη διαδικασία και να προβλέπει πώς θα έμοιαζε η λιγότερο pixelated εκδοχή μιας δεδομένης εικόνας. Το συμπέρασμα είναι ότι αν δώσετε σε ένα μοντέλο διάχυσης ένα χάος εικονοστοιχείων, αυτό θα προσπαθήσει να δημιουργήσει κάτι λίγο πιο καθαρό. Συνδέστε ξανά την καθαρισμένη εικόνα και το μοντέλο θα παράγει κάτι ακόμα πιο καθαρό. Αν το κάνετε αυτό αρκετές φορές, το μοντέλο μπορεί να σας οδηγήσει από το χιόνι της τηλεόρασης σε μια εικόνα υψηλής ανάλυσης.
Το κόλπο με τα μοντέλα μετατροπής κειμένου σε εικόνα είναι ότι αυτή η διαδικασία καθοδηγείται από το γλωσσικό μοντέλο που προσπαθεί να ταιριάξει μια προτροπή με τις εικόνες που παράγει το μοντέλο διάχυσης. Αυτό ωθεί το μοντέλο διάχυσης προς τις εικόνες που το γλωσσικό μοντέλο θεωρεί ότι ταιριάζουν καλά.
Αλλά τα μοντέλα δεν βγάζουν τους συνδέσμους μεταξύ κειμένου και εικόνων από το πουθενά. Τα περισσότερα μοντέλα μετατροπής κειμένου σε εικόνα σήμερα εκπαιδεύονται σε ένα μεγάλο σύνολο δεδομένων που ονομάζεται LAION, το οποίο περιέχει δισεκατομμύρια αντιστοιχίες κειμένου και εικόνων που έχουν ληφθεί από το διαδίκτυο. Αυτό σημαίνει ότι οι εικόνες που λαμβάνετε από ένα μοντέλο μετατροπής κειμένου σε εικόνα είναι ένα απόσταγμα του κόσμου όπως αυτός παρουσιάζεται στο διαδίκτυο, παραμορφωμένο από προκαταλήψεις (και πορνογραφία).
Και κάτι τελευταίο: υπάρχει μια μικρή αλλά κρίσιμη διαφορά μεταξύ των δύο πιο δημοφιλών μοντέλων, του DALL-E 2 και του Stable Diffusion. Το μοντέλο διάχυσης του DALL-E 2 λειτουργεί σε εικόνες πλήρους μεγέθους. Το Stable Diffusion, από την άλλη πλευρά, χρησιμοποιεί μια τεχνική που ονομάζεται λανθάνουσα διάχυση, η οποία εφευρέθηκε από τον Ommer και τους συναδέλφους του. Λειτουργεί σε συμπιεσμένες εκδόσεις εικόνων που κωδικοποιούνται μέσα στο νευρωνικό δίκτυο σε έναν λεγόμενο λανθάνοντα χώρο, όπου διατηρούνται μόνο τα βασικά χαρακτηριστικά μιας εικόνας.
Αυτό σημαίνει ότι η Stable Diffusion απαιτεί λιγότερους υπολογιστικούς μυς για να λειτουργήσει. Σε αντίθεση με το DALL-E 2, το οποίο τρέχει στους ισχυρούς διακομιστές του OpenAI, το Stable Diffusion μπορεί να τρέξει σε (καλούς) προσωπικούς υπολογιστές. Μεγάλο μέρος της έκρηξης της δημιουργικότητας και της ταχείας ανάπτυξης νέων εφαρμογών οφείλεται στο γεγονός ότι το Stable Diffusion είναι τόσο ανοικτού κώδικα -οι προγραμματιστές είναι ελεύθεροι να το αλλάξουν, να βασιστούν σε αυτό και να βγάλουν χρήματα από αυτό- όσο και αρκετά ελαφρύ για να το τρέξουν οι άνθρωποι στο σπίτι.
Επαναπροσδιορίζοντας τη δημιουργικότητα
Για ορισμένους, αυτά τα μοντέλα είναι ένα βήμα προς την τεχνητή γενική νοημοσύνη, ή AGI - μια υπερβολικά υπερτονισμένη λέξη που αναφέρεται σε μια μελλοντική τεχνητή νοημοσύνη που θα έχει ικανότητες γενικού σκοπού ή ακόμη και ανθρώπινες ικανότητες.
Το OpenAI έχει εκφράσει ρητά τον στόχο του να επιτύχει την AGI. Για το λόγο αυτό, ο Altman δεν ενδιαφέρεται για το γεγονός ότι το DALL-E 2 ανταγωνίζεται τώρα μια σειρά από παρόμοια εργαλεία, μερικά από τα οποία είναι δωρεάν. "Είμαστε εδώ για να δημιουργήσουμε AGI, όχι γεννήτριες εικόνων", λέει. "Θα ταιριάξει σε έναν ευρύτερο οδικό χάρτη προϊόντων. Είναι ένα μικρό στοιχείο του τι θα κάνει μια AGI".
Αυτό είναι τουλάχιστον αισιόδοξο - πολλοί ειδικοί πιστεύουν ότι η σημερινή τεχνητή νοημοσύνη δεν θα φτάσει ποτέ σε αυτό το επίπεδο. Από την άποψη της βασικής νοημοσύνης, τα μοντέλα μετατροπής κειμένου σε εικόνα δεν είναι εξυπνότερα από τις τεχνητές νοημοσύνες που παράγουν γλώσσα και τις στηρίζουν. Εργαλεία όπως το GPT-3 και το PaLM της Google αναμασούν μοτίβα κειμένου που εισάγονται από τα πολλά δισεκατομμύρια έγγραφα στα οποία εκπαιδεύονται. Ομοίως, το DALL-E και το Stable Diffusion αναπαράγουν συσχετίσεις μεταξύ κειμένου και εικόνων που έχουν βρεθεί σε δισεκατομμύρια παραδείγματα στο διαδίκτυο.
Τα αποτελέσματα είναι εκθαμβωτικά, αλλά αν τα βάλεις πολύ δυνατά, η ψευδαίσθηση καταρρέει. Αυτά τα μοντέλα κάνουν βασικά ουρλιαχτά-ανταποκρίνονται στο "σολομός σε ένα ποτάμι" με μια εικόνα τεμαχισμένων φιλέτων που επιπλέουν στο ρεύμα, ή στο "ένα ρόπαλο που πετάει πάνω από ένα γήπεδο μπέιζμπολ" με μια εικόνα τόσο ενός ιπτάμενου θηλαστικού όσο και ενός ξύλινου ραβδιού. Αυτό οφείλεται στο γεγονός ότι είναι χτισμένες πάνω σε μια τεχνολογία που δεν πλησιάζει ούτε κατά διάνοια την κατανόηση του κόσμου όπως κάνουν οι άνθρωποι (ή ακόμη και τα περισσότερα ζώα).
Ακόμα κι έτσι, μπορεί να είναι απλώς θέμα χρόνου μέχρι αυτά τα μοντέλα να μάθουν καλύτερα κόλπα. "Οι άνθρωποι λένε ότι δεν είναι πολύ καλά σε αυτό το πράγμα τώρα, και φυσικά δεν είναι", λέει ο Cook. "Αλλά εκατό εκατομμύρια δολάρια αργότερα, θα μπορούσε κάλλιστα να είναι".
Αυτή είναι σίγουρα η προσέγγιση της OpenAI.
"Ξέρουμε ήδη πώς να το κάνουμε 10 φορές καλύτερο", λέει ο Altman. "Ξέρουμε ότι υπάρχουν εργασίες λογικής σκέψης τις οποίες μπερδεύει. Θα προχωρήσουμε σε έναν κατάλογο πραγμάτων και θα βγάλουμε μια νέα έκδοση που θα διορθώνει όλα τα τρέχοντα προβλήματα".
Αν οι ισχυρισμοί σχετικά με τη νοημοσύνη και την κατανόηση είναι υπερβολικοί, τι γίνεται με τη δημιουργικότητα; Μεταξύ των ανθρώπων, λέμε ότι οι καλλιτέχνες, οι μαθηματικοί, οι επιχειρηματίες, τα παιδιά του νηπιαγωγείου και οι δάσκαλοί τους είναι όλοι υποδείγματα δημιουργικότητας. Αλλά είναι δύσκολο να βρούμε τι κοινό έχουν αυτοί οι άνθρωποι.
Για κάποιους, τα αποτελέσματα είναι αυτά που έχουν μεγαλύτερη σημασία. Άλλοι υποστηρίζουν ότι ο τρόπος με τον οποίο φτιάχνονται τα πράγματα -και το κατά πόσο υπάρχει πρόθεση σε αυτή τη διαδικασία- είναι υψίστης σημασίας.
Ακόμα, πολλοί καταφεύγουν σε έναν ορισμό που δόθηκε από τη Margaret Boden, μια σημαίνουσα ερευνήτρια ΤΝ και φιλόσοφο στο Πανεπιστήμιο του Sussex, στο Ηνωμένο Βασίλειο, η οποία συνοψίζει την έννοια σε τρία βασικά κριτήρια: για να είναι δημιουργική, μια ιδέα ή ένα τεχνούργημα πρέπει να είναι νέα, εκπληκτική και πολύτιμη.
Πέρα από αυτό, είναι συχνά μια περίπτωση που το καταλαβαίνεις όταν το βλέπεις. Οι ερευνητές στον τομέα που είναι γνωστός ως υπολογιστική δημιουργικότητα περιγράφουν το έργο τους ως τη χρήση υπολογιστών για την παραγωγή αποτελεσμάτων που θα θεωρούνταν δημιουργικά αν παράγονταν μόνο από ανθρώπους.
Επομένως, ο Smith είναι ευτυχής που αποκαλεί αυτή τη νέα γενιά δημιουργικών μοντέλων δημιουργική, παρά την ηλιθιότητά τους. "Είναι πολύ σαφές ότι υπάρχει καινοτομία σε αυτές τις εικόνες που δεν ελέγχεται από καμία ανθρώπινη συμβολή", λέει.
"Η μετάφραση από το κείμενο στην εικόνα είναι συχνά εκπληκτική και όμορφη".
Η Maria Teresa Llano, η οποία μελετά την υπολογιστική δημιουργικότητα στο Πανεπιστήμιο Monash στη Μελβούρνη της Αυστραλίας, συμφωνεί ότι τα μοντέλα μετατροπής κειμένου σε εικόνα επεκτείνουν τους προηγούμενους ορισμούς. Αλλά η Llano δεν πιστεύει ότι είναι δημιουργικά. Όταν χρησιμοποιείτε συχνά αυτά τα προγράμματα, τα αποτελέσματα μπορεί να αρχίσουν να γίνονται επαναλαμβανόμενα, λέει. Αυτό σημαίνει ότι δεν ανταποκρίνονται σε ορισμένες ή σε όλες τις απαιτήσεις του Boden. Και αυτό θα μπορούσε να είναι ένας θεμελιώδης περιορισμός της τεχνολογίας.
Εκ κατασκευής, ένα μοντέλο μετατροπής κειμένου σε εικόνα παράγει νέες εικόνες με την ομοιότητα δισεκατομμυρίων εικόνων που ήδη υπάρχουν. Ίσως η μηχανική μάθηση να παράγει πάντα μόνο εικόνες που μιμούνται αυτά στα οποία έχει εκτεθεί στο παρελθόν.
Αυτό μπορεί να μην έχει σημασία για τα γραφικά υπολογιστών. Η Adobe ήδη ενσωματώνει τη δημιουργία κειμένου σε εικόνα στο Photoshop- το Blender, το ξαδερφάκι του Photoshop με ανοιχτό κώδικα, διαθέτει ένα πρόσθετο Stable Diffusion. Και η OpenAI συνεργάζεται με τη Microsoft για ένα widget μετατροπής κειμένου σε εικόνα για το Office.
Σε αυτού του είδους την αλληλεπίδραση, στις μελλοντικές εκδόσεις αυτών των οικείων εργαλείων, μπορεί να γίνει αισθητός ο πραγματικός αντίκτυπος: από μηχανές που δεν αντικαθιστούν την ανθρώπινη δημιουργικότητα αλλά την ενισχύουν. "Η δημιουργικότητα που βλέπουμε σήμερα προέρχεται από τη χρήση των συστημάτων και όχι από τα ίδια τα συστήματα", λέει ο Llano- από το μπρος-πίσω, την κλήση και την απάντηση που απαιτείται για να παραχθεί το αποτέλεσμα που θέλετε.
Η άποψη αυτή επαναλαμβάνεται και από άλλους ερευνητές στον τομέα της υπολογιστικής δημιουργικότητας. Το θέμα δεν είναι μόνο τι κάνουν αυτές οι μηχανές, αλλά και πώς το κάνουν. Η μετατροπή τους σε αληθινούς δημιουργικούς συνεργάτες σημαίνει ότι πρέπει να τις ωθήσουμε να είναι πιο αυτόνομες, να τους δώσουμε δημιουργική ευθύνη, να τις βάλουμε να επιμελούνται και να δημιουργούν.
Όψεις αυτού θα έρθουν σύντομα. Κάποιος έχει ήδη γράψει ένα πρόγραμμα που ονομάζεται CLIP Interrogator το οποίο αναλύει μια εικόνα και εμφανίζει μια προτροπή για τη δημιουργία περισσότερων παρόμοιων εικόνων. Άλλοι χρησιμοποιούν τη μηχανική μάθηση για να ενισχύσουν τις απλές προτροπές με φράσεις που έχουν σχεδιαστεί για να δώσουν στην εικόνα επιπλέον ποιότητα και πιστότητα, αυτοματοποιώντας ουσιαστικά τη μηχανική των προτροπών, μια εργασία που υπάρχει μόνο εδώ και λίγους μήνες.
Εν τω μεταξύ, καθώς η πλημμύρα των εικόνων συνεχίζεται, θέτουμε και άλλα θεμέλια.
"Το διαδίκτυο είναι πλέον για πάντα μολυσμένο με εικόνες που έχουν φτιαχτεί από τεχνητή νοημοσύνη", λέει ο Cook. "Οι εικόνες που φτιάξαμε το 2022 θα αποτελούν μέρος κάθε μοντέλου που θα φτιάχνεται από εδώ και στο εξής".
Θα πρέπει να περιμένουμε για να δούμε ακριβώς τι διαρκή αντίκτυπο θα έχουν αυτά τα εργαλεία στις δημιουργικές βιομηχανίες και σε ολόκληρο τον τομέα της τεχνητής νοημοσύνης. Η δημιουργική τεχνητή νοημοσύνη έχει γίνει ένα ακόμη εργαλείο έκφρασης. Ο Altman λέει ότι χρησιμοποιεί πλέον τις παραγόμενες εικόνες σε προσωπικά μηνύματα με τον τρόπο που χρησιμοποιούσε τα emoji. "Μερικοί από τους φίλους μου δεν μπαίνουν καν στον κόπο να δημιουργήσουν την εικόνα - πληκτρολογούν την προτροπή", λέει.
Αλλά τα μοντέλα μετατροπής κειμένου σε εικόνα μπορεί να είναι μόνο η αρχή. Η δημιουργική τεχνητή νοημοσύνη θα μπορούσε τελικά να χρησιμοποιηθεί για την παραγωγή σχεδίων για τα πάντα, από νέα κτίρια μέχρι νέα φάρμακα - σκεφτείτε το text-to-X.
"Οι άνθρωποι θα συνειδητοποιήσουν ότι η τεχνική ή η τέχνη δεν είναι πλέον το εμπόδιο - είναι πλέον μόνο η ικανότητά τους να φαντάζονται", λέει ο Nelson.
Οι υπολογιστές χρησιμοποιούνται ήδη σε διάφορες βιομηχανίες για τη δημιουργία τεράστιου αριθμού πιθανών σχεδίων, τα οποία στη συνέχεια κοσκινίζονται για να βρεθούν αυτά που μπορεί να λειτουργήσουν. Τα μοντέλα Text-to-X θα επέτρεπαν σε έναν άνθρωπο-σχεδιαστή να ρυθμίσει από την αρχή αυτή την παραγωγική διαδικασία, χρησιμοποιώντας λέξεις για να καθοδηγήσει τους υπολογιστές μέσω ενός άπειρου αριθμού επιλογών προς αποτελέσματα που δεν είναι απλώς δυνατά αλλά επιθυμητά.
Οι υπολογιστές μπορούν να δημιουργήσουν χώρους γεμάτους άπειρες δυνατότητες. Το Text-to-X θα μας επιτρέψει να εξερευνήσουμε αυτούς τους χώρους χρησιμοποιώντας λέξεις.
"Νομίζω ότι αυτή είναι η κληρονομιά", λέει ο Altman. "Εικόνες, βίντεο, ήχος - τελικά, τα πάντα θα παράγονται. Νομίζω ότι θα διαρρεύσει παντού".
Πηγή: Generative AI is changing everything. But what’s left when the hype is gone?






