Το Sora του OpenAI μετατρέπει τις προτροπές AI σε φωτορεαλιστικά βίντεο

20/02/2024 | | |

Περίληψη άρθρου:

Η νέα εφαρμογή Sora της OpenAI στοχεύει να φέρει επανάσταση στην κινηματογραφική παραγωγή, δημιουργώντας φωτορεαλιστικά βίντεο με βάση οδηγίες κειμένου, παρουσιάζοντας εντυπωσιακές δυνατότητες όπως η κινηματογραφική αφήγηση και η λεπτομερής δημιουργία σκηνών. Χρησιμοποιεί προηγμένη τεχνολογία για την παραγωγή μεγαλύτερων κλιπ και παρουσιάζει μια αναδυόμενη κατανόηση της κινηματογραφικής γραμματικής, παρά τους ορισμένους περιορισμούς. Η OpenAI είναι επιφυλακτική για πιθανή κατάχρηση, αλλά οραματίζεται ότι το Sora θα ενδυναμώσει τους δημιουργούς στις πλατφόρμες κοινωνικής δικτύωσης με περιεχόμενο υψηλής ποιότητας. Ο αντίκτυπος της εφαρμογής στην κινηματογραφική βιομηχανία και οι πιθανές νομικές επιπτώσεις παραμένουν αβέβαιες.

Κύρια σημεία του άρθρου:

Η OpenAI έχει αναπτύξει μια νέα εφαρμογή με την ονομασία Sora που στοχεύει στην εκμάθηση του κινηματογράφου χωρίς την ανάγκη για σχολή κινηματογράφου.
Το Sora διακρίνεται για τον φωτορεαλισμό του και την ικανότητά του να παράγει μεγαλύτερα βίντεο κλιπ σε σύγκριση με άλλα μοντέλα τεχνητής νοημοσύνης από κείμενο σε βίντεο.
Η εφαρμογή μπορεί να αποδώσει αποτελεσματικά λεπτομερείς σκηνές, με ένα παράδειγμα να παρουσιάζει ένα σκηνικό χιονισμένης πόλης του Τόκιο.
Οι δυνατότητες του Sora επεκτείνονται πέρα από την εκπλήρωση προτροπών, δείχνοντας μια αναδυόμενη κατανόηση της κινηματογραφικής γραμματικής και της αφήγησης.
Η εφαρμογή μπορεί να δημιουργήσει αφηγηματική ώθηση μέσω γωνιών κάμερας και αλλαγών λήψης χωρίς ρητές οδηγίες.
Το OpenAI είναι επιφυλακτικό ως προς την εφαρμογή μιας λειτουργίας που δημιουργεί βίντεο από μία μόνο εικόνα ή καρέ λόγω ανησυχιών για deepfake.

Αναλυτικά το άρθρο:

Γνωρίζουμε ήδη ότι τα chatbots της OpenAI μπορούν να περάσουν τις εξετάσεις χωρίς να πάνε στη νομική σχολή. Τώρα, εγκαίρως για τα Όσκαρ, μια νέα εφαρμογή της OpenAI που ονομάζεται Sora ελπίζει να κατακτήσει τον κινηματογράφο χωρίς να πάει σε σχολή κινηματογράφου. Προς το παρόν ένα ερευνητικό προϊόν, το Sora θα διατεθεί σε μερικούς επιλεγμένους δημιουργούς και σε έναν αριθμό εμπειρογνωμόνων ασφαλείας, οι οποίοι θα το ελέγξουν για τρωτά σημεία ασφαλείας. Το OpenAI σχεδιάζει να το διαθέσει σε όλους τους επίδοξους δημιουργούς σε κάποια απροσδιόριστη ημερομηνία, αλλά αποφάσισε να το κάνει προεπισκόπηση εκ των προτέρων.

Άλλες εταιρείες, από γίγαντες όπως η Google έως νεοφυείς επιχειρήσεις όπως η Runway, έχουν ήδη αποκαλύψει έργα τεχνητής νοημοσύνης από κείμενο σε βίντεο. Αλλά η OpenAI λέει ότι το Sora διακρίνεται για τον εντυπωσιακό φωτορεαλισμό του -κάτι που δεν έχω δει στους ανταγωνιστές του- και για την ικανότητά του να παράγει μεγαλύτερα κλιπ από τα σύντομα αποσπάσματα που συνήθως κάνουν άλλα μοντέλα, μέχρι και ένα λεπτό. Οι ερευνητές με τους οποίους μίλησα δεν λένε πόση ώρα χρειάζεται για να αποδώσει όλο αυτό το βίντεο, αλλά όταν τους πιέσαμε, το περιέγραψαν περισσότερο ως "βγαίνω έξω για ένα μπουρίτο" παρά ως "παίρνω μερικές μέρες άδεια". Αν τα χειροποίητα παραδείγματα που είδα είναι πιστευτά, η προσπάθεια αξίζει τον κόπο.

Το OpenAI δεν με άφησε να εισαγάγω τις δικές μου προτροπές, αλλά μοιράστηκε τέσσερις περιπτώσεις της δύναμης του Sora. (Καμία δεν πλησίασε το υποτιθέμενο όριο του ενός λεπτού- η μεγαλύτερη ήταν 17 δευτερόλεπτα.) Η πρώτη προήλθε από μια λεπτομερή προτροπή που ακουγόταν σαν το στήσιμο ενός εμμονικού σεναριογράφου: "Η όμορφη, χιονισμένη πόλη του Τόκιο είναι πολύβουη. Η κάμερα κινείται στον πολυσύχναστο δρόμο της πόλης, ακολουθώντας αρκετούς ανθρώπους που απολαμβάνουν τον όμορφο χιονισμένο καιρό και ψωνίζουν σε κοντινούς πάγκους.

Πανέμορφα πέταλα σακούρα πετούν στον άνεμο μαζί με νιφάδες χιονιού".

Το αποτέλεσμα είναι μια πειστική άποψη αυτού που είναι αναμφισβήτητα το Τόκιο, σε εκείνη τη μαγική στιγμή που συνυπάρχουν οι νιφάδες χιονιού και τα άνθη κερασιάς. Η εικονική κάμερα, σαν να είναι προσαρτημένη σε drone, ακολουθεί ένα ζευγάρι καθώς περπατάει αργά σε ένα τοπίο δρόμου. Ένας από τους περαστικούς φοράει μάσκα. Αυτοκίνητα περνούν από έναν παραποτάμιο δρόμο στα αριστερά τους και στα δεξιά τους αγοραστές μπαινοβγαίνουν σε μια σειρά από μικροσκοπικά καταστήματα.

Δεν είναι τέλειο. Μόνο όταν παρακολουθήσετε το κλιπ μερικές φορές, συνειδητοποιείτε ότι οι κύριοι χαρακτήρες -ένα ζευγάρι που περπατάει στο χιονισμένο πεζοδρόμιο- θα αντιμετώπιζαν ένα δίλημμα αν η εικονική κάμερα συνέχιζε να τρέχει. Το πεζοδρόμιο που καταλαμβάνουν φαίνεται να καταλήγει σε αδιέξοδο- θα έπρεπε να περάσουν πάνω από ένα μικρό προστατευτικό κιγκλίδωμα σε ένα παράξενο παράλληλο πεζοδρόμιο στα δεξιά τους. Παρά την ήπια αυτή δυσλειτουργία, το παράδειγμα του Τόκιο είναι μια εκπληκτική άσκηση στην οικοδόμηση του κόσμου. Στην πορεία, οι σχεδιαστές παραγωγής θα συζητήσουν αν είναι ένας ισχυρός συνεργάτης ή ένας δολοφόνος της δουλειάς. Επίσης, οι άνθρωποι σε αυτό το βίντεο -οι οποίοι δημιουργούνται εξ ολοκλήρου από ένα ψηφιακό νευρωνικό δίκτυο- δεν εμφανίζονται σε κοντινό πλάνο και δεν κάνουν καμία κίνηση. Αλλά η ομάδα Sora λέει ότι σε άλλες περιπτώσεις είχαν ψεύτικους ηθοποιούς που έδειχναν πραγματικά συναισθήματα.

Τα άλλα κλιπ είναι επίσης εντυπωσιακά, ιδίως ένα που ζητά "μια σκηνή κινουμένων σχεδίων με ένα κοντό χνουδωτό τέρας που γονατίζει δίπλα σε ένα κόκκινο κερί", μαζί με κάποιες λεπτομερείς οδηγίες σκηνής ("μεγάλα μάτια και ανοιχτό στόμα") και μια περιγραφή της επιθυμητής ατμόσφαιρας του κλιπ. Η Sora παράγει ένα πλάσμα τύπου Pixar που μοιάζει να έχει DNA από ένα Furby, ένα Gremlin και τον Sully στο Monsters, Inc. Θυμάμαι όταν βγήκε η τελευταία ταινία, η Pixar έκανε μεγάλο θέμα για το πόσο δύσκολο ήταν να δημιουργηθεί η εξαιρετικά περίπλοκη υφή της γούνας ενός τέρατος καθώς το πλάσμα κινούνταν. Χρειάστηκαν μήνες για να το πετύχουν οι μάγοι της Pixar. Η νέα μηχανή μετατροπής κειμένου σε βίντεο της OpenAI ... μόλις τα κατάφερε.

"Μαθαίνει για την τρισδιάστατη γεωμετρία και τη συνοχή", λέει ο Tim Brooks, ερευνητής του προγράμματος, για το επίτευγμα αυτό. "Δεν το είχαμε ενσωματώσει - προέκυψε εντελώς από τη θέαση πολλών δεδομένων".

Ενώ οι σκηνές είναι σίγουρα εντυπωσιακές, οι πιο εντυπωσιακές από τις δυνατότητες του Sora είναι αυτές για τις οποίες δεν έχει εκπαιδευτεί. Με τη βοήθεια μιας έκδοσης του μοντέλου διάχυσης που χρησιμοποιείται από τη γεννήτρια εικόνων Dalle-3 του OpenAI, καθώς και από τη μηχανή μετασχηματισμού του GPT-4, το Sora δεν παράγει απλώς βίντεο που ικανοποιούν τις απαιτήσεις των προτροπών, αλλά το κάνει με τρόπο που δείχνει μια αναδυόμενη κατανόηση της κινηματογραφικής γραμματικής.

Αυτό μεταφράζεται σε ένα ταλέντο στην αφήγηση ιστοριών. Σε ένα άλλο βίντεο που δημιουργήθηκε με αφορμή μια προτροπή για "έναν υπέροχα κατασκευασμένο κόσμο από χαρτί ενός κοραλλιογενούς υφάλου, γεμάτο πολύχρωμα ψάρια και θαλάσσια πλάσματα". Ο Bill Peebles, ένας άλλος ερευνητής του έργου, σημειώνει ότι το Sora δημιούργησε μια αφηγηματική ώθηση με τις γωνίες της κάμερας και τον συγχρονισμό του. "Στην πραγματικότητα υπάρχουν πολλαπλές αλλαγές πλάνων - αυτές δεν είναι κολλημένες μεταξύ τους, αλλά δημιουργούνται από το μοντέλο σε μία κίνηση", λέει. "Δεν του είπαμε να το κάνει αυτό, απλά το έκανε αυτόματα".

Σε ένα άλλο παράδειγμα που δεν είδα, η Sora κλήθηκε να δώσει μια ξενάγηση σε έναν ζωολογικό κήπο. "Ξεκίνησε με το όνομα του ζωολογικού κήπου σε μια μεγάλη πινακίδα, σταδιακά έκανε πανοραμική κίνηση προς τα κάτω, και στη συνέχεια είχε μια σειρά από αλλαγές λήψεων για να δείξει τα διάφορα ζώα που ζουν στον ζωολογικό κήπο", λέει ο Peebles, "Το έκανε με έναν ωραίο και κινηματογραφικό τρόπο που δεν του είχε δοθεί ρητή εντολή να το κάνει".

Ένα χαρακτηριστικό του Sora που η ομάδα του OpenAI δεν παρουσίασε, και ίσως να μην κυκλοφορήσει για αρκετό καιρό, είναι η δυνατότητα δημιουργίας βίντεο από μία μόνο εικόνα ή μία ακολουθία καρέ. "Αυτό θα είναι ένας άλλος πολύ ωραίος τρόπος για να βελτιώσουμε τις δυνατότητες αφήγησης ιστοριών", λέει ο Brooks. "Μπορείτε να σχεδιάσετε ακριβώς αυτό που έχετε στο μυαλό σας και στη συνέχεια να το ζωντανέψετε". Το OpenAI γνωρίζει ότι αυτή η λειτουργία έχει επίσης τη δυνατότητα να παράγει βαθιά πλαστά και παραπληροφόρηση. "Θα είμαστε πολύ προσεκτικοί σχετικά με όλες τις επιπτώσεις στην ασφάλεια για αυτό", προσθέτει ο Peebles.

Περιμένετε ότι το Sora θα έχει τους ίδιους περιορισμούς στο περιεχόμενο με το Dall-E 3 : όχι βία, όχι πορνό, όχι οικειοποίηση πραγματικών ανθρώπων ή του στυλ επώνυμων καλλιτεχνών. Επίσης, όπως και με το Dall-E 3, το OpenAI θα παρέχει έναν τρόπο στους θεατές να αναγνωρίζουν την παραγωγή ως τεχνητή νοημοσύνη. Ακόμα κι έτσι, η OpenAI λέει ότι η ασφάλεια και η ειλικρίνεια είναι ένα διαρκές πρόβλημα που είναι μεγαλύτερο από μια εταιρεία. "Η λύση για την παραπληροφόρηση θα περιλαμβάνει κάποιο επίπεδο μετριασμού από την πλευρά μας, αλλά θα χρειαστεί επίσης κατανόηση από την κοινωνία και από τα δίκτυα κοινωνικής δικτύωσης για να προσαρμοστούν επίσης", λέει ο Aditya Ramesh, επικεφαλής ερευνητής και επικεφαλής της ομάδας Dall-E.

Ένα άλλο πιθανό ζήτημα είναι αν το περιεχόμενο του βίντεο που παράγει η Sora θα παραβιάζει το έργο άλλων που προστατεύεται με πνευματικά δικαιώματα. "Τα δεδομένα εκπαίδευσης προέρχονται από περιεχόμενο που έχουμε αδειοδοτήσει και επίσης από δημόσια διαθέσιμο περιεχόμενο", λέει ο Peebles. Βέβαια, η ουσία μιας σειράς αγωγών κατά του OpenAI εξαρτάται από το ερώτημα αν το "δημόσια διαθέσιμο" περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα είναι θεμιτό παιχνίδι για την εκπαίδευση της τεχνητής νοημοσύνης.

Θα περάσει πολύς καιρός, αν ποτέ, μέχρι το text-to-video να απειλήσει την πραγματική κινηματογραφική παραγωγή. Όχι, δεν μπορείτε να φτιάξετε συνεκτικές ταινίες ράβοντας μαζί 120 από τα κλιπ του Sora διάρκειας ενός λεπτού, αφού το μοντέλο δεν θα ανταποκρίνεται στις προτροπές με τον ίδιο ακριβώς τρόπο - η συνέχεια δεν είναι δυνατή.

Αλλά το χρονικό όριο δεν αποτελεί εμπόδιο για το Sora και τα προγράμματα όπως αυτό να μεταμορφώσουν το TikTok, τα Reels και άλλες κοινωνικές πλατφόρμες. "Για να κάνεις μια επαγγελματική ταινία, χρειάζεσαι τόσο ακριβό εξοπλισμό", λέει ο Peebles. "Αυτό το μοντέλο θα δώσει τη δυνατότητα στο μέσο άνθρωπο που κάνει βίντεο στα μέσα κοινωνικής δικτύωσης να φτιάξει περιεχόμενο πολύ υψηλής ποιότητας".

Προς το παρόν, το OpenAI αντιμετωπίζει το τεράστιο καθήκον να διασφαλίσει ότι το Sora δεν θα είναι ένα ναυάγιο παραπληροφόρησης. Αλλά μετά από αυτό, αρχίζει η μεγάλη αντίστροφη μέτρηση μέχρι ο επόμενος Κρίστοφερ Νόλαν ή η Σελίν Σονγκ να πάρει αγαλματίδιο για τη μαγεία της προτροπής ενός μοντέλου τεχνητής νοημοσύνης. Τον φάκελο, παρακαλώ!

Πηγή: OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos

Το Sora του OpenAI μετατρέπει τις προτροπές AI σε φωτορεαλιστικά βίντεο

Newsletter