Η OpenAI κράτησε την πιο σημαντική ανακοίνωση της για την τελευταία ημέρα της 12ήμερης εκδήλωσης “shipmas”.
Την Παρασκευή παρουσίασε το μοντέλο o3, τον διάδοχο του μοντέλου “reasoning” o1. Η οικογένεια o3 περιλαμβάνει το o3 και το o3-mini, ένα μικρότερο μοντέλο σχεδιασμένο για συγκεκριμένα καθήκοντα.
Η OpenAI υποστηρίζει ότι το o3, υπό ορισμένες συνθήκες, προσεγγίζει την Τεχνητή Γενική Νοημοσύνη (AGI), αν και υπάρχουν σημαντικές επιφυλάξεις.
Για λόγους εμπορικού σήματος, η OpenAI παρέκαμψε το όνομα o2, πιθανώς λόγω σύγκρουσης με την εταιρεία O2. Το μοντέλο θα είναι διαθέσιμο σύντομα για δοκιμές ασφαλείας.
Βήματα Συλλογισμού
Σε αντίθεση με τα περισσότερα μοντέλα ΤΝ, τα μοντέλα συλλογισμού όπως το o3 διαθέτουν τη δυνατότητα να ελέγχουν τα δεδομένα τους, αποφεύγοντας συνήθη λάθη που εμφανίζονται σε άλλα μοντέλα.
Αυτή η διαδικασία προκαλεί καθυστέρηση: το o3, όπως και το o1, χρειάζεται περισσότερα δευτερόλεπτα ή λεπτά για να καταλήξει σε λύσεις συγκριτικά με μη-συλλογιστικά μοντέλα. Το πλεονέκτημα είναι ότι είναι πιο αξιόπιστο σε τομείς όπως η φυσική, η επιστήμη και τα μαθηματικά.
Το o3 εκπαιδεύτηκε μέσω ενισχυτικής μάθησης να “σκέφτεται” πριν απαντήσει, χρησιμοποιώντας μια αλυσίδα σκέψεων για την επίλυση προβλημάτων.
We announced @OpenAI o1 just 3 months ago. Today, we announced o3. We have every reason to believe this trajectory will continue. pic.twitter.com/Ia0b63RXIk
— Noam Brown (@polynoamial) December 20, 2024
Στην πράξη, όταν δίνεται μια προτροπή, το o3 σταματά πριν απαντήσει, εξετάζει σχετικές προτροπές και «εξηγεί» τη συλλογιστική του. Στη συνέχεια, συνοψίζει την απάντηση που θεωρεί πιο ακριβή.
Το νέο χαρακτηριστικό του o3 σε σχέση με το o1 είναι η δυνατότητα ρύθμισης του χρόνου συλλογισμού. Τα μοντέλα μπορούν να ρυθμιστούν σε χαμηλή, μέτρια ή υψηλή υπολογιστική ισχύ. Όσο υψηλότερη η ισχύς, τόσο καλύτερη η απόδοση.
Παρόλο αυτά, τα μοντέλα συλλογισμού όπως το o3 δεν είναι αλάνθαστα. Μειώνουν τα σφάλματα αλλά δεν τα εξαλείφουν, όπως φαίνεται σε παιχνίδια όπως το τρίλιζα.
Δείκτες και AGI
Ένα κύριο ερώτημα ήταν αν τα νέα μοντέλα πλησιάζουν την AGI (Γενική Τεχνητή Νοημοσύνη), δηλαδή συστήματα που υπερβαίνουν τους ανθρώπους σε περισσότερες εργασίες. Στο ARC-AGI, το o3 πέτυχε σκορ 87,5% στη μέγιστη ισχύ, τριπλασιάζοντας την απόδοση του o1, αλλά με σημαντικό κόστος.
Το κόστος της υψηλής υπολογιστικής ισχύος ήταν εξαιρετικά υψηλό, με προκλήσεις να κοστίζουν χιλιάδες δολάρια, σύμφωνα με τον δημιουργό του ARC-AGI, François Chollet.
Today OpenAI announced o3, its next-gen reasoning model. We’ve worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks.
It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) December 20, 2024
Ο Chollet επεσήμανε ότι το o3 αποτυγχάνει σε “πολύ εύκολες εργασίες” στο ARC-AGI, υποδεικνύοντας – κατά τη γνώμη του – ότι το μοντέλο εμφανίζει “θεμελιώδεις διαφορές” από την ανθρώπινη νοημοσύνη. Έχει προηγουμένως αναφέρει τους περιορισμούς της αξιολόγησης και προειδοποιήσει κατά της χρήσης της ως μέτρο υπερνοημοσύνης AI.
«Πρώιμα δεδομένα δείχνουν ότι ο επόμενος [διάδοχος του ARC-AGI] θα αποτελεί σημαντική πρόκληση για το o3, ίσως μειώνοντας τη βαθμολογία του κάτω από 30%, ενώ ένας έξυπνος άνθρωπος θα πετύχαινε άνω του 95% χωρίς εκπαίδευση», δήλωσε. «Η AGI θα έχει φτάσει όταν οι εργασίες που είναι εύκολες για τους ανθρώπους αλλά δύσκολες για AI καταστούν αδύνατες να δημιουργηθούν».
Η OpenAI ανακοίνωσε συνεργασία με το ίδρυμα πίσω από το ARC-AGI για την ανάπτυξη της επόμενης γενιάς του, ARC-AGI 2.
Σε άλλες δοκιμές, το o3 υπερέχει σημαντικά.
Το μοντέλο ξεπερνά το o1 κατά 22.8 ποσοστιαίες μονάδες στο SWE-Bench Verified, που αφορά προγραμματιστικά καθήκοντα, και πετυχαίνει βαθμολογία 2727 στο Codeforces (99.2ο εκατοστημόριο). Στην Αμερικανική Πρόσκληση Μαθηματικών του 2024, σκοράρει 96.7%, χάνοντας μόνο μία ερώτηση, ενώ πετυχαίνει 87.7% στο GPQA Diamond (ερωτήσεις βιολογίας, φυσικής και χημείας επιπέδου μεταπτυχιακών). Τέλος, το o3 καταρρίπτει ρεκόρ στο Frontier Math της EpochAI, λύνοντας 25.2% προβλημάτων, ενώ κανένα άλλο μοντέλο δεν ξεπερνά το 2%.
We trained o3-mini: both more capable than o1-mini, and around 4x faster end-to-end when accounting for reasoning tokens
with @ren_hongyu @shengjia_zhao & others pic.twitter.com/3Cujxy6yCU
— Kevin Lu (@_kevinlu) December 20, 2024
Αυτοί οι ισχυρισμοί πρέπει να αντιμετωπίζονται με επιφύλαξη, καθώς προέρχονται από εσωτερικές αξιολογήσεις της OpenAI. Θα πρέπει να περιμένουμε να δούμε πώς το μοντέλο θα αντεπεξέλθει σε δοκιμές από ανεξάρτητους πελάτες και οργανισμούς στο μέλλον.
Μια Τάση
Μετά την κυκλοφορία των πρώτων μοντέλων συλλογιστικής της OpenAI, υπήρξε μια έκρηξη τέτοιων μοντέλων από ανταγωνιστικές εταιρείες, συμπεριλαμβανομένης της Google. Τον Νοέμβριο, η DeepSeek παρουσίασε το μοντέλο DeepSeek-R1, ενώ η ομάδα Qwen της Alibaba παρουσίασε έναν “ανοιχτό” αντίπαλο του o1.
Η τάση προέκυψε από την ανάγκη για νέες προσεγγίσεις στη βελτίωση της AI, καθώς οι κλασικές τεχνικές “brute force” δείχνουν να εξαντλούν τα περιθώρια βελτίωσης.
Ωστόσο, μοντέλα συλλογιστικής όπως το o3 παραμένουν αμφιλεγόμενα, λόγω του υψηλού κόστους τους και της αβεβαιότητας για τη διατήρηση της προόδου τους.
Ενδιαφέρον προκαλεί η αποχώρηση του Alec Radford, πρωτοπόρου επιστήμονα της OpenAI, που ανακοίνωσε την αναχώρησή του για ανεξάρτητη έρευνα.