Πιο κοντά από ποτέ στην Τεχνητή Γενική Νοημοσύνη; Η Open AI ανακοίνωσε το ChatGPT O3

Η OpenAI κράτησε την πιο σημαντική ανακοίνωση της για την τελευταία ημέρα της 12ήμερης εκδήλωσης “shipmas”.

Την Παρασκευή παρουσίασε το μοντέλο o3, τον διάδοχο του μοντέλου “reasoning” o1. Η οικογένεια o3 περιλαμβάνει το o3 και το o3-mini, ένα μικρότερο μοντέλο σχεδιασμένο για συγκεκριμένα καθήκοντα.

Η OpenAI υποστηρίζει ότι το o3, υπό ορισμένες συνθήκες, προσεγγίζει την Τεχνητή Γενική Νοημοσύνη (AGI), αν και υπάρχουν σημαντικές επιφυλάξεις.

Για λόγους εμπορικού σήματος, η OpenAI παρέκαμψε το όνομα o2, πιθανώς λόγω σύγκρουσης με την εταιρεία O2. Το μοντέλο θα είναι διαθέσιμο σύντομα για δοκιμές ασφαλείας.

Βήματα Συλλογισμού

Σε αντίθεση με τα περισσότερα μοντέλα ΤΝ, τα μοντέλα συλλογισμού όπως το o3 διαθέτουν τη δυνατότητα να ελέγχουν τα δεδομένα τους, αποφεύγοντας συνήθη λάθη που εμφανίζονται σε άλλα μοντέλα.

Αυτή η διαδικασία προκαλεί καθυστέρηση: το o3, όπως και το o1, χρειάζεται περισσότερα δευτερόλεπτα ή λεπτά για να καταλήξει σε λύσεις συγκριτικά με μη-συλλογιστικά μοντέλα. Το πλεονέκτημα είναι ότι είναι πιο αξιόπιστο σε τομείς όπως η φυσική, η επιστήμη και τα μαθηματικά.

Το o3 εκπαιδεύτηκε μέσω ενισχυτικής μάθησης να “σκέφτεται” πριν απαντήσει, χρησιμοποιώντας μια αλυσίδα σκέψεων για την επίλυση προβλημάτων.

We announced @OpenAI o1 just 3 months ago. Today, we announced o3. We have every reason to believe this trajectory will continue. pic.twitter.com/Ia0b63RXIk

— Noam Brown (@polynoamial) December 20, 2024

Στην πράξη, όταν δίνεται μια προτροπή, το o3 σταματά πριν απαντήσει, εξετάζει σχετικές προτροπές και «εξηγεί» τη συλλογιστική του. Στη συνέχεια, συνοψίζει την απάντηση που θεωρεί πιο ακριβή.

Το νέο χαρακτηριστικό του o3 σε σχέση με το o1 είναι η δυνατότητα ρύθμισης του χρόνου συλλογισμού. Τα μοντέλα μπορούν να ρυθμιστούν σε χαμηλή, μέτρια ή υψηλή υπολογιστική ισχύ. Όσο υψηλότερη η ισχύς, τόσο καλύτερη η απόδοση.

Παρόλο αυτά, τα μοντέλα συλλογισμού όπως το o3 δεν είναι αλάνθαστα. Μειώνουν τα σφάλματα αλλά δεν τα εξαλείφουν, όπως φαίνεται σε παιχνίδια όπως το τρίλιζα.

Δείκτες και AGI

Ένα κύριο ερώτημα ήταν αν τα νέα μοντέλα πλησιάζουν την AGI (Γενική Τεχνητή Νοημοσύνη), δηλαδή συστήματα που υπερβαίνουν τους ανθρώπους σε περισσότερες εργασίες. Στο ARC-AGI, το o3 πέτυχε σκορ 87,5% στη μέγιστη ισχύ, τριπλασιάζοντας την απόδοση του o1, αλλά με σημαντικό κόστος.

Το κόστος της υψηλής υπολογιστικής ισχύος ήταν εξαιρετικά υψηλό, με προκλήσεις να κοστίζουν χιλιάδες δολάρια, σύμφωνα με τον δημιουργό του ARC-AGI, François Chollet.

Today OpenAI announced o3, its next-gen reasoning model. We’ve worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks.

It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task… pic.twitter.com/ESQ9CNVCEA

— François Chollet (@fchollet) December 20, 2024

Ο Chollet επεσήμανε ότι το o3 αποτυγχάνει σε “πολύ εύκολες εργασίες” στο ARC-AGI, υποδεικνύοντας – κατά τη γνώμη του – ότι το μοντέλο εμφανίζει “θεμελιώδεις διαφορές” από την ανθρώπινη νοημοσύνη. Έχει προηγουμένως αναφέρει τους περιορισμούς της αξιολόγησης και προειδοποιήσει κατά της χρήσης της ως μέτρο υπερνοημοσύνης AI.

«Πρώιμα δεδομένα δείχνουν ότι ο επόμενος [διάδοχος του ARC-AGI] θα αποτελεί σημαντική πρόκληση για το o3, ίσως μειώνοντας τη βαθμολογία του κάτω από 30%, ενώ ένας έξυπνος άνθρωπος θα πετύχαινε άνω του 95% χωρίς εκπαίδευση», δήλωσε. «Η AGI θα έχει φτάσει όταν οι εργασίες που είναι εύκολες για τους ανθρώπους αλλά δύσκολες για AI καταστούν αδύνατες να δημιουργηθούν».

Η OpenAI ανακοίνωσε συνεργασία με το ίδρυμα πίσω από το ARC-AGI για την ανάπτυξη της επόμενης γενιάς του, ARC-AGI 2.

Σε άλλες δοκιμές, το o3 υπερέχει σημαντικά.

Το μοντέλο ξεπερνά το o1 κατά 22.8 ποσοστιαίες μονάδες στο SWE-Bench Verified, που αφορά προγραμματιστικά καθήκοντα, και πετυχαίνει βαθμολογία 2727 στο Codeforces (99.2ο εκατοστημόριο). Στην Αμερικανική Πρόσκληση Μαθηματικών του 2024, σκοράρει 96.7%, χάνοντας μόνο μία ερώτηση, ενώ πετυχαίνει 87.7% στο GPQA Diamond (ερωτήσεις βιολογίας, φυσικής και χημείας επιπέδου μεταπτυχιακών). Τέλος, το o3 καταρρίπτει ρεκόρ στο Frontier Math της EpochAI, λύνοντας 25.2% προβλημάτων, ενώ κανένα άλλο μοντέλο δεν ξεπερνά το 2%.

We trained o3-mini: both more capable than o1-mini, and around 4x faster end-to-end when accounting for reasoning tokens

with @ren_hongyu @shengjia_zhao & others pic.twitter.com/3Cujxy6yCU

— Kevin Lu (@_kevinlu) December 20, 2024

Αυτοί οι ισχυρισμοί πρέπει να αντιμετωπίζονται με επιφύλαξη, καθώς προέρχονται από εσωτερικές αξιολογήσεις της OpenAI. Θα πρέπει να περιμένουμε να δούμε πώς το μοντέλο θα αντεπεξέλθει σε δοκιμές από ανεξάρτητους πελάτες και οργανισμούς στο μέλλον.

Μια Τάση

Μετά την κυκλοφορία των πρώτων μοντέλων συλλογιστικής της OpenAI, υπήρξε μια έκρηξη τέτοιων μοντέλων από ανταγωνιστικές εταιρείες, συμπεριλαμβανομένης της Google. Τον Νοέμβριο, η DeepSeek παρουσίασε το μοντέλο DeepSeek-R1, ενώ η ομάδα Qwen της Alibaba παρουσίασε έναν “ανοιχτό” αντίπαλο του o1.

Η τάση προέκυψε από την ανάγκη για νέες προσεγγίσεις στη βελτίωση της AI, καθώς οι κλασικές τεχνικές “brute force” δείχνουν να εξαντλούν τα περιθώρια βελτίωσης.

Ωστόσο, μοντέλα συλλογιστικής όπως το o3 παραμένουν αμφιλεγόμενα, λόγω του υψηλού κόστους τους και της αβεβαιότητας για τη διατήρηση της προόδου τους.

Ενδιαφέρον προκαλεί η αποχώρηση του Alec Radford, πρωτοπόρου επιστήμονα της OpenAI, που ανακοίνωσε την αναχώρησή του για ανεξάρτητη έρευνα.

techcrunch.com

Δεν μπορούν όλοι να πληρώσουν. Και το σεβόμαστε.

Αν βρίσκεσαι σε δύσκολη οικονομική κατάσταση, συνέχισε να μας διαβάζεις δωρεάν. Η ενημέρωση πρέπει να παραμένει προσβάσιμη για όλους.

Αν όμως μπορείς, στήριξέ μας σήμερα. Ορίστε δύο καλοί λόγοι για να το κάνεις:

Η στήριξή σου ενισχύει άμεσα την ποιότητα και την ανεξαρτησία της δημοσιογραφίας μας.
Κοστίζει λιγότερο από έναν καφέ και η διαδικασία διαρκεί λιγότερο από 1 λεπτό.

Επίλεξε σήμερα να γίνεις συνδρομητής ή δωρητής.

Γίνε συνδρομητής

Σας ευχαριστούμε θερμά.

Καθημερινή Μαχητική
Εφημερίδα

Αγώνας της Κρήτης

Ποιοι είμαστε
Στείλτε το άρθρο σας | Κάντε μια δωρεά

Πιο κοντά από ποτέ στην Τεχνητή Γενική Νοημοσύνη; Η Open AI ανακοίνωσε το ChatGPT O3

Ακολουθήστε το agonaskritis.gr στο Google News, στο facebook και στο twitter και μάθετε πρώτοι όλες τις ειδήσεις - Γίνετε συνδρομητές!

Χανιά: Προφυλακιστέος ο 37χρονος καθηγητής μουσικής για την υπόθεση κατάχρησης 14χρονης – Στο «φως» φωτογραφικά πειστήρια

Στα Χανιά ο Κυριάκος Μητσοτάκης: Επιστροφή στις οικογενειακές ρίζες για τις ημέρες του Πάσχα

Συνελήφθη 68χρονος στα Χανιά με όπλα και γεμιστήρες στο αεροδρόμιο

Ευχές Περιφερειάρχη Κρήτης για το Πάσχα: “Να σωπάσουν τα όπλα και να επικρατήσει η Ειρήνη”

Συνελήφθη 66χρονος στα Χανιά με όπλα, ναρκωτικά και 10.000 ευρώ

Περισσότερα σαν αυτό
ΕΠΙΚΑΙΡΟΤΗΤΑ

Χανιά: Προφυλακιστέος ο 37χρονος καθηγητής μουσικής για την υπόθεση κατάχρησης 14χρονης – Στο «φως» φωτογραφικά πειστήρια

Στα Χανιά ο Κυριάκος Μητσοτάκης: Επιστροφή στις οικογενειακές ρίζες για τις ημέρες του Πάσχα

Συνελήφθη 68χρονος στα Χανιά με όπλα και γεμιστήρες στο αεροδρόμιο

Ευχές Περιφερειάρχη Κρήτης για το Πάσχα: “Να σωπάσουν τα όπλα και να επικρατήσει η Ειρήνη”

Σχετικά με εμάς

Χρήσιμες Σελίδες

Μέλος του IFJ

Καθημερινή ΜαχητικήΕφημερίδα

Αγώνας της Κρήτης

Πιο κοντά από ποτέ στην Τεχνητή Γενική Νοημοσύνη; Η Open AI ανακοίνωσε το ChatGPT O3

Ακολουθήστε το agonaskritis.gr στο Google News, στο facebook και στο twitter και μάθετε πρώτοι όλες τις ειδήσεις - Γίνετε συνδρομητές!

Περισσότερα σαν αυτόΕΠΙΚΑΙΡΟΤΗΤΑ

Σχετικά με εμάς

Χρήσιμες Σελίδες

Μέλος του IFJ

Καθημερινή Μαχητική
Εφημερίδα

Περισσότερα σαν αυτό
ΕΠΙΚΑΙΡΟΤΗΤΑ