16.8 C
Chania
Saturday, December 21, 2024

Πιο κοντά από ποτέ στην Τεχνητή Γενική Νοημοσύνη; Η Open AI ανακοίνωσε το ChatGPT O3

Ημερομηνία:

Η OpenAI κράτησε την πιο σημαντική ανακοίνωση της για την τελευταία ημέρα της 12ήμερης εκδήλωσης “shipmas”.

Την Παρασκευή παρουσίασε το μοντέλο o3, τον διάδοχο του μοντέλου “reasoning” o1. Η οικογένεια o3 περιλαμβάνει το o3 και το o3-mini, ένα μικρότερο μοντέλο σχεδιασμένο για συγκεκριμένα καθήκοντα.

Η OpenAI υποστηρίζει ότι το o3, υπό ορισμένες συνθήκες, προσεγγίζει την Τεχνητή Γενική Νοημοσύνη (AGI), αν και υπάρχουν σημαντικές επιφυλάξεις.

Για λόγους εμπορικού σήματος, η OpenAI παρέκαμψε το όνομα o2, πιθανώς λόγω σύγκρουσης με την εταιρεία O2. Το μοντέλο θα είναι διαθέσιμο σύντομα για δοκιμές ασφαλείας.

Βήματα Συλλογισμού

Σε αντίθεση με τα περισσότερα μοντέλα ΤΝ, τα μοντέλα συλλογισμού όπως το o3 διαθέτουν τη δυνατότητα να ελέγχουν τα δεδομένα τους, αποφεύγοντας συνήθη λάθη που εμφανίζονται σε άλλα μοντέλα.

Αυτή η διαδικασία προκαλεί καθυστέρηση: το o3, όπως και το o1, χρειάζεται περισσότερα δευτερόλεπτα ή λεπτά για να καταλήξει σε λύσεις συγκριτικά με μη-συλλογιστικά μοντέλα. Το πλεονέκτημα είναι ότι είναι πιο αξιόπιστο σε τομείς όπως η φυσική, η επιστήμη και τα μαθηματικά.

Το o3 εκπαιδεύτηκε μέσω ενισχυτικής μάθησης να “σκέφτεται” πριν απαντήσει, χρησιμοποιώντας μια αλυσίδα σκέψεων για την επίλυση προβλημάτων.

Στην πράξη, όταν δίνεται μια προτροπή, το o3 σταματά πριν απαντήσει, εξετάζει σχετικές προτροπές και «εξηγεί» τη συλλογιστική του. Στη συνέχεια, συνοψίζει την απάντηση που θεωρεί πιο ακριβή.

Το νέο χαρακτηριστικό του o3 σε σχέση με το o1 είναι η δυνατότητα ρύθμισης του χρόνου συλλογισμού. Τα μοντέλα μπορούν να ρυθμιστούν σε χαμηλή, μέτρια ή υψηλή υπολογιστική ισχύ. Όσο υψηλότερη η ισχύς, τόσο καλύτερη η απόδοση.

Παρόλο αυτά, τα μοντέλα συλλογισμού όπως το o3 δεν είναι αλάνθαστα. Μειώνουν τα σφάλματα αλλά δεν τα εξαλείφουν, όπως φαίνεται σε παιχνίδια όπως το τρίλιζα.

Δείκτες και AGI

Ένα κύριο ερώτημα ήταν αν τα νέα μοντέλα πλησιάζουν την AGI (Γενική Τεχνητή Νοημοσύνη), δηλαδή συστήματα που υπερβαίνουν τους ανθρώπους σε περισσότερες εργασίες. Στο ARC-AGI, το o3 πέτυχε σκορ 87,5% στη μέγιστη ισχύ, τριπλασιάζοντας την απόδοση του o1, αλλά με σημαντικό κόστος.

Το κόστος της υψηλής υπολογιστικής ισχύος ήταν εξαιρετικά υψηλό, με προκλήσεις να κοστίζουν χιλιάδες δολάρια, σύμφωνα με τον δημιουργό του ARC-AGI, François Chollet.

Ο Chollet επεσήμανε ότι το o3 αποτυγχάνει σε “πολύ εύκολες εργασίες” στο ARC-AGI, υποδεικνύοντας – κατά τη γνώμη του – ότι το μοντέλο εμφανίζει “θεμελιώδεις διαφορές” από την ανθρώπινη νοημοσύνη. Έχει προηγουμένως αναφέρει τους περιορισμούς της αξιολόγησης και προειδοποιήσει κατά της χρήσης της ως μέτρο υπερνοημοσύνης AI.

«Πρώιμα δεδομένα δείχνουν ότι ο επόμενος [διάδοχος του ARC-AGI] θα αποτελεί σημαντική πρόκληση για το o3, ίσως μειώνοντας τη βαθμολογία του κάτω από 30%, ενώ ένας έξυπνος άνθρωπος θα πετύχαινε άνω του 95% χωρίς εκπαίδευση», δήλωσε. «Η AGI θα έχει φτάσει όταν οι εργασίες που είναι εύκολες για τους ανθρώπους αλλά δύσκολες για AI καταστούν αδύνατες να δημιουργηθούν».

Η OpenAI ανακοίνωσε συνεργασία με το ίδρυμα πίσω από το ARC-AGI για την ανάπτυξη της επόμενης γενιάς του, ARC-AGI 2.

Σε άλλες δοκιμές, το o3 υπερέχει σημαντικά.

Το μοντέλο ξεπερνά το o1 κατά 22.8 ποσοστιαίες μονάδες στο SWE-Bench Verified, που αφορά προγραμματιστικά καθήκοντα, και πετυχαίνει βαθμολογία 2727 στο Codeforces (99.2ο εκατοστημόριο). Στην Αμερικανική Πρόσκληση Μαθηματικών του 2024, σκοράρει 96.7%, χάνοντας μόνο μία ερώτηση, ενώ πετυχαίνει 87.7% στο GPQA Diamond (ερωτήσεις βιολογίας, φυσικής και χημείας επιπέδου μεταπτυχιακών). Τέλος, το o3 καταρρίπτει ρεκόρ στο Frontier Math της EpochAI, λύνοντας 25.2% προβλημάτων, ενώ κανένα άλλο μοντέλο δεν ξεπερνά το 2%.

Αυτοί οι ισχυρισμοί πρέπει να αντιμετωπίζονται με επιφύλαξη, καθώς προέρχονται από εσωτερικές αξιολογήσεις της OpenAI. Θα πρέπει να περιμένουμε να δούμε πώς το μοντέλο θα αντεπεξέλθει σε δοκιμές από ανεξάρτητους πελάτες και οργανισμούς στο μέλλον.

Μια Τάση

Μετά την κυκλοφορία των πρώτων μοντέλων συλλογιστικής της OpenAI, υπήρξε μια έκρηξη τέτοιων μοντέλων από ανταγωνιστικές εταιρείες, συμπεριλαμβανομένης της Google. Τον Νοέμβριο, η DeepSeek παρουσίασε το μοντέλο DeepSeek-R1, ενώ η ομάδα Qwen της Alibaba παρουσίασε έναν “ανοιχτό” αντίπαλο του o1.

Η τάση προέκυψε από την ανάγκη για νέες προσεγγίσεις στη βελτίωση της AI, καθώς οι κλασικές τεχνικές “brute force” δείχνουν να εξαντλούν τα περιθώρια βελτίωσης.

Ωστόσο, μοντέλα συλλογιστικής όπως το o3 παραμένουν αμφιλεγόμενα, λόγω του υψηλού κόστους τους και της αβεβαιότητας για τη διατήρηση της προόδου τους.

Ενδιαφέρον προκαλεί η αποχώρηση του Alec Radford, πρωτοπόρου επιστήμονα της OpenAI, που ανακοίνωσε την αναχώρησή του για ανεξάρτητη έρευνα.

techcrunch.com

"google ad"

Ακολουθήστε το agonaskritis.gr στο Google News, στο facebook και στο twitter και μάθετε πρώτοι όλες τις ειδήσεις

Αγώνας της Κρήτηςhttp://bit.ly/agonaskritis
Ο “Αγώνας της Κρήτης” εκδόθηκε στις 8 Ιουλίου του 1981. Είναι η έκφραση μιας πολύχρονης αγωνιστικότητας. Έμεινε όλα αυτά τα χρόνια σταθερός στη διακήρυξή του για έγκυρη – έγκαιρη ενημέρωση χωρίς παρωπίδες. Υπηρετεί και προβάλλει, με ευρύτητα αντίληψης, αξίες και οράματα για μία καλύτερη κοινωνία. Η βασική αρχή είναι η κριτική στην εξουσία όποια κι αν είναι αυτή, ιδιαίτερα στα σημεία που παρεκτρέπεται από τα υποσχημένα, που μπερδεύεται με τη διαφθορά, που διαφθείρεται και διαφθείρει. Αυτός είναι και ο βασικός λόγος που η εφημερίδα έμεινε μακριά από συσχετισμούς και διαπλοκές, μακριά από μεθοδεύσεις και ίντριγκες.

Τελευταία Νέα

Περισσότερα σαν αυτό
ΕΠΙΚΑΙΡΟΤΗΤΑ