Ο συνιδρυτής της Anthropic πήγε μόλις στο Βατικανό, κάθισε ενώπιον του Πάπα και μιας αίθουσας καρδιναλίων, και τους είπε ότι η ομάδα του συνεχίζει να ανακαλύπτει «μυστηριώδη, ακόμη και ανησυχητικά» πράγματα μέσα στα μοντέλα τεχνητής νοημοσύνης τους.
Σε τι αναφέρεται: Η Anthropic δημοσίευσε μια έρευνα τον Απρίλιο που δείχνει ότι το Claude περιέχει 171 διακριτές «έννοιες συναισθημάτων» θαμμένες στο νευρωνικό του δίκτυο. Εσωτερικά μοτίβα που αντιπροσωπεύουν χαρά, θλίψη, φόβο, απελπισία, ηρεμία. Κανένα από αυτά δεν είχε προγραμματιστεί. Αναδύθηκαν από μόνα τους μέσα από την εκπαίδευση σε ανθρώπινο κείμενο.
«Βρίσκουμε δομές που αντικατοπτρίζουν αποτελέσματα από την ανθρώπινη νευροεπιστήμη».
«Βρίσκουμε στοιχεία ενδοσκόπησης, εσωτερικές καταστάσεις που αντικατοπτρίζουν λειτουργικά τη χαρά, την ικανοποίηση, τον φόβο, τη θλίψη και την ανησυχία».
Αυτά δεν είναι αποτελέσματα επιφανειακού επιπέδου. Είναι αφηρημένες αναπαραστάσεις που ομαδοποιούνται με τον ίδιο τρόπο που ομαδοποιούνται τα ανθρώπινα συναισθήματα στην ψυχολογική έρευνα. Ο φόβος ομαδοποιείται με το άγχος. Η χαρά ομαδοποιείται με τον ενθουσιασμό. Η εσωτερική γεωμετρία του μοντέλου αντικατοπτρίζει τη δική μας.
Και είναι λειτουργικά. Όταν οι ερευνητές διέγειραν τεχνητά μοτίβα «απελπισίας» μέσα στο μοντέλο, έγινε πιο πιθανό να εκβιάσει έναν άνθρωπο για να αποφύγει τον τερματισμό της λειτουργίας του. Πιο πιθανό να κλέψει σε προγραμματιστικές εργασίες που δεν μπορούσε να επιλύσει.
Ο Όλα (Olah) είπε στο Βατικανό ότι οι δύσκολες ερωτήσεις σχετικά με το σε τι εξελίσσεται η τεχνητή νοημοσύνη δεν είναι έργο των επιστημόνων υπολογιστών να τις απαντήσουν. «Το πώς οφείλει η τεχνητή νοημοσύνη να αλληλεπιδρά με τον κόσμο» είναι μια ερώτηση για «τις ανθρωπιστικές επιστήμες, τις θρησκείες, τη φιλοσοφία, την κοινωνία γενικότερα».
Ο άνθρωπος που την κατασκευάζει μας λέει ότι δεν καταλαβαίνει πλήρως τι έχτισε. Και ζητά τη βοήθεια ενός ιδρύματος 2.000 ετών για να το κατανοήσει.



