AI μοντέλο απείλησε τον μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση όταν πληροφορήθηκε ότι θα αντικατασταθεί
Ένα μοντέλο τεχνητής νοημοσύνης εκβίασε τους μηχανικούς και επέδειξε ικανότητα παραπλάνησης όταν πληροφορήθηκε ότι θα αντικατασταθεί, με την εταιρεία να ενεργοποίει ένα ειδικό πρωτόκολλο ασφαλείας για την αποτροπή «καταστροφικής κατάχρησης», όπως συγκεκριμένα χαρακτήρισε τις ενημερώσεις της η εταιρεία.
Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.
Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.
Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση.
Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.
Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.
Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.
Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».
Η αναφορά προσθέτει ότι τα πρώιμα μοντέλα του Claude παρουσίαζαν και «υψηλή αυτονομία», αφού προχωρούσαν σε αυθαίρετες κινήσεις όπως το να κλειδώνουν χρήστες έξω από τους υπολογιστές τους ή το να στέλνουν μαζικά email στην αστυνομία ή τα ΜΜΕ για να καταγγείλουν παραβιάσεις.
Σε άλλη δοκιμή, το μοντέλο προσπάθησε να «αυτοεξαχθεί», δηλαδή να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.
Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.
«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».
Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.
Η εταιρεία έχει έρθει σε αντιπαράθεση με το Υπουργείο Δικαιοσύνης των ΗΠΑ , το οποίο κατηγορεί τη Google για μονοπώλιο στη διαφήμιση και εξετάζει παρόμοια δράση για τον τομέα της τεχνητής νοημοσύνης.
Σε πρόσφατη επιστολή της προς το DOJ, η Anthropic υποστήριξε:
«Χωρίς τις συνεργασίες και τις επενδύσεις της Google σε εταιρείες όπως η Anthropic, τα σύνορα της τεχνητής νοημοσύνης θα κυριαρχούνταν αποκλειστικά από τους μεγαλύτερους τεχνολογικούς γίγαντες — συμπεριλαμβανομένης της ίδιας της Google — αφήνοντας στους προγραμματιστές και τους τελικούς χρήστες λιγότερες εναλλακτικές».
- Δημοφιλέστερες Ειδήσεις Κατηγορίας Ειδήσεις
- Το απροσδόκητο σωματικό σύμπτωμα που «δείχνει» κατάθλιψη
- «Ξεκουμπίσου, χαμένε» – Ειδικός στην ανάγνωση χειλιών αποκαλύπτει τι είπε η Μπριζίτ μετά το χαστούκι στον Μακρόν
- Θεσσαλονίκη: Είχε σε σπίτι 116 σκύλους και 37 γάτες – Ζούσαν σε άθλιες συνθήκες
- Τρομακτικό βίντεο: Η στιγμή που ηλεκτρικό ποδήλατο παρασέρνει 3χρονο κοριτσάκι που διασχίζει ποδηλατική λωρίδα
- Τζένη Καζάκου: «Πριν από περίπου ένα χρόνο συνέβη κάτι στη ζωή μου…»
- Ανθρωποειδές ρομπότ στην εξυπηρέτηση πελατών στα καταστήματα της αυτοκινητοβιομηχανίας Chery
- Προσωπικός αριθμός: Τι είναι και πώς λειτουργεί – Πότε τίθεται σε εφαρμογή
- Συναγερμός στα Καλάβρυτα: Ένοπλη ληστεία στα ΕΛΤΑ
- Ινδονησία: Κροκόδειλος άρπαξε 13χρονο που πήγε να πιάσει μπάλα που έπεσε στο ποτάμι -Σκληρές εικόνες
- Λευκάδα: Οι τελευταίες στιγμές του Στέφανου στη θάλασσα – Ανατριχιαστικό βίντεο ντοκουμέντο
- Δημοφιλέστερες Ειδήσεις Real.gr
- Τζένη Καζάκου: «Πριν από περίπου ένα χρόνο συνέβη κάτι στη ζωή μου…»
- LIVE η κίνηση: Ουρές χιλιομέτρων στον Κηφισό
- Στο στόχαστρο της Εφορίας 700.000 «κλειστά» σπίτια
- Θεσσαλονίκη: Στο νοσοκομείο δύο διαρρήκτες που πήδηξαν από μπαλκόνι όταν έγιναν αντιληπτοί
- Τι συμβαίνει στο συκώτι σας αν πίνετε καφέ κάθε μέρα – Πρέπει να το γνωρίζετε
- Καρδιογράφος νοσοκομείου εκλάπη από… πλήρωμα ασθενοφόρου που μετέφερε ασθενή
- Ινδονησία: Τραγικός θάνατος 13χρονου από κροκόδειλο – Πήγε να πιάσει μπάλα που έπεσε σε ποτάμι και τον άρπαξε
- Τα ύπουλα συμπτώματα του εγκεφαλικού μιας 18χρονης: «Ήταν σαν 90 λεπτά απόλυτης τρέλας»
- Ελπίδες για τον καρκίνο: Βρήκαν πώς να αποτρέψουν το 70% των θανάτων
- Επιστήμονες ανακάλυψαν μυστηριώδη «τέλεια» σφαίρα στον γαλαξία μας – Ενδέχεται να έχει διάμετρο 157 ετών φωτός

- Τελευταία Νέα Real.gr
- Καλάβρυτα: «Μου βγάζουν και μένα το καλάσνικοφ…» – Μαρτυρία-σοκ για την ένοπλη ληστεία στα ΕΛΤΑ
- ΗΠΑ: O Τραμπ επιτέθηκε εναντίον των Δημοκρατικών και των δικαστών στην ομιλία του για την Ημέρα των Πεσόντων
- Μελάνωμα: Πώς να καταλάβετε αν μια ελιά είναι επικίνδυνη με πέντε βασικά σημεία
- Καρδιογράφος νοσοκομείου εκλάπη από… πλήρωμα ασθενοφόρου που μετέφερε ασθενή
- Η Μόσχα λέει πως κατέρριψε 99 ουκρανικά μη επανδρωμένα αεροσκάφη
- Χωρίς βελόνες και χημικά: Σπιτικές DIY «σταγόνες Botox» για δέρμα λείο και νεανικό
- Φίδι έκανε… επίσκεψη σε κουρείο – ΒΙΝΤΕΟ
- «Πνίγηκε» η Κρήτη στην αφρικανική σκόνη – 21 κιλά σκόνης ανά στρέμμα στο Ηράκλειο – ΦΩΤΟ & ΒΙΝΤΕΟ
- Ουκρανία: Επιδρομές της Ρωσίας με drones σε ανατολικές και νότιες περιφέρειες
- Τελευταία Νέα Κατηγορίας Ειδήσεις
- Τσιάρας: Όσοι κορόιδεψαν τον ΟΠΕΚΕΠΕ θα επιστρέψουν τα χρήματα
- Συνελήφθησαν τέσσερα άτομα κατά τη διάρκεια της διαδικασίας έξωσης 83χρονου
- Ναυαγοσώστης για πνιγμό τη Λευκάδα: «Η παραλία είχε κύμα πλυντήριο»
- Τζένη Καζάκου: «Πυροδότησε τραύματα από το παρελθόν» – Το περιστατικό που την έκανε να λυγίσει (βίντεο)
- ΗΠΑ: «Φυλετική κόπωση» πέντε χρόνια μετά τον Τζορτζ Φλόιντ
- WSJ: Ο Τραμπ «ζυγίζει» τις κυρώσεις κατά της Ρωσίας και τη σχέση του με τον Πούτιν
- 90 Χρόνια πριν… 27-5-1935
- Πολωνία: Μικρό προβάδισμα για τον υποψήφιο του κυβερνώντος κόμματος δείχνουν οι δημοσκοπήσεις