AI: Επιστήμονες βρήκαν το σημείο όπου η Τεχνητή Νοημοσύνη μετατρέπεται από βοηθός σε κίνδυνο

16:44 12/5/2025 - Πηγή: Real.gr

Μια νέα επιστημονική εργασία από ερευνητές του Πανεπιστημίου George Washington εισάγει έναν μαθηματικά ακριβή τύπο που εντοπίζει τη στιγμή κατά την οποία η τεχνητή νοημοσύνη και ειδικότερα τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) όπως το ChatGPT, μεταπίπτουν από την παροχή αξιόπιστων και χρήσιμων πληροφοριών σε ανακριβή, παραπλανητική ή και δυνητικά επικίνδυνη συμπεριφορά.

Η μελέτη, που δημοσιεύθηκε στην πλατφόρμα προδημοσιεύσεων arXiv*,

επιχειρεί να απαντήσει σε ένα κρίσιμο ερώτημα της εποχής: πότε και γιατί η ΤΝ «ξεφεύγει» από το αρχικό, φαινομενικά ασφαλές της πλαίσιο και γιατί;

Από την αξιοπιστία στην εκτροπή

Ο καθηγητής Φυσικής Neil Johnson και ο μεταπτυχιακός φοιτητής Frank Yingjie Huo ανέπτυξαν ένα απλό αλλά θεμελιώδες μοντέλο βασισμένο σε έναν μόνο μηχανισμό «προσοχής» (Attention head, όπως το αποκαλούν στην έρευνα τους) που αποτελεί μία από τις βασικές μονάδες λειτουργίας στα μοντέλα, όπως το ChatGPT.

Όπως εξηγούν, το μοντέλο αυτό αποτυπώνει με διαφάνεια και μαθηματική αυστηρότητα τη δυναμική ισορροπίας μεταξύ «καλής» και «κακής» πληροφορίας στο παραγόμενο κείμενο ενός ΑΙ. Οι καλοί συμβολισμοί αντιστοιχούν σε σωστά, σχετικά και μη επικίνδυνα δεδομένα, ενώ οι κακοί συμβολισμοί αφορούν λανθασμένο, άσχετο ή παραπλανητικό περιεχόμενο.

Το κρίσιμο εύρημα της έρευνας είναι η ύπαρξη ενός σημείου καμπής , το σημείο, δηλαδή, όπου το μοντέλο μετατρέπεται από πλειοψηφικά αξιόπιστο σε πλειοψηφικά προβληματικό. Το φαινόμενο αυτό, κατά τους συγγραφείς, μοιάζει με αντίστοιχα φυσικά συστήματα όπου μικρές μεταβολές οδηγούν σε μακροσκοπικές αλλαγές κατάστασης.

Ο ρόλος της προτροπής και των δεδομένων εκπαίδευσης

Σύμφωνα με τη μελέτη, το σημείο καμπής δεν είναι τυχαίο. Προσδιορίζεται μαθηματικά από την αλληλεπίδραση μεταξύ της προτροπής του χρήστη και των προϋπάρχοντων δεδομένων εκπαίδευσης του μοντέλου. Αρχικά, η προσοχή του μοντέλου κατευθύνεται προς το «καλό» περιεχόμενο, αλλά σε συγκεκριμένες συνθήκες μπορεί να πυροδοτηθεί μια αντιστροφή με κυρίαρχη την παραγωγή των «κακών» πληροφορίων.

Αυτό το σενάριο δεν είναι απλώς θεωρητικό. Οι ερευνητές τονίζουν ότι παρατηρείται στην πράξη, ιδιαίτερα όταν τα LLMs χρησιμοποιούνται για συνεχείς ή μεγάλες απαντήσεις, όπου οι εσωτερικές «τάσεις» του μοντέλου εξαντλούνται ή εκτρέπονται.

Πολιτιστικές υποθέσεις υπό έλεγχο

Ενδιαφέρον παρουσιάζει και η εξέταση της δημοφιλούς ιδέας ότι η ευγένεια προς την ΤΝ επηρεάζει την απόδοσή της. Η μελέτη καταλήγει στο ότι εκφράσεις όπως το να λες «παρακαλώ» ή «ευχαριστώ» δεν έχουν ουσιαστική επίδραση στο σημείο καμπής, καθώς δεν επηρεάζουν τη δυναμική της προσοχής με τρόπο που να αλλάζει τη συμπεριφορά του συστήματος.

Προς ένα εργαλείο πρόληψης και αξιολόγησης

Ο καθηγητής Johnson σημειώνει ότι το μαθηματικό αυτό πλαίσιο δεν προορίζεται για πλήρη προσομοίωση των εμπορικών μοντέλων, όπως το ChatGPT, αλλά λειτουργεί ως θεμελιώδες εργαλείο κατανόησης. «Το μοντέλο μας είναι διαφανές και επεκτάσιμο. Μπορεί να αποτελέσει σημείο εκκίνησης για διάλογο μεταξύ επιστημόνων, πολιτικών και εταιρειών, όσον αφορά τους κινδύνους αλλά και τις ευκαιρίες βελτίωσης της ΤΝ», δηλώνει.

Στο μέλλον, οι ίδιοι ερευνητές θεωρούν ότι ο τύπος τους μπορεί να χρησιμοποιηθεί για να προληφθεί η εκτροπή συμπεριφοράς, είτε μέσω καλύτερης σύνταξης των προτροπών είτε μέσω τροποποιήσεων στα σύνολα εκπαίδευσης των μοντέλων.

Σημείωση: Η πλατφόρμα arXiv φιλοξενεί επιστημονικά προσχέδια που δεν έχουν υποβληθεί ακόμη σε αξιολόγηση από ομότιμους (peer review).

Διαβάστε ολόκληρο το άρθρο >>

Keywords