Apple: Τα μοντέλα τεχνητής νοημοσύνης αδυνατούν να αντιμετωπίσουν την αυξανόμενη πολυπλοκότητα

17:04 10/6/2025 - Πηγή: Insomnia

Ερευνητές της Apple διαπίστωσαν ότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης με ικανότητες συλλογισμού (LRMs) αποτυγχάνουν πλήρως σε περίπλοκα προβλήματα, παρά την αρχική υπεροχή τους έναντι των τυπικών μοντέλων μεγάλης γλώσσας (LLMs).

Η έρευνα, που πραγματοποιήθηκε από την Apple, μια εταιρεία που δεν βρίσκεται στην πρώτη γραμμή της ανάπτυξης τεχνητής νοημοσύνης, υποδεικνύει ότι τα σημερινά LRMs και LLMs έχουν θεμελιώδεις περιορισμούς στην ικανότητά τους να γενικεύουν τον συλλογισμό με τρόπο παρόμοιο με τον ανθρώπινο.

Οι ερευνητές δοκίμασαν δύο προηγμένα μοντέλα AI - το Claude 3.7 Sonnet Thinking και το DeepSeek-R1 LRMs - σε ελεγχόμενα περιβάλλοντα γρίφων, όπως ο Πύργος του Ανόι και η Διάσχιση Ποταμού. Σκοπός τους ήταν να αξιολογήσουν όχι μόνο τις τελικές απαντήσεις αλλά και τις εσωτερικές διαδικασίες συλλογισμού αυτών των μοντέλων, συγκρίνοντάς τα με τυπικά μεγάλα μοντέλα γλώσσας υπό ίσες υπολογιστικές συνθήκες.

Σύμφωνα με τα ευρήματα, η απόδοση των LRMs διαφέρει ανάλογα με την πολυπλοκότητα του προβλήματος. Σε απλές εργασίες, τα τυπικά LLMs, χωρίς ρητούς μηχανισμούς συλλογισμού, ήταν πιο ακριβή και αποδοτικά, παρέχοντας καλύτερα αποτελέσματα με λιγότερους υπολογιστικούς πόρους.

Ωστόσο, καθώς η πολυπλοκότητα των προβλημάτων αυξανόταν σε μέτριο επίπεδο, τα μοντέλα με δομημένο συλλογισμό, όπως αυτά που χρησιμοποιούν την τεχνική Chain-of-Thought, απέκτησαν πλεονέκτημα και ξεπέρασαν σε απόδοση τα μη-συλλογιστικά αντίστοιχά τους.

Όπως αναφέρεται στην έρευνα, όταν η πολυπλοκότητα αυξήθηκε περαιτέρω, και οι δύο τύποι μοντέλων απέτυχαν εντελώς: η ακρίβειά τους έπεσε στο μηδέν ανεξάρτητα από τους διαθέσιμους υπολογιστικούς πόρους. Αξίζει να σημειωθεί ότι τα Claude 3.7 Sonnet Thinking και DeepSeek-R1 LRMs έχουν περιορισμούς όσον αφορά την εκπαίδευσή τους.

Μια βαθύτερη ανάλυση των διαδικασιών συλλογισμού αποκάλυψε ανεπάρκειες και απροσδόκητες συμπεριφορές. Αρχικά, τα μοντέλα συλλογισμού χρησιμοποιούσαν μεγαλύτερες ακολουθίες σκέψης καθώς τα προβλήματα γίνονταν δυσκολότερα, αλλά κοντά στο σημείο αποτυχίας, μείωναν απροσδόκητα την προσπάθεια συλλογισμού τους ακόμη και όταν διέθεταν επαρκή υπολογιστική ικανότητα.

Επιπλέον, ακόμη και όταν τους παρέχονταν ρητά οι σωστοί αλγόριθμοι, τα μοντέλα αποτύγχαναν να εκτελέσουν αξιόπιστα τις οδηγίες βήμα προς βήμα σε περίπλοκες εργασίες, αποκαλύπτοντας αδυναμίες στον λογικό υπολογισμό.

Η μελέτη διαπίστωσε επίσης ότι η απόδοση των μοντέλων διέφερε σημαντικά μεταξύ οικείων και λιγότερο συνηθισμένων γρίφων, υποδηλώνοντας ότι η επιτυχία συχνά εξαρτιόταν από την εξοικείωση με τα δεδομένα εκπαίδευσης παρά από πραγματικές γενικεύσιμες δεξιότητες συλλογισμού.

Διαβάστε ολόκληρο το άρθρο

Διαβάστε ολόκληρο το άρθρο >>

Keywords