Apple: Τα μοντέλα τεχνητής νοημοσύνης αδυνατούν να αντιμετωπίσουν την αυξανόμενη πολυπλοκότητα
Ερευνητές της Apple διαπίστωσαν ότι τα προηγμένα μοντέλα τεχνητής νοημοσύνης με ικανότητες συλλογισμού (LRMs) αποτυγχάνουν πλήρως σε περίπλοκα προβλήματα, παρά την αρχική υπεροχή τους έναντι των τυπικών μοντέλων μεγάλης γλώσσας (LLMs).
Η έρευνα, που πραγματοποιήθηκε από την Apple, μια εταιρεία που δεν βρίσκεται στην πρώτη γραμμή της ανάπτυξης τεχνητής νοημοσύνης, υποδεικνύει ότι τα σημερινά LRMs και LLMs έχουν θεμελιώδεις περιορισμούς στην ικανότητά τους να γενικεύουν τον συλλογισμό με τρόπο παρόμοιο με τον ανθρώπινο.
Οι ερευνητές δοκίμασαν δύο προηγμένα μοντέλα AI - το Claude 3.7 Sonnet Thinking και το DeepSeek-R1 LRMs - σε ελεγχόμενα περιβάλλοντα γρίφων, όπως ο Πύργος του Ανόι και η Διάσχιση Ποταμού. Σκοπός τους ήταν να αξιολογήσουν όχι μόνο τις τελικές απαντήσεις αλλά και τις εσωτερικές διαδικασίες συλλογισμού αυτών των μοντέλων, συγκρίνοντάς τα με τυπικά μεγάλα μοντέλα γλώσσας υπό ίσες υπολογιστικές συνθήκες.
Σύμφωνα με τα ευρήματα, η απόδοση των LRMs διαφέρει ανάλογα με την πολυπλοκότητα του προβλήματος. Σε απλές εργασίες, τα τυπικά LLMs, χωρίς ρητούς μηχανισμούς συλλογισμού, ήταν πιο ακριβή και αποδοτικά, παρέχοντας καλύτερα αποτελέσματα με λιγότερους υπολογιστικούς πόρους.
Ωστόσο, καθώς η πολυπλοκότητα των προβλημάτων αυξανόταν σε μέτριο επίπεδο, τα μοντέλα με δομημένο συλλογισμό, όπως αυτά που χρησιμοποιούν την τεχνική Chain-of-Thought, απέκτησαν πλεονέκτημα και ξεπέρασαν σε απόδοση τα μη-συλλογιστικά αντίστοιχά τους.
Όπως αναφέρεται στην έρευνα, όταν η πολυπλοκότητα αυξήθηκε περαιτέρω, και οι δύο τύποι μοντέλων απέτυχαν εντελώς: η ακρίβειά τους έπεσε στο μηδέν ανεξάρτητα από τους διαθέσιμους υπολογιστικούς πόρους. Αξίζει να σημειωθεί ότι τα Claude 3.7 Sonnet Thinking και DeepSeek-R1 LRMs έχουν περιορισμούς όσον αφορά την εκπαίδευσή τους.
Μια βαθύτερη ανάλυση των διαδικασιών συλλογισμού αποκάλυψε ανεπάρκειες και απροσδόκητες συμπεριφορές. Αρχικά, τα μοντέλα συλλογισμού χρησιμοποιούσαν μεγαλύτερες ακολουθίες σκέψης καθώς τα προβλήματα γίνονταν δυσκολότερα, αλλά κοντά στο σημείο αποτυχίας, μείωναν απροσδόκητα την προσπάθεια συλλογισμού τους ακόμη και όταν διέθεταν επαρκή υπολογιστική ικανότητα.
Επιπλέον, ακόμη και όταν τους παρέχονταν ρητά οι σωστοί αλγόριθμοι, τα μοντέλα αποτύγχαναν να εκτελέσουν αξιόπιστα τις οδηγίες βήμα προς βήμα σε περίπλοκες εργασίες, αποκαλύπτοντας αδυναμίες στον λογικό υπολογισμό.
Η μελέτη διαπίστωσε επίσης ότι η απόδοση των μοντέλων διέφερε σημαντικά μεταξύ οικείων και λιγότερο συνηθισμένων γρίφων, υποδηλώνοντας ότι η επιτυχία συχνά εξαρτιόταν από την εξοικείωση με τα δεδομένα εκπαίδευσης παρά από πραγματικές γενικεύσιμες δεξιότητες συλλογισμού.
Διαβάστε ολόκληρο το άρθρο
- Δημοφιλέστερες Ειδήσεις Κατηγορίας Τεχνολογία
- Κλείνει οριστικά το Allou Fun Park μετά από 23 χρόνια λειτουργίας!
- Επιβεβαιώθηκε το προφανές: Όλα τα PC games του PlayStation θα τρέχουν σε ROG Xbox Ally και ROG Xbox Ally X
- Όπως επισημαίνεται και από την Samsung, το επερχόμενο Galaxy Z Fold7 θα είναι το λεπτότερο και ελαφρύτερο foldable μέχρι σήμερα
- [ΦΗΜΗ]: Υποτίθεται πως εμφανίστηκε ένα πρωτότυπο του Samsung Galaxy Watch8 Classic στο eBay
- Δημοφιλέστερες Ειδήσεις Insomnia
- Τελευταία Νέα Insomnia
- Η Apple αποκαλύπτει το watchOS 26 με νέο σχεδιασμό και λειτουργίες τεχνητής νοημοσύνης
- Ο επικεφαλής του προγράμματος ρομπότ Optimus της Tesla αποχωρεί από την εταιρεία
- Τα AirPods της Apple αποκτούν νέες λειτουργίες ηχογράφησης και τηλεχειρισμού κάμερας
- Με νέο μοντέρνο σχεδιασμό και καλύτερο Continuity το macOS Tahoe 26
- Το iPadOS 26 αλλάζει εντελώς το iPad φέρνοντας πολύ καλύτερο multitasking
- Liquid Glass: Ο νέος σχεδιασμός που μεταμορφώνει όλες τις πλατφόρμες της Apple
- Η Apple αποκαλύπτει το iOS 26 με σχεδιασμό "Liquid Glass" και νέες λειτουργίες AI
- Η Huawei ενισχύει τις προσπάθειες στο ΑΙ λογισμικό προσλαμβάνοντας πρώην μηχανικούς της NVIDIA
- Τελευταία Νέα Κατηγορίας Τεχνολογία
- Κλείνει οριστικά το Allou Fun Park μετά από 23 χρόνια λειτουργίας!
- Όπως επισημαίνεται και από την Samsung, το επερχόμενο Galaxy Z Fold7 θα είναι το λεπτότερο και ελαφρύτερο foldable μέχρι σήμερα
- Επιβεβαιώθηκε το προφανές: Όλα τα PC games του PlayStation θα τρέχουν σε ROG Xbox Ally και ROG Xbox Ally X
- [ΦΗΜΗ]: Υποτίθεται πως εμφανίστηκε ένα πρωτότυπο του Samsung Galaxy Watch8 Classic στο eBay
- Nothing Phone (3): Εικόνα που διέρρευσε δείχνει ένα πολύ μικρό camera island
- H TCL παρουσιάζει το NXTPAPER 11 Plus: Ένα πρωτοποριακό tablet για άνεση στα μάτια, παραγωγικότητα & δημιουργικότητα
- Blackview MEGA 3: Κυκλοφορεί το απόλυτο ΑΙ tablet που προσφέρει μια εντελώς νέα εμπειρία για εργασία, σπουδές και ψυχαγωγία!
- Προσοχή στις απομιμήσεις: Απάτη με δόλωμα τις κούκλες Labubu σε ψεύτικες ιστοσελίδες
- To TCL 50 NXTPAPER 5G διαθέσιμο σε νέα χαμηλή τιμή από τη Vodafone