To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider
Οι διαφορές είναι μικρές, όμως το Claude 3 επιβεβαιώνει την ανοδική τροχιά που διαγράφει εδώ και καιρό, έχοντας συγκεντρώσει το ενδιαφέρον σημαντικών επενδυτών.
Η Anthropic μόλις κυκλοφόρησε νέα μοντέλα του Claude 3, με τις πρώτες δοκιμές να δείχνουν ότι αποδίδει καλύτερα σε οδηγίες για τη σύνταξη κώδικα. Αυτό επιβεβαιώνεται από τις μετρήσεις που πραγματοποιήθηκαν μέσω του benchmark που έχει αναπτύξει η Aider.
Oι διαφορές είναι μικρές, όμως το Claude 3 Opus αποδίδει καλύτερα σε σχέση με όλα τα μοντέλα του GPT-4, καθιστώντας το τη δεδομένη στιγμή το καλύτερο διαθέσιμο μοντέλο για συνδυαστικό προγραμματισμό με την αρωγή της τεχνητής νοημοσύνης.
Μέχρι στιγμής, οι διάφορες εκδοχές του GPT-4 κατατάσσονταν πρώτες, επομένως η έστω και οριακή επικράτηση του Claude 3 είναι μια σημαντική στιγμή, στη σχετικά σύντομη ιστορία των γλωσσικών μοντέλων τεχνητής νοημοσύνης. Εντωμεταξύ, ένα από τα μικρότερα μοντέλα της Anthropic, το Haiku, κερδίζει τις εντυπώσεις με τις επιδόσεις που καταγράφει.
"Για πρώτη φορά, τα καλύτερα διαθέσιμα μοντέλα -το Opus για προηγμένες διαδικασίες, το Haiku για όσους προκρίνουν κόστος και αποδοτικότητα- προέρχονται από εταιρία που δεν είναι η OpenAI", ανέφερε ο ανεξάρτητος ερευνητής Σάιμον Γουίλισον, σε δηλώσεις του στο Ars Technica. "Αυτό είναι θετικό, καθώς όλοι ωφελούμαστε από το να υπάρχει ποικιλία προτάσεων σε αυτό το χώρο. Από την άλλη, το GPT-4 μετράει ήδη ένα χρόνο στην αγορά και χρειάστηκε αυτός ο ένας χρόνος για να πιάσει τις επιδόσεις του κάποιο άλλο μοντέλο".
Τα παραπάνω στοιχεία προέρχονται από τη Chatbot Arena, την οποία διοργανώνει ο Large Model Systems Organization (LMSYS ORG), ένας ερευνητικός οργανισμός που αναλύει τα ανοιχτά μοντέλα και δημιουργήθηκε μέσα από τη συνεργασία φοιτητών και σχολών των Πανεπιστημίων της Καλιφόρνια με έδρα το Μπέρκλεϊ, του Σαν Ντιέγκο και του Κάρνεγκι Μέλον.
Η Chatobot Arena είναι ένα σημαντικό εργαλείο, καθώς τόσο οι ερευνητές όσο και οι χρήστες συχνά δυσκολεύονται στην προσπάθεια μέτρησης των επιδόσεων των διαφόρων AI chatbot, με τη βαθμολόγηση των συχνά πολύ διαφορετικών επιδόσεών τους να αποδεικνύεται δύσκολη. Σημαντική παράμετρος στην όλη διαδικασία είναι και η αίσθηση που αφήνει στο χρήστη το κάθε μοντέλο, πράγμα που επίσης δύσκολα βαθμολογείται.
Η βελτίωση του Claude, εντωμεταξύ, μπορεί να θορυβήσει κάπως την OpenAI όμως, όπως σχολίασε και ο Γουίλισον, η οικογένεια των μοντέλων GPT-4 (αν και έχουν βελτιωθεί αρκετές φορές στην πορεία) μετρά πάνω από ένα χρόνο στην αγορά. Αυτή τη στιγμή, η Arena περιλαμβάνει τέσσερις διαφορετικές εκδοχές του GPT-4, που αντιστοιχούν σε σημαντικές βελτιώσεις του συγκεκριμένου μεγάλου γλωσσικού μοντέλου (LLM), με τις επιμέρους εκδόσεις να παγώνουν στο χρόνο, καθώς κάθε μία έχει ένα μοναδικό τρόπο παρουσίασης αποτελεσμάτων, και ορισμένοι developers που τις χρησιμοποιούν σε συνδυασμό με το ΑΡΙ της OpenAI προκρίνουν τη σταθερότητα, έτσι ώστε να μην πάψουν να λειτουργούν οι εφαρμογές που δημιουργούν στη βάση των αποτελεσμάτων που εμφανίζει η εκάστοτε έκδοση του GPT-4.
Σε κάθε περίπτωση, και παρά την παρουσία τεσσάρων εκδόσεων του GPT-4 στη σχετική λίστα, τα μοντέλα του Claude 3 κατέγραφαν συστηματικά ανοδική πορεία στις κατατάξεις, από τη στιγμή που κυκλοφόρησαν, νωρίτερα μέσα στο Μάρτιο, ενώ ιδιαίτερα σημαντική αποδεικνύεται η ευκολία με την οποία μπορεί κανείς να περάσει από τη χρήση του GPT-4 στο Claude 3, επομένως είναι αντίστοιχα ευκολότερο να απειληθεί το μερίδιο αγοράς που κατέχει το GPT-4.
Ανάλογη ανοδική τροχιά καταγράφει το επίσης αξιόλογο Gemini της Google, στο χώρο των βοηθών τεχνητής νοημοσύνης. Η OpenAI, επομένως, αισθάνεται την πίεση του ανταγωνισμού, όμως παράλληλα αναπτύσσει νέα μοντέλα. Αναμένεται να διαθέσει στην αγορά ένα σημαντικό διάδοχο του GPT-4 Turbo (είτε αυτός θα ονομάζεται GPT-4.5 είτε GPT-5) κάποια στιγμή μέσα στο 2024, ενδεχομένως ακόμη και στη διάρκεια του καλοκαιριού. Είναι προφανές ότι ο χώρος των LLM θα χαρακτηρίζεται από έντονο ανταγωνισμό στο προσεχές μέλλον, πράγμα που ενδεχομένως να οδηγήσει σε ενδιαφέρουσες ανακατατάξεις στα αποτελέσματα της Chatobot Arena στους επόμενους μήνες και ακόμη παραπέρα.
Διαβάστε ολόκληρο το άρθρο
- Δημοφιλέστερες Ειδήσεις Κατηγορίας Τεχνολογία
- Διπλή βράβευση για την Info Quest Technologies στα Green Brand Awards 2024
- H SEGA προχωράει σε απολύσεις 240 υπαλλήλων, η Relic Entertainment γίνεται ανεξάρτητη
- Σπάνιο αντίτυπο από horror game του 1980 σε δισκέτα πωλείται έναντι 4000 δολαρίων!
- To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider
- Νέες Ψηφιακές Υπηρεσίες από την Quant
- Δημοφιλέστερες Ειδήσεις Insomnia
- Τελευταία Νέα Insomnia
- To Claude 3 ξεπερνά σε επιδόσεις το GPT-4 σύμφωνα με νέα μέτρηση του Aider
- Αποκτήστε ασφαλή και γνήσια κλειδιά των Microsoft Windows 11 Pro με 13.25€!
- Αποχωρεί ο διευθύνων σύμβουλος της Boeing, καθώς η εταιρία διέρχεται παρατεταμένη κρίση
- Δικά τους διαστημόπλοια μπορούν να δημιουργούν πλέον οι παίκτες στο No Man's Sky
- Την απλούστευση διάφορων τεχνολογιών upscaling επιχειρεί η Microsoft με το DirectSR
- Οι πρώτες μίνι ταινίες που δημιουργήθηκαν με το Sora της OpenAI, εντυπωσιάζουν
- Νέο επικεφαλής των Windows και Surface αποκτά η Microsoft
- Στις 10 Ιουνίου ξεκινά το WWDC 2024 της Apple με iOS 18, macOS 15 και όχι μόνο
- Η Canva εξαγοράζει την Affinity για να καλύψει την απόσταση με τις προτάσεις σχεδιασμού της Adobe
- Αμερικανικό δικαστήριο απορρίπτει την αγωγή του Μασκ σε βάρος οργάνωσης για την καταπολέμηση της μισαλλοδοξίας
- Τελευταία Νέα Κατηγορίας Τεχνολογία
- Διπλή βράβευση για την Info Quest Technologies στα Green Brand Awards 2024
- Νέες Ψηφιακές Υπηρεσίες από την Quant
- ESET: Το 2024 είναι χρονιά εκλογών για σχεδόν το ένα τέταρτο του παγκόσμιου πληθυσμού – Deepfakes, ένα όπλο μαζικής εξαπάτησης;
- Σπάνιο αντίτυπο από horror game του 1980 σε δισκέτα πωλείται έναντι 4000 δολαρίων!
- H SEGA προχωράει σε απολύσεις 240 υπαλλήλων, η Relic Entertainment γίνεται ανεξάρτητη
- Insider: To Spyro 4 είναι το game που ετοιμάζει η Toys For Bob για την Microsoft
- iPhone SE 4: Η ΒΟΕ μάλλον θα κατασκευάζει το OLED πάνελ των 6,1 ιντσών
- Η Take-Two Interactive εξαγοράζει την Gearbox Entertainment, έρχεται νέο Borderlands
- Διαρροή: Αυτό είναι το νέο και λευκό Xbox Series X All-Digital (εικόνες)
- ΕΡΤ και Sony Pictures Television ανακοινώνουν συμφωνία για την προβολή αγαπημένου κινηματογραφικού και τηλεοπτικού περιεχομένου