Η Yandex παρουσιάζει τη μέθοδο HIGGS για ταχεία συμπίεση γλωσσικών μοντέλων τεχνητής νοημοσύνης
Η ερευνητική ομάδα της Yandex, σε συνεργασία με ερευνητές από το MIT, το ISTA και το KAUST, ανέπτυξε μια μέθοδο ταχείας συμπίεσης μεγάλων γλωσσικών μοντέλων χωρίς σημαντική απώλεια
Η ερευνητική ομάδα της Yandex, σε συνεργασία με ερευνητές από το Τεχνολογικό Ινστιτούτο της Μασαχουσέτης (MIT), το Αυστριακό Ινστιτούτο Επιστήμης και Τεχνολογίας (ISTA) και το Πανεπιστήμιο Επιστήμης και Τεχνολογίας King Abdullah (KAUST), ανέπτυξε μια μέθοδο ταχείας συμπίεσης μεγάλων γλωσσικών μοντέλων (LLMs) χωρίς σημαντική απώλεια ποιότητας.
Η νέα μέθοδος, με την ονομασία HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), επιτρέπει τη συμπίεση (ποσοτικοποίηση) των LLMs σε λίγα μόλις λεπτά απευθείας σε smartphones ή φορητούς υπολογιστές, χωρίς την ανάγκη για βιομηχανικού επιπέδου υπολογιστική ισχύ ή ισχυρές GPU.
Προηγουμένως, η ανάπτυξη μεγάλων γλωσσικών μοντέλων σε φορητές συσκευές απαιτούσε διαδικασία ποσοτικοποίησης που διαρκούσε από ώρες έως εβδομάδες και έπρεπε να εκτελεστεί σε βιομηχανικούς servers για να διατηρηθεί η καλή ποιότητα.
Η HIGGS μειώνει τα εμπόδια για τη δοκιμή και την ανάπτυξη νέων μοντέλων σε συσκευές καταναλωτικού επιπέδου, όπως οικιακούς υπολογιστές και smartphones, καταργώντας την ανάγκη για βιομηχανική υπολογιστική ισχύ.
Σύμφωνα με την ανακοίνωση, η καινοτόμος μέθοδος συμπίεσης προωθεί τη δέσμευση της εταιρείας να καταστήσει τα μεγάλα γλωσσικά μοντέλα προσιτά σε όλους, από μεγάλους παίκτες, μικρομεσαίες επιχειρήσεις και μη κερδοσκοπικούς οργανισμούς έως μεμονωμένους συνεισφέροντες, προγραμματιστές και ερευνητές.
Πέρυσι, οι ερευνητές της Yandex συνεργάστηκαν με σημαντικά πανεπιστήμια επιστήμης και τεχνολογίας για να παρουσιάσουν δύο νέες μεθόδους συμπίεσης LLM: την Additive Quantization of Large Language Models (AQLM) και την PV-Tuning. Συνδυαστικά, αυτές οι μέθοδοι μπορούν να μειώσουν το μέγεθος του μοντέλου έως και 8 φορές διατηρώντας το 95% της ποιότητας απόκρισης.
Η μέθοδος HIGGS επιτρέπει στους προγραμματιστές να μειώσουν το μέγεθος του μοντέλου χωρίς να θυσιάσουν την ποιότητα και να τα εκτελέσουν σε πιο οικονομικές συσκευές. Για παράδειγμα, αυτή η μέθοδος μπορεί να χρησιμοποιηθεί για τη συμπίεση LLMs όπως το DeepSeek R1 με 671B παραμέτρους και το Llama 4 Maverick με 400B παραμέτρους, τα οποία προηγουμένως μπορούσαν να ποσοτικοποιηθούν μόνο με σημαντική απώλεια ποιότητας.
Η Yandex χρησιμοποιεί ήδη το HIGGS για την ανάπτυξη πρωτοτύπων και την επιτάχυνση της ανάπτυξης προϊόντων καθώς τα συμπιεσμένα μοντέλα επιτρέπουν ταχύτερες δοκιμές από τα πλήρους κλίμακας αντίστοιχά τους. Όπως αναφέρεται, η HIGGS συμπιέζει μεγάλα γλωσσικά μοντέλα χωρίς να απαιτεί πρόσθετα δεδομένα ή μεθόδους κλίσης, καθιστώντας την ποσοτικοποίηση πιο προσιτή και αποτελεσματική για ένα ευρύ φάσμα εφαρμογών και συσκευών.
Η μέθοδος δοκιμάστηκε στα μοντέλα της οικογένειας LLaMA 3.1 και 3.2, καθώς και στα μοντέλα της οικογένειας Qwen. Τα πειράματα δείχνουν ότι η HIGGS ξεπερνά άλλες μεθόδους ποσοτικοποίησης χωρίς δεδομένα, συμπεριλαμβανομένων των NF4 και HQQ, όσον αφορά τον λόγο ποιότητας-μεγέθους.
Οι προγραμματιστές και οι ερευνητές μπορούν ήδη να έχουν πρόσβαση στη μέθοδο στο Hugging Face ή να εξερευνήσουν την ερευνητική εργασία, η οποία είναι διαθέσιμη στο arXiv. Στο τέλος αυτού του μήνα, η ομάδα θα παρουσιάσει την εργασία τους στο NAACL, ένα από τα κορυφαία συνέδρια AI στον κόσμο.
Πέρα από την ποσοτικοποίηση LLM, η Yandex έχει διαθέσει με ανοιχτό κώδικα διάφορα εργαλεία που βελτιστοποιούν τους πόρους που χρησιμοποιούνται στην εκπαίδευση LLM. Για παράδειγμα, η βιβλιοθήκη YaFSDP επιταχύνει την εκπαίδευση LLM έως και 25% και μειώνει τους πόρους GPU για εκπαίδευση έως και 20%. Νωρίτερα φέτος, οι προγραμματιστές της Yandex διέθεσαν ως λογισμικού ανοιχτού κώδικα το Perforator, ένα εργαλείο για συνεχή παρακολούθηση και ανάλυση serivers και εφαρμογών σε πραγματικό χρόνο, το οποίο βοηθά τις εταιρείες να μειώσουν το κόστος υποδομής έως και 20%.
Διαβάστε ολόκληρο το άρθρο
- Δημοφιλέστερες Ειδήσεις Κατηγορίας Τεχνολογία
- Επίσημο: Ενεργειακή ετικέτα σε smartphones και tablets στην ΕΕ από τις 20 Ιουνίου!
- Η τεχνολογία δεν βλάπτει τον εγκέφαλο: Νέα έρευνα ανατρέπει τη θεωρία της «ψηφιακής άνοιας»
- Από που προήλθε το νερό στη Γη; Νέα έρευνα ανατρέπει τις προηγούμενες θεωρίες
- Η Αγγλία βάζει στο στόχαστρο τη χρήση smartphone από ανήλικους – Τι ισχύει στην Ελλάδα
- Δημοφιλέστερες Ειδήσεις Insomnia
- Τελευταία Νέα Insomnia
- Κίνα: 21 ανθρωποειδή ρομπότ έτρεξαν σε ημιμαραθώνιο μαζί με ανθρώπους
- Η Intel φαίνεται να ετοιμάζει υποδοχή LGA1954 για τους επεξεργαστές Nova Lake
- Η Tesla κατηγορείται για παραποίηση χιλιομετρητών για να μειώσει τις υποχρεώσεις εγγύησης
- Ο Snapdragon X Elite Gen 2 αναμένεται να προσφέρει έως και 22% υψηλότερη απόδοση
- Οι ενσωματωμένες διαφημίσεις στις τηλεοράσεις της LG γίνονται πιο προσωπικές με τεχνολογία που αναλύει τα συναισθήματα των θεατών
- Ο πλανήτης K2-18b μπορεί να φιλοξενεί ζωή, σύμφωνα με δεδομένα από το διαστημικό τηλεσκόπιο James Webb
- Νέες απαιτήσεις επαλήθευσης ηλικίας από το Discord μέσω σάρωσης προσώπου και ταυτότητας
- Τελευταία Νέα Κατηγορίας Τεχνολογία
- Η τεχνολογία δεν βλάπτει τον εγκέφαλο: Νέα έρευνα ανατρέπει τη θεωρία της «ψηφιακής άνοιας»
- Επίσημο: Ενεργειακή ετικέτα σε smartphones και tablets στην ΕΕ από τις 20 Ιουνίου!
- Η Αγγλία βάζει στο στόχαστρο τη χρήση smartphone από ανήλικους – Τι ισχύει στην Ελλάδα
- Από που προήλθε το νερό στη Γη; Νέα έρευνα ανατρέπει τις προηγούμενες θεωρίες
- To bundle του Nintendo Switch 2 με το Mario Kart World ίσως δεν είναι διαθέσιμο τα Χριστούγεννα
- 3D printed τούβλα με σεληνιακή σκόνη θέλει να φτιάξει η Κίνα για την πρώτη βάση της στο φεγγάρι
- EncryptOnClick - Απλή και δυνατή λύση για να κλειδώσεις τα αρχεία σου
- Αποκαλύφθηκε η μεγαλύτερη γνωστή δομή στο Σύμπαν και ανατρέπει βασική αρχή της Κοσμολογίας!
- Ένας νέος τρόπος μέτρησης του χρόνου με απίστευτη ακρίβεια χωρίς ρολόι και χωρίς αρχή!