Η Samsung προσπαθεί να αποδείξει ότι ένα ικανό μοντέλο τεχνητής νοημοσύνης δεν χρειάζεται να είναι μεγάλο και να κοστίζει εκατομμύρια δολάρια για την εκπαίδευσή του. Ένα μικρό μοντέλο μπορεί επίσης να είναι σε θέση να ανταγωνιστεί, ακόμη και να ξεπεράσει, μοντέλα τεχνητής νοημοσύνης που είναι χιλιάδες φορές μεγαλύτερα.
Η Alexia Jolicoeur-Martineau, ανώτερη ερευνήτρια τεχνητής νοημοσύνης στο Samsung Advanced Institute of Technology (SAIT) στο Μόντρεαλ του Καναδά, δημοσίευσε πρόσφατα μια νέα εργασία με τίτλο «Λιγότερο είναι περισσότερο». (mυπάρχουν περισσότερα), με την οποία ανακοίνωσε Κασσίτεροςy Μοντέλο Αναδρομής (TRM). Άρθρο με πλήρη τίτλο Το λιγότερο είναι περισσότερο: Αναδρομική συλλογιστική με μικροσκοπικά δίκτυα αποκάλυψε ότι το TRM χρησιμοποιεί ένα μοντέλο τεχνητής νοημοσύνης με επτά εκατομμύρια παραμέτρους και δύο επίπεδα. Εκπαιδεύτηκε σε σχεδόν χίλια παραδείγματα και εξακολουθεί να ξεπερνά σε απόδοση τα κορυφαία ανταγωνιστικά μοντέλα, όπως το o3-mini από το OpenAI και Gemini 2.5 Pro.
Το TRM είχε εξαιρετικά καλή απόδοση στο ARC-AGI benchmark σε δομημένα, οπτικά προβλήματα που βασίζονται σε πλέγμα, όπως Sudoku, λαβύρινθους και παζλ. Αυτό το ερευνητικό benchmark AI θεωρείται γενικά πολύ δύσκολο για μοντέλα τεχνητής νοημοσύνης.
Συγκεκριμένα, η TRM πέτυχε τα ακόλουθα αποτελέσματα στο benchmark ARC-AGI:
- Πάνω από 87% ακρίβεια στο Sudoku-Extreme
- 85% ακρίβεια σε παζλ Maze-Hard
- Ακρίβεια 45% στο ARC-AGI-1
- Ακρίβεια 8% στο ARC-AGI-2
"Η ιδέα ότι κάποιος πρέπει να βασιστεί σε μεγάλα μοντέλα που έχουν εκπαιδευτεί για εκατομμύρια δολάρια από κάποια μεγάλη εταιρεία για την επίλυση σύνθετων προβλημάτων είναι λανθασμένη. Ο Jolicoeur-Martineau δήλωσε στο κοινωνικό δίκτυο X. «Προς το παρόν, δίνεται υπερβολική προσοχή στη χρήση του LLM» (μεγάλη γλώσσα μοντέλα) από το να σχεδιάζουμε και να επεκτείνουμε νέες κατευθύνσεις, αυτή πρόσθεσε.
Μπορεί να σας ενδιαφέρει
Αυτό το μοντέλο Τεχνητής Νοημοσύνης στοχεύει να αποδείξει ότι η ανάπτυξη ικανής Τεχνητής Νοημοσύνης είναι εφικτή, ακόμη και αν δεν διαθέτει την τεράστια επένδυση σε GPU και την επεξεργαστική ισχύ που απαιτείται για την εκπαίδευση των μεγαλύτερων, πολλών δισεκατομμυρίων δολαρίων παραμετρικών μοντέλων που την τροφοδοτούν. chatπαπούτσια με LLM.
Είναι ενδιαφέρον ότι αυτό το άρθρο γράφτηκε μόνο για το περιοδικό της Samsung και δεν θα το βρείτε πουθενά αλλού 😁 Ζήτω η αντικειμενικότητα!😅