Par exemple, Llama 2 a une version à 70 milliards de paramètres (140Gb).
N’est-il pas possible de le faire tourner sur une tâche spécifique (au hasard, résumés d’articles, résumés de livres, codage dans un certain langage, analyse d’une documentation…), de regarder quels neurones sont activés, et de virer tous ceux qui ne servent jamais ?