Inso a écrit : 30 janv. 2025, 07:55
jean7 a écrit : 30 janv. 2025, 01:44
Open source... ça veut dire copiable et évolution incontrôlable des copies ?
Est-ce plutôt une garantie ou un risque ?
Pour moi, l'
open source est une très bonne chose, ça permet un accès étendu au système et un contrôle
de son fonctionnement. Ça n’empêche pas des dérives, mais elles sont contrôlables, contrairement aux systèmes fermés et propriétaires.
La diffusion libre et ouverte
de DeepSeek est une bonne chose, mais elle ne permet malheureusement pas vraiment
de contrôler le modèle.
Contrairement aux logiciels libres dont le code est "auditable", pour un modèle comme DeepSeek seuls les paramètres résultants
de l'apprentissage sont publiés, et on ne peut faire aucun sens
de ces paramètres en dehors
de lors utilisation comme composant du modèle.
La censure du modèle n'est par exemple pas facile à déverrouiller, il faut affiner l'entrainement du modèle pour modifier son comportement dans ces situations, mais c'est quelque chose d'assez technique et qui demande un peu
de budget pour acheter la puissance
de calcul nécessaire.
L'avantage principal
de DeepSeek est que c'est un très petit modèle, et que ça coûte donc beaucoup moins cher
de l'entrainer et
de le "fine tuner" que pour les gros modèles. Il me semble avoir entendu un ordre
de grandeur
de l'ordre
de 5 millions
de dollars pour entrainer DeepSeek R1, à titre
de comparaison les dernières versions
de ChatGPT (o1) ont probablement coûtés plusieurs centaines
de millions
de dollars rien que pour son entrainement.
Les modèles
de Meta (Llama) sont aussi en open source, mais ce sont des modèles énormes et il est donc impossible pour la communauté
de chercheurs
de les ré-entrainer, la puissance
de calcul nécessaire est hors
de prix. On peut les fine tuner, mais même le fine tuning coûte cher sur les gros modèles.