La régularisation de l'apprentissage automatique expliquée avec des exemples

Getty Images

La régularisation dans l'apprentissage automatique est un ensemble de techniques utilisées pour garantir qu'un modèle d'apprentissage automatique peut se généraliser à de nouvelles données au sein du même ensemble de données. Ces techniques peuvent contribuer à réduire l’impact des données bruitées qui ne correspondent pas à la plage de modèles attendue. La régularisation peut également améliorer le modèle en facilitant la détection des cas limites pertinents au sein d'une tâche de classification.

Envisagez un algorithme spécialement formé pour identifier les spams. Dans ce scénario, l’algorithme est formé pour classer les e-mails qui semblent provenir d’une chaîne de pharmacies américaine bien connue et ne contiennent qu’une seule image comme susceptibles d’être du spam. Cette approche étroite risque cependant de décevoir les clients fidèles de la chaîne, qui attendaient avec impatience d'être informés des dernières ventes du magasin. Un algorithme plus efficace prendrait en compte d'autres facteurs, tels que le moment de la réception des e-mails, l'utilisation d'images et les types de liens intégrés dans les e-mails, pour qualifier avec précision les e-mails de spam.

Ce modèle plus complexe devrait cependant également tenir compte de l’impact que chacune de ces mesures ajoute à l’algorithme. Sans régularisation, le nouvel algorithme risque d’être trop complexe, sujet à des biais et incapable de détecter la variance. Nous développerons ces concepts ci-dessous.

En bref, la régularisation pousse le modèle à réduire sa complexité au fur et à mesure de sa formation, a expliqué Bret Greenstein, responsable des données, de l'IA et de l'analyse chez PwC.

"La régularisation agit comme un type de pénalité qui est ajoutée à la fonction de perte ou à la valeur utilisée pour aider à attribuer de l'importance aux caractéristiques du modèle", a déclaré Greenstein. "Cette pénalité empêche le modèle de trouver des paramètres susceptibles d'accorder une importance excessive à ses caractéristiques."

En tant que telle, la régularisation est un outil important qui peut être utilisé par les data scientists pour améliorer la formation du modèle afin d'obtenir une meilleure généralisation, ou pour améliorer les chances que le modèle fonctionne correctement lorsqu'il est exposé à des exemples inconnus.

Adnan Masood, architecte en chef de l'IA et de l'apprentissage automatique au sein du cabinet de conseil en transformation numérique UST, a déclaré que son entreprise utilise régulièrement la régularisation pour trouver un équilibre entre la complexité et les performances du modèle, évitant habilement le sous-apprentissage et le surapprentissage.

Le surajustement, comme décrit ci-dessus, se produit lorsqu'un modèle est trop complexe et apprend du bruit dans les données d'entraînement. Le sous-ajustement se produit lorsqu'un modèle est trop simple pour capturer les modèles de données sous-jacents.

"La régularisation fournit un moyen de trouver l'équilibre optimal entre ces deux extrêmes", a déclaré Masood.

Prenons un autre exemple d'utilisation de la régularisation dans le commerce de détail. Dans ce scénario, l’entreprise souhaite développer un modèle capable de prédire quand un certain produit pourrait être en rupture de stock. Pour ce faire, l'entreprise a développé un ensemble de données de formation comportant de nombreuses fonctionnalités, telles que les données de ventes passées, la saisonnalité, les événements promotionnels et des facteurs externes comme la météo ou les vacances.

Cependant, cela pourrait conduire à un surajustement lorsque le modèle est trop étroitement lié à des modèles spécifiques dans les données de formation et, par conséquent, pourrait être moins efficace pour prédire les ruptures de stock sur la base de données nouvelles et invisibles.

"Sans régularisation, notre modèle d'apprentissage automatique pourrait potentiellement trop bien apprendre les données d'entraînement et devenir trop sensible au bruit ou aux fluctuations des données historiques", a déclaré Masood.

Dans ce cas, un data scientist peut appliquer un modèle de régression linéaire pour minimiser la somme des carrés de la différence entre les cas de rupture de stock réels et prévus. Cela décourage le modèle d’accorder trop d’importance à une seule fonctionnalité.

De plus, ils peuvent attribuer un paramètre lambda pour déterminer la force de la régularisation. Des valeurs plus élevées de ce paramètre augmentent la régularisation et diminuent les coefficients du modèle (poids du modèle).

Lorsque ce modèle régularisé est entraîné, il équilibrera l'ajustement des données d'entraînement et le maintien de petits poids du modèle. Le résultat est un modèle potentiellement moins précis sur les données de formation et plus précis lors de la prévision des ruptures de stock sur de nouvelles données invisibles.