Conditionnement instrumental en psychologie

Le conditionnement instrumental est un autre terme pour le conditionnement opérant, un processus d'apprentissage décrit pour la première fois par B. F. Skinner. Dans le conditionnement instrumental, le renforcement ou la punition sont utilisés pour augmenter ou diminuer la probabilité qu'un comportement se reproduise à l'avenir.

Exemples de conditionnement opérant

Par exemple, si un élève est récompensé par des éloges chaque fois qu'il lève la main en classe, il est plus probable qu'il le veuille à nouveau à l'avenir.

Si elle est également réprimandée lorsqu'elle parle hors de son tour, elle est moins susceptible d'interrompre la classe. Dans ces exemples, l'enseignant utilise le renforcement pour renforcer le comportement de lever la main et la punition pour affaiblir le comportement de parler hors du tour.

Le conditionnement instrumental est également souvent utilisé dans le dressage des animaux. Par exemple, entraîner un chien à serrer la main impliquerait d'offrir une récompense à chaque fois que le comportement souhaité se produit.

Histoire du conditionnement opérant

Psychologue E.L. Thorndike a été l'un des premiers à observer l'impact du renforcement dans des expériences de boîtes à puzzle avec des chats. Au cours de ces expériences, Thorndike a observé un processus d'apprentissage qu'il a qualifié d'apprentissage par « essais et erreurs ».

Les expériences consistaient à placer un chat affamé dans une boîte à puzzle, et pour se libérer, le chat devait trouver un moyen de s'échapper. Thorndike a ensuite noté combien de temps il a fallu aux chats pour se libérer dans chaque essai expérimental. Au départ, les chats se sont livrés à des méthodes d'évasion inefficaces, grattant et creusant sur les côtés ou sur le dessus de la boîte. Finalement, les essais et erreurs amèneraient les chats à pousser ou à tirer avec succès la voie d'évacuation. Après chaque essai successif, les chats s'engageaient de moins en moins dans les comportements d'évasion inefficaces et répondaient plus rapidement avec les actions d'évasion correctes.

Thorndike a appelé ses observations la loi de l'effet. La force d'une réponse augmente lorsqu'elle est immédiatement suivie d'un « satisfaisant » (renforçant). En revanche, les actions qui sont suivies d'effets désagréables sont plus susceptibles d'être affaiblies.

Dans les expériences de boîte de puzzle de Thorndike, s'échapper de la boîte était le plus satisfaisant. Chaque fois que les chats réussissaient à s'échapper de la boîte, le comportement qui précédait immédiatement la fuite était renforcé et renforcé.

Les travaux de Thorndike ont eu un effet considérable sur les recherches ultérieures de B.F. Skinner sur le conditionnement opérant. Skinner a même créé sa propre version des boîtes de puzzle de Thorndike qu'il a appelées une chambre opérante, également connue sous le nom de boîte de Skinner.

Comment fonctionne le conditionnement opérant

Skinner a identifié deux principaux types de comportements. Le premier type est celui des comportements des répondants. Ce sont simplement des actions qui se produisent par réflexe sans aucun apprentissage. Si vous touchez quelque chose de chaud, vous retirerez immédiatement votre main en réponse. Le conditionnement classique se concentre sur ces comportements des répondants.

Dans les expériences classiques de Pavlov avec des chiens, saliver à la présentation de la nourriture était le comportement du répondant. Cependant, en formant une association entre le son d'un buzzer et la présentation de la nourriture, Pavlov a pu entraîner les chiens à réellement saliver simplement au son de ce buzzer.

Skinner s'est rendu compte que si le conditionnement classique pouvait expliquer comment les comportements des répondants pouvaient conduire à l'apprentissage, il ne pouvait pas rendre compte de tous les types d'apprentissage. Au lieu de cela, il a suggéré que ce sont les conséquences des actions volontaires qui conduisent à la plus grande quantité d'apprentissage.

Le deuxième type de comportements est ce que Skinner appelle les comportements opérants. Il les a définis comme tout comportement volontaire qui agit sur l'environnement pour créer une réponse. Ce sont les comportements volontaires qui sont sous notre contrôle conscient. Ce sont aussi des actions qui peuvent être apprises. Les conséquences de nos actions jouent un rôle important dans le processus d'apprentissage.

Renforcement et punition

Skinner a identifié deux aspects clés du processus de conditionnement opérant. Le renforcement sert à augmenter le comportement, tandis que la punition sert à diminuer le comportement. Il existe également deux types différents de renforcement et deux types différents de punition.

Le renforcement positif consiste à présenter un résultat favorable, comme donner une friandise à un enfant après qu'il ait nettoyé sa chambre.

Le renforcement négatif implique la suppression d'un stimulus désagréable, comme dire à un enfant que s'il mange toutes ses pommes de terre, il n'aura pas à manger son brocoli. Étant donné que l'enfant considère que manger du brocoli est désagréable et que manger des pommes de terre entraîne la suppression de cette tâche indésirable, manger les pommes de terre est alors négativement renforcé.

La punition positive signifie appliquer un événement désagréable après un comportement. La fessée, par exemple, est un exemple courant de punition positive. Ce type de punition est souvent appelé punition par application. Une conséquence négative est directement appliquée pour réduire le comportement indésirable.

La punition négative consiste à retirer quelque chose d'agréable après qu'un comportement se soit produit. Par exemple, si un enfant ne nettoie pas sa chambre, ses parents peuvent lui dire qu'elle ne peut pas aller au centre commercial avec ses amis. La suppression de l'activité désirable agit comme une punition négative sur le comportement précédent.