Les réseaux de neurones

d'après le livre de Hervé Abdi

Valeurs singulières d'une matrice rectangulaire quelconque

Soit A une matrice rectangulaire. On peut exprimer cette matrice comme :

A = P D Q^T

avec :

P : les vecteurs propres de la matrice A A^T (P^T P = I)
Q : les vecteurs propres de la matrice A^T A (Q^T Q = I)
D : la matrice des valeurs singulières, D = L^1/2 avec L étant la matrice diagonale des valeurs propres de la matrice A A^T et de la matrice A^T A.

On a :

A A^T = P L P^T
A^T A = Q L Q^T

Exemple :

    (  1.1547 -1.1547 )A = ( -1.0774  0.0774 )      ( -0.0774  1.0774 )    ( 0.8165  0      )P = (-0.4082 -0.7071 )    (-0.4082  0.7071 )Q = ( 0.7071 -0.7071 )    ( 0.7071  0.7071 )D = ( 2 0 )    ( 0 1 )

Pseudo-inverse

A⁺ = Q D^-1 P^T

= (  0.2887 -0.6443  0.3557 )  ( -0.2887 -0.3557  0.6443 )

Mémoires hétéro-associatives linéaires

Sortie o_j = c ( S_i^I x_i z_i,j) (III.1)

Règle de Widrow-Hoff :
w_i,j^(t+1) = w_i,j^t + n (t_j - o_j) x_i
avec t = réponse théorique désirée, n = constante positive.

Valeurs et vecteurs propres

La règle de Widrow-Hoff n'agit que sur les valeurs propres de la matrice de connexions W.
X = P D Q^T

En réécrivant (III.1) en notation matricielle, le problème est de trouver W telle que O = W^T X avec la contrainte :
min = trace ((T-O)^T (T-O))

On peut exprimer la méthode de Widrow-Hoff par :
W^(t+1)T = W^(t)T + n (T - W^(t)T X) X^T

Lorsque n est convenablement choisi, l'apprentissage converge vers W^(oo) = W~ = T X⁺

On a : W^(t) = T Q (D^-1 (I - (I - n L)^t)) P^T

W^(t+1)T = W^(t)T + n (T - W^(t)T X) X^T= ...
= T Q ( F^(t) + n L (D^-1 - F^(t))) P^T
On montreF^(t) = D^-1 ( n L S_i=0^t-1 (I - n L)ⁱ)

Les mémoires auto-associatives linéaires

Vecteurs et valeurs propres

X = P D Q^T

W = X X^T = P n L P^T

Apprentissage de Widrow-Hoff :
W^{(t)L)^t) P^T
La procédure converge si lim_t->oo (I - n L)^t = 0}

Composantes principales

Le rappel d'un stimulus après apprentissage avec la loi de Widrow-Hoff par la mémoireest équivalent à l'ACP.On cherche une matrice P (IxL) telle que F = P^T X avec F F^Tdiagonale avec 1er élément maximal et P^T P = I.P doit être la matrice des vecteurs propres de X X^T = W, et doncF = D Q^T et F F^T = L.

Le rappel de la mémoire s'écrit : O = W^(t) X = P F^(t) P^T X
On a P^T X = F, donc O = P F^(t) F.

L'ACP revient à définir la décomposition en valeurs et vecteurs propres de W.On veut trouver P tel que F = P^T X avec F F^T diagonale et P^T P = I.

On définit le lagrangienL = F F^T - L (P^T P - I)
que l'on dérive : dL/dP = 2 X X^T P - 2 L P = 0
donc X X^T P = L P avec L étant diagonale.
P est la matrice des vecteurs propres de X X^T = W et L est la matrice des valeurs propres.

Extraction de vecteurs propres

Construire un réseau qui trouve les vecteurs propres de W : variante de la puissance itérée et de la déflation. La puissance itérée revient à implémenterla loi de Hebb de manière répétitive :

W^(t+1) = W^t + D W = W^(t) + n X O^(t)T avec O^(t) = W^(t) X

On commence par initialiser la matrice W⁽⁰⁾ = n X X^T = P (n L) P^T
puis W^(t+1) = W^(t) + n X O^T= P (n L (I + n L)^t) P^T

Normaliser la réponse pour éviter l'explosion : règle de Oja :W^(t+1) = 1/b W^^(t).

Déflation : W^- = W - p₁ p₁^T

Les mémoires auto-associatives non linéaires : les réseaux de Hopfield

a_j = S_i^I x_i w_i,javec :

a_j = activation de la j^ème cellule du réseau.
x_i : valeur de sortie +1 ou -1 de la i^ème cellule du réseau.
w_i,j : intensité de la connexion entre la i^èmecellule et la j^ème cellule. La connexion entre une cellule et elle-mêmeest toujours supposée égale à 0 : w_i,i = 0.

o_j = x_j = sgn(a_j - theta)

Energie E = -1/2 S_i,j w_i,j x_i y_j - S_j theta_j x_j= -1/2 x^T W x - x^T theta

Rétro-propagation de l'erreur et réseaux à couches cachées

Minimiser la fonction d'erreur.

La fonction d'erreur pour la k-ième réponse est :

E_k = 1/2 (t_k - o_k)^T(t_k - o_k)

(@ = dérivée partielle)

Correction pour la couche de sortie :

@E_k/@Z = @E_k/@o_k @o_k/@Zh_k @Zh_k/@Z

avec o = sorties, h = intermédiaires, Z = connexions

@E_k/@o_k = - (t_k - o_k)^T
@o_k/@Zh_k = o_k^T (*) (1-o_k)^T
@Zh_k/@Z = h_k

-@E_k/@Z = (t_k - o_k)^T (*) o_k^T (*) (1 - o_k)^T h_k

Correction pour la couche cachée :

@E_k/@W = @E_k/@o_k@o_k/@Zh_k@Zh_k/@h_k@h_k/@Wx_k@Wx_k/@W_k

@Zh_k/@h_k = Z^T
@h_k/@Wx_k = h_k^T (*) (1 - h_k)^T
@Wx_k/@W_k = x_k

Apprentissage symbolique - Apprentissage à partir d'algorithmes génétiquespar Kenneth de Jong

Rétropropagation

@E/@y_j = S_k@E/@y_k dy_k/dx_k dx_k/dy_j= S_k @E/@y_k dy_k/dx_k w_kj