Les réseaux de neurones

d'après le livre de Hervé Abdi

Valeurs singulières d'une matrice rectangulaire quelconque

Soit A une matrice rectangulaire. On peut exprimer cette matrice comme :

A = P D QT

avec :

On a :

Exemple :

    (  1.1547 -1.1547 )A = ( -1.0774  0.0774 )      ( -0.0774  1.0774 )    ( 0.8165  0      )P = (-0.4082 -0.7071 )    (-0.4082  0.7071 )Q = ( 0.7071 -0.7071 )    ( 0.7071  0.7071 )D = ( 2 0 )    ( 0 1 )

Pseudo-inverse

A+ = Q D-1 PT

= (  0.2887 -0.6443  0.3557 )  ( -0.2887 -0.3557  0.6443 )  

Mémoires hétéro-associatives linéaires

Sortie oj = c ( SiI xi zi,j) (III.1)

Règle de Widrow-Hoff :
wi,j(t+1) = wi,jt + n (tj - oj) xi
avec t = réponse théorique désirée, n = constante positive.

Valeurs et vecteurs propres


La règle de Widrow-Hoff n'agit que sur les valeurs propres de la matrice de connexions W.
X = P D QT

En réécrivant (III.1) en notation matricielle, le problème est de trouver W telle que O = WT X avec la contrainte :
min = trace ((T-O)T (T-O))

On peut exprimer la méthode de Widrow-Hoff par :
W(t+1)T = W(t)T + n (T - W(t)T X) XT

Lorsque n est convenablement choisi, l'apprentissage converge vers W(oo) = W~ = T X+

On a : W(t) = T Q (D-1 (I - (I - n L)t)) PT

W(t+1)T = W(t)T + n (T - W(t)T X) XT= ...
= T Q ( F(t) + n L (D-1 - F(t))) PT
On montreF(t) = D-1 ( n L Si=0t-1 (I - n L)i)

Les mémoires auto-associatives linéaires

Vecteurs et valeurs propres

X = P D QT

W = X XT = P n L PT

Apprentissage de Widrow-Hoff :
W(t)L)t) PT
La procédure converge si limt->oo (I - n L)t = 0

Composantes principales

Le rappel d'un stimulus après apprentissage avec la loi de Widrow-Hoff par la mémoireest équivalent à l'ACP.On cherche une matrice P (IxL) telle que F = PT X avec F FTdiagonale avec 1er élément maximal et PT P = I.P doit être la matrice des vecteurs propres de X XT = W, et doncF = D QT et F FT = L.

Le rappel de la mémoire s'écrit : O = W(t) X = P F(t) PT X
On a PT X = F, donc O = P F(t) F.

L'ACP revient à définir la décomposition en valeurs et vecteurs propres de W.On veut trouver P tel que F = PT X avec F FT diagonale et PT P = I.

On définit le lagrangienL = F FT - L (PT P - I)
que l'on dérive : dL/dP = 2 X XT P - 2 L P = 0
donc X XT P = L P avec L étant diagonale.
P est la matrice des vecteurs propres de X XT = W et L est la matrice des valeurs propres.

Extraction de vecteurs propres

Construire un réseau qui trouve les vecteurs propres de W : variante de la puissance itérée et de la déflation. La puissance itérée revient à implémenterla loi de Hebb de manière répétitive :

W(t+1) = Wt + D W = W(t) + n X O(t)T avec O(t) = W(t) X

On commence par initialiser la matrice W(0) = n X XT = P (n L) PT
puis W(t+1) = W(t) + n X OT= P (n L (I + n L)t) PT

Normaliser la réponse pour éviter l'explosion : règle de Oja :W(t+1) = 1/b W^(t).

Déflation : W- = W - p1 p1T

Les mémoires auto-associatives non linéaires : les réseaux de Hopfield

aj = SiI xi wi,javec :

oj = xj = sgn(aj - theta)

Energie E = -1/2 Si,j wi,j xi yj - Sj thetaj xj= -1/2 xT W x - xT theta

Rétro-propagation de l'erreur et réseaux à couches cachées

Minimiser la fonction d'erreur.

La fonction d'erreur pour la k-ième réponse est :

Ek = 1/2 (tk - ok)T(tk - ok)

(@ = dérivée partielle)

Correction pour la couche de sortie :

@Ek/@Z = @Ek/@ok @ok/@Zhk @Zhk/@Z

avec o = sorties, h = intermédiaires, Z = connexions

@Ek/@ok = - (tk - ok)T
@ok/@Zhk = okT (*) (1-ok)T
@Zhk/@Z = hk

-@Ek/@Z = (tk - ok)T (*) okT (*) (1 - ok)T hk

Correction pour la couche cachée :

@Ek/@W = @Ek/@ok@ok/@Zhk@Zhk/@hk@hk/@Wxk@Wxk/@Wk

@Zhk/@hk = ZT
@hk/@Wxk = hkT (*) (1 - hk)T
@Wxk/@Wk = xk

Apprentissage symbolique - Apprentissage à partir d'algorithmes génétiquespar Kenneth de Jong

Rétropropagation

@E/@yj = Sk@E/@yk dyk/dxk dxk/dyj= Sk @E/@yk dyk/dxk wkj