Notationen

Neuronale Netzwerke

Ein hochgestelltes (i) beschreibt den ith Trainingssatz. Ein hochgestelltes [l] beschreibt den lth layer.

Dimensionen

m

Anzahl Beispiele im Datensatz

nx

Input-Werte

ny

Ergebnisse

\(n ^{\text{[l]}}_{\text{h}}\)

Anzahl der Hidden Einheiten im l-ten Layer

\(a ^{\text{[l]}}\)

Aktivierungsfunktionen im Layer l

\(w ^{\text{[l]}}\)

Gewichtungen im Layer l

In einer for - Schleife ist auch folgende Schreibweise möglich \(n_x = n ^{\text{[0]}}_{\text{h}}\) und \(n_y = n ^{\text{[number of layers + 1]}}_{\text{h}}\)

L

Anzahl Layer im Netzwerk

log

im Machine Learning Kontext ist damit der natürliche Logarithmus ln gemeint.

Zurück zu Notationen

Objects

\(X \in \mathbb{R} ^{n_x \; \mathsf x \;m}\) : Inputmatrix X
\(x^{(i)} \in \mathbb{R} ^{n_x}\) : \(i^{th}\) Datensatz als Spaltenvektor
\(Y \in \mathbb{R} ^{n_y \; \mathsf x \;m}\) : Labelmatrix Y (Ergebnismatrix)
\(y^{(i)} \in \mathbb{R} ^{n_y}\) : \(i^{th}\) Labelsatz als Spaltenvektor |
\(W^{[l]}\in \mathbb{R} ^{Anzahl \; Einheiten \; im \; Folgelayer \; \mathsf x \; Anzahl \; Einheiten \; im \; Vorlayer}\) : Matrix der Gewichtungen, [l] ist der Layer
\(b^{[l]}\in \mathbb{R} ^{Anzahl \; Einheiten \; im \; Folgelayer}\) : Bias-Vektor im [l]-ten Layer
\(\hat y \in \mathbb{R} ^{n_y}\) : ist der berechnete Ergebnisvektor. Es kann auch \(a^{[L]}\) geschrieben werden, wobei L die Anzahl der Layers in einem Netzwerk darstellt.

Zurück zu Notationen

Beispiele für typische Forward Propagation Gleichungen

\(a = g^{[l]}(W_x x^{(i)} + b_1) = g^{[l]}(z_1) \; wobei \; g^{[l]} \; die \; l^{[th]} \; Aktivierungsfunktion \; beschreibt.\)
\(\hat y^{(i)} = softmax (W_h h + b_2)\)
Allgemeine Aktivierungsfunktion: \(a ^{[l]}_{j}=g ^{[l]}(\sum _k w ^{[l]}_{jk} a^{[l-1]}_k + b^{[l]}_j) = g^{[l]}(z ^{[l]}_j)\)
Kostenfunktion: \(J(x,W,b,y) \; oder \; J(\hat y,y)\)

Zurück zu Notationen

Beispiele für Kostenfunktionen

\(J_{CE}(\hat y,y) = - \sum ^{m}_{i=0} \; y ^{(i)} \; log \; \hat y^{(i)}\)
\(J_1(\hat y,y) = \sum ^{m}_{i=0} \; | y ^{(i)} \; - \; \hat y^{(i)}|\)

Zurück zu Notationen

Matrixdimensionen

Bei der Berechnung eines NN vektorisiert man die einzelnen Variablen im Modell. Beim Debuggen ist es hilfreich, wenn die Dimensionen der Matritzen je Layer bekannt sind.

Es gilt:

Vektor

Matrixdimension je Layer

Gewichtungsfaktor w

\(w ^{\text{[l]}} : (n^{\text{[l]}},n^{\text{[l-1]}})\)

Änderung von Gewichtungsfaktor w

\(dw ^{\text{[l]}} : (n^{\text{[l]}},n^{\text{[l-1]}})\)

Bias b

\(b^{\text{[l]}} : (b^{\text{[l]}},1)\)

Änderung von bias b

\(db^{\text{[l]}} : (b^{\text{[l]}},1)\)

Aktivierungsfkt. A und Funktion Z

\(Z^{\text{[l]}}, A^{\text{[l]}} : (n^{\text{[l]}},m)\)

Änderung Aktivierungsfkt. A und Funktion Z

\(dZ^{\text{[l]}}, dA^{\text{[l]}} : (n^{\text{[l]}},m)\)