吴恩达 [deeplearning.ai 神经网络和深度学习] 第二周编程作业总结

本文参考：https://blog.csdn.net/u013733326/article/details/79639509进入研究生阶段后，首先意识到的是需要尽快对神经网络进行熟悉与学习，于是参加了网易云课堂吴恩达老师发布的一系列课程，并跟随课程完成课后作业，并进行简单理解与记录。需要注意的是，本文是在参考文基础上，进行简单总结与理解，若需要参考算法具体的分析，可查看本文所参考的文章。第...

yvetteQXX

382人浏览 · 2019-09-18 10:30:20

yvetteQXX · 2019-09-18 10:30:20 发布

本文参考：https://blog.csdn.net/u013733326/article/details/79639509

进入研究生阶段后，首先意识到的是需要尽快对神经网络进行熟悉与学习，于是参加了网易云课堂吴恩达老师发布的一系列课程，并跟随课程完成课后作业，并进行简单理解与记录。需要注意的是，本文是在参考文基础上，进行简单总结与理解，若需要参考算法具体的分析，可查看本文所参考的文章。

第二周编程作业课题为完成一个能够识别猫的简单神经网络[logistic回归的应用]，作为神经网络的入门题，该课题甚至可以认为不涉及到隐藏层，而只是根据输入的特征，输出是否为猫的0/1预测结果。

（1）输入数据的处理

首先，输入的值，对于每一个测试样例，即为当前输入的图像数据，根据lr_util.py的返回值，可以确定的是，为图像的RGB信息，而图像的大小为 $64*64$ 。以train_set_x_orig为例，假设将获得的该训练集的数量为m，则其维度为 $\left ( m,64,64,3 \right )$ 。而根据吴恩达老师的课程，可以知道的是，为了尽可能保证的计算速度，通常需要进行两次向量化：某个测试样例或者训练样例输入元素层面的向量化，以及所有样例层面的向量化（参考2.11-2.14课程）：

1）首先完成第一个层面的向量化：将 $\left ( 64,64,3 \right )$ 数组重新构造成 $\left ( 64*64*3,1 \right )$ 的数组；

2）其次完成第二个层面的向量化：将 $\left ( m,64,64,3 \right )$ 根据第一个层面向量化的结果哦，压缩成 $\left ( 64*3*3,m \right )$ 数组；

以上步骤，完成的即是吴恩达老师课程中所提到的从 $x_{1}^{[1]}...x_{m}^{[n]}$ 到 $X$ 的向量化过程。

    train_set_x_orig, train_set_y, test_set_x_orig, test_set_y, classes=load_dataset()


    m_train = train_set_y.shape[1]
    m_test = test_set_y.shape[1]
    num_px = train_set_x_orig.shape[1]

    train_set_x_flatten = train_set_x_orig.reshape(train_set_x_orig.shape[0],-1).T
    test_set_x_flatten = test_set_x_orig.reshape(test_set_x_orig.shape[0],-1).T
    train_set_x = train_set_x_flatten / 255
    test_set_x = test_set_x_flatten / 255

（2）神经网络的构造

首先，构造Logistic回归函数，公式为最简单的 $y=sigmoid(z), z=\omega x+b$ ，对于该预测公式，首先对 $\omega ,b$ 进行初始化，确定一个初始值，继而可根据训练值，通过梯度下降法，逐渐调整参数 $\omega ,b$ ，获得最终相对合理的 $\omega ,b$ 的值。在此过程中，主要分为两个步骤：

1）公式构造及 $\omega ,b$ 的初始化

def initialize_with_zeros(dim):
    w = np.zeros(shape = (dim, 1))
    b = 0
    assert(w.shape == (dim, 1))
    assert(isinstance(b, float) or isinstance(b, int))
    return(w, b)

def sigmoind(z):
    s = 1/(1+np.exp(-z))
    return s

2）梯度下降法：该过程详情可见吴恩达老师2.4节课件，其中涉及的主要公式为

$dZ=A-Y$

$d\omega =\frac{1}{m}XdZ^{T}$

$db=\frac{1}{m}np.sum(dZ)$

$\omega :=\omega-\alpha d\omega$

$b:=b-\alpha db$

# 成本及梯度
def propagate(w,b,X,Y):
    m = X.shape[1]
    A = sigmoind(np.dot(w.T, X) + b)
    cost = (-1/m) * np.sum(Y * np.log(A) + (1-Y) * (np.log(1 - A)))

    dw = (1/m)*np.dot(X,(A-Y).T)
    db = (1/m)*np.sum(A-Y)

    assert(dw.shape == w.shape)
    assert(db.dtype == float)
    cost = np.squeeze(cost)
    assert(cost.shape == ())

    grads = {
        "dw":dw,
        "db":db
    }
    return(grads,cost)

# 运行梯度下降算法优化w和b
def optimize(w,b,X,Y,num_iterations,learning_rate,print_cost=False):
    costs = []
    for i in range(num_iterations):
        grads,cost = propagate(w,b,X,Y)
        dw = grads["dw"]
        db = grads["db"]

        w = w - learning_rate * dw
        b = b - learning_rate * db

        if i%100 == 0:
            costs.append(cost)
        if(print_cost) and (i % 100 == 0):
            print("迭代的次数: %i ， 误差值： %f" % (i, cost))

        params = {
            "w" : w,
            "b" : b
        }
        grads = {
            "dw" : dw,
            "db" : db
        }
    return(params,grads,costs)

3)计算误差：该过程主要涉及公式为

$cost =-\frac{1}{m}*np.sum(Y*np.log(A)+(1-Y)*(np.log(1-A)))$

（3）神经网络的使用

利用构造好的神经网络，对测试集进行测试，可获得每张图片的识别误差。

# 使用logistic函数预测标签
def predict(w,b,X):
    m = X.shape[1]
    Y_prediction = np.zeros((1,m))
    w = w.reshape(X.shape[0],1)

    A = sigmoind(np.dot(w.T, X) + b)
    for i in range(A.shape[1]):
        Y_prediction[0,i] = 1 if A[0,i] > 0.5 else 0
    assert(Y_prediction.shape == (1,m))

    return Y_prediction