斯坦福自然语言处理习题课

在现代深度学习技术复兴之前，sigmoid函数是神经元缺省的激活函数，因为sigmoid的函数在定义域内连续且处处可微，同时可以解释为事件出现的概率，所以成为神经元的缺省激活函数。但是近些年来，人们逐渐意识到，sigmoid函数在其定义域内在值过大或过小时，会出现饱合情况，曲线变得非常平坦，这时求导时值就几乎为零，这使得基于求导的梯度下降法收敛很慢，这种情况在深度网络中尤其严重，会出现梯度消失的问题，在这期间传统的机器学习方法，例如支撑向量机（SVM）却没有这个问题，所以近年来，除了二元分类问题的输出层，长短时记忆网络（LSTN）的门限操作，等比较特殊的情形外，人们已经不再使用sigmoid函数作为神经元的激活函数了，在现代深度学习网络中，缺省的隐藏层激活函数是ReLU函数。ReLU函数是一个分段线性函数，除零点外处处可导，不存在梯度消失问题，所有这些特点使得ReLU成为深度学习网络理想的神经元激活函数。

当然这个作业里还是让我们用sigmoid函数作为网络隐藏层神经元的激活函数，我们就先来看一下这个函数的实现，然后我们会给大家简单讲一下ReLU函数。

import numpy as np
import matplotlib.pyplot as plt
def main():
 x = np.linspace(-10, 10, 300)
 y = 1.0 / (1 + np.exp(-x))
 plt.plot(x, y)
 plt.show()
if '__main__' == __name__:
 main()

上面代码绘制出来的sigmoid函数图形如下所示：

Sigmoid函数图形

如图所示，当函数自变量x的值大于5或小于-5时，函数曲线就变得非常平坦了，这时导数将非常小，几乎接近于零，这时梯度下降算法收敛的速度就会相当慢，为了解决这一问题，研究人员提出了ReLU函数作为隐藏层神经元的激活函数，并逐渐成为深度学习网络中主流技术。我们将在本节稍后时间给大家讲解ReLU函数。

由于大家可能对高等数学中的知识都基本忘记了，这里我们给大家复习一下高等数学中导数的概念。

导数概念

对于一个可导的函数f(x)，我们将其在x_0点的导数定义为：

导数定义

这是导数的定义，在后面作业中，我们验证求导函数是否正确时，就是用这种方式来进行正确性检验的。但是在深度学习中，我们不使用这个定义来求导，因为这种数值计算方式不仅运算量大，而且精度低，当前业界的主流求导技术自动微分技术，这个技术我们会在本章最后给大家做一个简单的介绍。

回到求导问题上来，我们一般应用解析法来求导，这非常类似于我在学高等数学时的手工求导公式。高等数学中求导公式有很多，但是对于sigmoid函数求导来说，只需要用到如下两个公式：

复合函数求导公式

对于sigmoid函数而言，分母u=1,就可以简化为：

根据以上公式，sigmoid导数为：

作业实现

在有了上面的理论准备之后，我们再来实现作业1中sigmoid函数部分就变得十分简单了。首先，第一步需要做的是python2到python3的移植，这项任务听起来感觉很高大上，其实实际上，主要就做两方面的工作即可，一个是将print从脚本形式改为函数调用方式，其次是将xrange变为range，而在本次作业里，更是只需要改一下print调用方式即可，修改后的作业的starter code如下所示：

import numpy as np
def sigmoid(x):
 """
 Compute the sigmoid function for the input here.
 Arguments:
 x -- A scalar or numpy array.
 Return:
 s -- sigmoid(x)
 """
 ### YOUR CODE HERE
 s = 1.0 / (1 + np.exp(-x))
 ### END YOUR CODE
 return s
def sigmoid_grad(s):
 """
 Compute the gradient for the sigmoid function here. Note that
 for this implementation, the input s should be the sigmoid
 function value of your original input x.
 Arguments:
 s -- A scalar or numpy array.
 Return:
 ds -- Your computed gradient.
 """
 ### YOUR CODE HERE
 ds = s * (1 - s)
 ### END YOUR CODE
 return ds
def test_sigmoid_basic():
 """
 Some simple tests to get you started.
 Warning: these are not exhaustive.
 """
 print("Running basic tests...")
 x = np.array([[1, 2], [-1, -2]])
 f = sigmoid(x)
 g = sigmoid_grad(f)
 print(f)
 f_ans = np.array([
 [0.73105858, 0.88079708],
 [0.26894142, 0.11920292]])
 assert np.allclose(f, f_ans, rtol=1e-05, atol=1e-06)
 print(g)
 g_ans = np.array([
 [0.19661193, 0.10499359],
 [0.19661193, 0.10499359]])
 assert np.allclose(g, g_ans, rtol=1e-05, atol=1e-06)
 print("You should verify these results by hand!\n")
def test_sigmoid():
 """
 Use this space to test your sigmoid implementation by running:
 python q2_sigmoid.py
 This function will not be called by the autograder, nor will
 your tests be graded.
 """
 print("Running your tests...")
 ### YOUR CODE HERE
 raise NotImplementedError
 ### END YOUR CODE
if __name__ == "__main__":
 test_sigmoid_basic()

这段代码比较简单，唯一需要注意的就是在求sigmoid\_grad时，传入的参数是sigmoid函数的值，而不是自变量x。运行上面的程序，结果如下所示：

ReLU函数的定义为：

用我们常用的数学语言来描述，ReLU就是一个分段函数：

大家可以看到，在$z \le 0$时，函数的导数为零，当$z>0$时，函数的导数为常数1，不存在饱合问题，同时具有线性函数的简洁性，降低了深度神经网络的训练难度。

可以通过如下代码绘制ReLU函数：

import numpy as np
import matplotlib.pyplot as plt
def relu(x):
 s = np.where(x<0, 0, x)
 return s
def relu_grad(s):
 ds = np.where(s<0, 0, 1)
 return ds
def main():
 x = np.linspace(-10, 10, 200)
 y = relu(x)
 plt.plot(x, y)
 plt.show()
if '__main__' == __name__:
 main()

ReLU函数的图形如下所示：

ReLU函数与Sigmoid函数正好相反，虽然在$x=0$时不可微，但是其他处均可微，现代深度学习理论认为，只要函数绝大多数地方可微就可以了。另外，ReLU函数也不存在饱合性，当$x>0$时，其微分值始终为1，可以加快梯度下降算法的收敛速度。同时，ReLU函数很好地模拟了生物神经元刺激在一定阈值下不反应，达到这个阈值后起反应，但是和刺激强度无关的特性。正是由于采用了ReLU函数，才使得现代的深度学习网络取得成功。

如果觉得文章看得不够明白，欢迎移步我们的视频课程：斯坦福自然语言处理习题课（https://study.163.com/course/introduction.htm?courseId=1006361019&share=2&shareId=400000000383016）

斯坦福自然语言处理习题课3sigmoid函数实现

导数概念

作业实现

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

斯坦福自然语言处理习题课3sigmoid函数实现

导数概念

作业实现

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划