百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

深度学习 - 提升训练质量的技巧合集

toyiye 2024-06-21 12:38 8 浏览 0 评论

在深度学习中经常出现一些问题导致训练出来的效果不佳,这篇文章就说一说如何提升网络训练的质量。

索引:

  • 欠拟合
  • 过拟合
  • 如何检测过拟合
  • 如何过拟合
  • 动量梯度下降
  • 学习率自适应
  • 提前停止
  • Dropout
  • 随机梯度下降

欠拟合 underfitting

就是模型的复杂度小于真实的复杂度,因此模型不能够表达真实的情况。如果遇到无论怎么训练,训练的accuracy很低,测试的accuracy很低,loss也下不去,这个时候很可能出现了underfitting。可以使用容量更大的模型来表达更加复杂的情况,或者更多的层数以及更多的节点。

1.png


提高模型容量(model capacity)如下图可以解决欠拟合,然而在实际的应用中过拟合的情况更多

2.png


过拟合Overfitting(Generalization Performance泛化能力)

模型复杂度大于真实模型的复杂度。表现为训练loss和训练accuracy都很好,但是测试accuracy不好。

4.png


5.png


如何检测overfitting:

  • 使用交叉验证,将数据集分为Train、Validation、Test三个部分,其中Validation做模型参数的挑选,test做最后的性能检测
  • 使用K-fold方式,将数据集划分为K份,每次去K-1份用来做train,一份用来做validation,每个epoch切换train和validation的数据集,这样既防止了死记硬背又防止了记忆的特性。这样会对网络有一定的提升(提升不算很大),Kera是提供了一个很方便的方法:network.fit(db_train, epochs=6, validation_split=0.1, validation_freq=2) 会将数据按照0.1和0.9来分。
import  tensorflow as tf
from    tensorflow.keras import datasets, layers, optimizers, Sequential, metrics


def preprocess(x, y):
    """
    x is a simple image, not a batch
    """
    x = tf.cast(x, dtype=tf.float32) / 255.
    x = tf.reshape(x, [28*28])
    y = tf.cast(y, dtype=tf.int32)
    y = tf.one_hot(y, depth=10)
    return x,y


batchsz = 128
(x, y), (x_test, y_test) = datasets.mnist.load_data()
print('datasets:', x.shape, y.shape, x.min(), x.max())

idx = tf.range(60000)
idx = tf.random.shuffle(idx)
x_train, y_train = tf.gather(x, idx[:50000]), tf.gather(y, idx[:50000])
x_val, y_val = tf.gather(x, idx[-10000:]) , tf.gather(y, idx[-10000:])
print(x_train.shape, y_train.shape, x_val.shape, y_val.shape)
## train
db_train = tf.data.Dataset.from_tensor_slices((x_train,y_train))
db_train = db_train.map(preprocess).shuffle(50000).batch(batchsz)

db_val = tf.data.Dataset.from_tensor_slices((x_val,y_val))
db_val = db_val.map(preprocess).shuffle(10000).batch(batchsz)

db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
db_test = db_test.map(preprocess).batch(batchsz) 

sample = next(iter(db_train))
print(sample[0].shape, sample[1].shape)


network = Sequential([layers.Dense(256, activation='relu'),
                     layers.Dense(128, activation='relu'),
                     layers.Dense(64, activation='relu'),
                     layers.Dense(32, activation='relu'),
                     layers.Dense(10)])
network.build(input_shape=(None, 28*28))
network.summary()

network.compile(optimizer=optimizers.Adam(lr=0.01),
      loss=tf.losses.CategoricalCrossentropy(from_logits=True),
      metrics=['accuracy']
   )

network.fit(db_train, epochs=6, validation_data=db_val, validation_freq=2)

print('Test performance:') 
network.evaluate(db_test)


sample = next(iter(db_test))
x = sample[0]
y = sample[1] # one-hot
pred = network.predict(x) # [b, 10]
# convert back to number 
y = tf.argmax(y, axis=1)
pred = tf.argmax(pred, axis=1)

print(pred)
print(y)

如何减轻Overfitting

原则:如果不是必要的就选择最小的。

主流的做法:

  • 提供更多的数据
  • 降低模型的复杂度,数据集的大小和网络的大小是相对的
  • Dropout
  • Data argumentation
  • Early Stopping 使用Validation set来做一个提前的终结
  • Regularization
    Regularization
    6.png
    经过Regularization退化成更少次方的网络结构,更低复杂度的网络结构从而降低Overfitting,是一种weight decay的方法

通过下面的例子可以清楚的看到Regularization降低网络的表达能力从而防止噪声造成的overfitting

7.png


Regularization常用的两种,第一种是在原来的loss的基础上加上一范数,第二种是在原来的loss的基础上加一个tensor的二范数,最常用的是第二种,注意这里的lamda是一个超参数需要人为的调整。

8.png


在keras中可通过下面的代码kera.regularizers.l2(lamda)进行Regularization的快速添加添加


9.png


另一种是人为的对每个w和b进行Regularization的处理,这样的灵活性比较大:

10.png


momentum动量:


11.png


梯度更新最基本的公式是直接使用一个固定的学习率,然而这样的方式的缺点很明显吧,这里额外的使用Zk,这个Zk是上一次的方向,这样两个方向加起来就是当前的更新方向和之前的更新方向的结合。


通过下面的两个例子进行比较:

无动量,固定学习率时:可以发现在局部最优解的时候就已经停止了,并且在一开始的时候更新的方向是非常随机的

12.png


使用动量时的更新:

13.png


在实际使用的时候很简单直接使用内置的函数就可以不需要人为的完成,这里也可以使用Adam优化器,对于Adam是没有动量的这个参数的而是在内部优化完成:

14.png


Learning Rate Tuning:

一般刚开始设置一个大的学习率,随着学习的进行动态的缩小学习率,调整非常的简单但是有效,这是逐渐衰减


15.png


这是突然衰减,具体的策略可以自定义:


16.png


Early Stop:

由于训练的epoch如果很大就有可能出现overfitting的情况,early stop就是说在出现overfitting之前就将模型停止掉,很好理解

17.png


通常通过Validation set来监测在最高点的时候停止,这个经验的判断,因为下降之后有可能又上升。


Dropout

learning less, learning better,

18.png


可以通过下图比较dropout的效果:


19.png


添加Dropout的方法很简单,直接layers.Dropout(断掉的概率)即可


20.png


注意,如果做了dropout之后,因为train的时候会dropout但是在test的时候不要dropout,因此train和test的时候逻辑是不一样的

  • train – true
  • validation – false
  • test -false
    21.png

Stochastic Gradient Descent 随机梯度下降(SGD)

注意虽然叫做随机但是不是真正的随机,而是符合某种分步的下降,随机是指从数据集中随机选取batch,然后计算他的梯度的平均值,也就是把原来整个数据集的梯度的均值变成batch上所有梯度的均值,这样因为由于显存的限制不可能一次把所有数据都加载进来计算一次,因此要使用SGD的策略一次取一个批次来计算。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码