百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

工业应用中如何选取合适的损失函数

toyiye 2024-06-21 12:08 7 浏览 0 评论

作者丨小可乐大魔王@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/378822530

编辑丨极市平台

直接上结果:

图片截选自本文末尾

正文:

无论在机器学习还是深度学习领域中,损失函数都是一个非常重要的知识点。损失函数有许多不同的类型,根据具体模型和应用场景需要选择不同的损失函数,如何选择模型的损失函数,是作为算法工程师实践应用中最基础也是最关键的能力之一。最近在学习pytorch的时候,参考了很多说明文档和优秀贴文,总结了如何针对应用场景选择合适损失函数、对比不同损失函数的优缺点及相关pytorch代码,用作学习记录,方便自己回顾。内容包括:

  1. 基础知识(损失函数、训练目标、训练方法、pytorch)
  2. 回归模型损失函数 (MSE、MAE、Huber损失函数的优缺点,总结应用情形)
  3. 分类模型损失函数 (熵、最大似然)

一.基础知识

在理解各种损失函数的选择原理之前,先回顾一下损失函数、模型训练、训练方法的相关基本概念

损失函数(Loss Function): 用来估量模型的预测值 f(x)真实值 y 的偏离程度,以下是选择损失函数的基本要求与高级要求:

  • 基本要求:用来衡量模型输出分布和样本标签分布之间的接近程度,
  • 高级要求:在样本分布不均匀地情况下,精确地描述模型输出分布和样本标签之间的接近程度

模型训练(Training): 训练的过程实质是优化(最小化)损失函数,让 f(x) 与 y 尽量接近。实际上是模型参数拟合的过程(比如使用最小二乘法、梯度下降法求解回归模型中的参数),也可以理解为模型求解的过程(比如使用最大期望法求解概率模型中的参数)。和其他数学建模中的求解参数过程本质上没太大区别。

常用训练方法: 梯度下降算法寻找函数最小值

从梯度下降到 Adam!一文看懂各种神经网络优化算法

一般的损失函数的都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 batch_size的向量, 值得注意的是, pytorch中很多的损失函数都有 size_average 和 reduce 两个布尔类型的参数,具体内容为:

  • 如果 reduce = False,那么 size_average 参数失效,直接返回向量形式的 loss;
  • 如果 reduce = True,那么 loss 返回的是标量
    • 如果 size_average = True,返回 loss.mean();
    • 如果 size_average = True,返回 loss.sum();

为了更好地理解损失函数的定义以下代码部分将这两个参数均设置为False

一般来说,工程实践中常用的损失函数大致可以分成两大应用情况:回归(Regression)和分类(Classification)

二.回归模型

1.nn.MSELoss(Mean Square Error)

均方损失函数,其数学形式如下:

这里 loss, x, y 的维度是一样的,可以是向量或者矩阵,i 是下标

以 y-f(x) 为横坐标,MSE 为纵坐标,绘制其损失函数的图形:

MSE 曲线的特点是光滑连续、可导,便于使用梯度下降算法。平方误差有个特性,就是当 yi 与 f(xi) 的差值大于 1 时,会增大其误差;当 yi 与 f(xi) 的差值小于 1 时,会减小其误差。这是由平方的特性决定的。也就是说, MSE 会对误差较大(>1)的情况给予更大的惩罚,对误差较小(<1)的情况给予更小的惩罚。比如说真实值为1,预测10次,有一次预测值为1000,其余次的预测值为1左右,显然loss值主要由1000决定。

优点:收敛速度快- MSE 随着误差的减小,梯度也在减小,这有利于函数的收敛,即使固定学习率,函数也能较快收敛到最小值。

缺点:离群点影响大从Training的角度来看,模型会更加偏向于惩罚较大的点,赋予其更大的权重,忽略掉较小的点的作用,无法避免离群点可能导致的梯度爆炸问题。如果样本中存在离群点,MSE 会给离群点赋予更高的权重,但是却是以牺牲其他正常数据点的预测效果为代价,因此会导致降低模型的整体性能

pytorch代码实现:

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F

#选择损失函数MSE
loss_func=torch.nn.MSELoss()
#随机生成数据
input=torch.autograd.Variable(torch.randn(3,4))
targets=torch.autograd.Variable(torch.randn(3,4))

#计算loss
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

输出

2.nn.L1Loss&&MAE(Mean Absolute Error)

绝对误差与L1误差,两者的误差都是误差指的就是模型预测值 f(x) 与样本真实值 y 之间距离的平均值其公式如下:

要求 x 和 y 的维度要一样(可以是向量或者矩阵),得到的 loss 维度也是对应一样的。这里用下标 i 表示第 i 个元素

以 y-f(x) 为横坐标,MAE 为纵坐标,绘制其损失函数的图形:

MAE 的曲线呈 V 字型,连续但在 y-f(x)=0 处不可导,计算机求导比较难。且 MAE 大部分情况下梯度相等,这意味着即使对于小的损失值,其梯度也是大的,不利于函数的收敛和模型的学习

优点: 由于MAE 计算的是绝对误差,无论是 y-f(x)>1 还是 y-f(x)<1,没有平方项的作用,惩罚力度相同,因此MAE 相比 MSE 对离群点不过分敏感,拟合直线能够较好地表征正常数据的分布情况,其鲁棒性更好

缺点:MAE训练中梯度始终很大,且在0点连续但不可导,这意味着即使对于小的损失值,其梯度也是大的。这不利于函数的收敛和模型的学习,模型学习速度慢,同时也会导致使用梯度下降训练模型时,在结束时可能会遗漏全局最小值。

MAE曲线连续,但是在(y-f(x)=0)处不可导。

代码实现由torch.nn.L1Loss的参数reduction决定,当参数reduction

  • 选择 ‘mean’ 或’none’时,即为MAE,
  • 选择’sum’时即为L1 loss;
loss_func = torch.nn.L1Loss()
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

输出:

3. nn.SmoothL1Loss(Huber损失函数)

Huber损失函数(平滑平均绝对误差)相比平方误差损失

Huber函数是对MAE和MSE二者的综合,其在函数值为0时,它也是可微分的。,其包含了一个超参数δ,δ 值决定了 Huber侧重于 MSE 还是 MAE 的优秀形式表现

  • 当δ~ 0时,Huber损失会趋向于MSE;
  • 当δ~ ∞(很大的数字),Huber损失会趋向于MAE

分别取 δ = 0.1、δ = 10,绘制相应的 Huber Loss损失函数的图形::

    当 |y?f(x)| > δ 时,梯度一直近似为 δ,能够保证模型以一个较快的速度更新参数
    当 |y?f(x)| ≤ δ 时,梯度逐渐减小,也能够保证模型更精确地得到全局最优值

该函数实际上就是一个分段函数,在[-1,1]光滑,这样解决了MAE的不光滑问题,在[-∞,1)(1,+∞])区间解决了MSE可能导致的离群点梯度爆炸的问题,即:

Huber 函数它围绕的最小值会减小梯度,且相比MSE,它对异常值更具鲁棒性, Huber 函数同时具备了 MSE 和 MAE 的优点,既弱化了离群点的过度敏感问题,又实现了处处可导的功能

优点: 同时具备了 MSE 和 MAE 的优点,既弱化了离群点的过度敏感问题,又实现了处处可导的功能,收敛速度也快于MAE

  • 相比于MAE损失函数,可以收敛得更快;
  • 相比于MSE损失函数,对离群点、异常值不敏感,梯度变化相对更小,训练时不容易抛出奇怪的结果

注意点: δ超参数需要在训练中选择,常常使用交叉验证法选取合适超参数δ ,超参数的选取直接影响训练的效果的好坏

交叉验证:https://blog.csdn.net/weixin_40475450/article/details/80578943

代码实现:

loss_func = torch.nn.SmoothL1Loss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

代码结果:

总结:工业应用中如何选择合适的损失函数

  • 从误差的角度来说: MSE可以用来评价数据变化的程度,MAE则能更好的反应预测值误差的实际情况
  • 从离群点角度选择: 如果离群点仅仅只是在数据提取的过程中的损坏或者清洗中的错误采样,则无须给予过多关注,那么我们应该选择 MAE, 但如果离群点是实际的数据或者重要的数据需要被检测到的异常值,那我们应该选择 MSE
  • 从收敛速度的角度来说: MSE>Huber>MAE
  • 从求解梯度的复杂度来说:MSE 要优于 MAE,且梯度也是动态变化的,MSE能较快准确达到收敛。
  • 从模型的角度选择:对于大多数CNN网络,我们一般是使用MSE而不是MAE,因为训练CNN网络很看重训练速度,对于边框预测回归问题,通常也可以选择平方损失函数,但平方损失函数缺点是当存在离群点(outliers)的时候,这些点会占loss的主要组成部分。对于目标检测FastR CNN采用稍微缓和一点绝对损失函数(smooth L1损失),它是随着误差线性增长,而不是平方增长。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码