百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

《使用Scikit-Learn实现多标签分类,助力机器学习任务》

toyiye 2024-05-19 19:36 10 浏览 0 评论

多标签分类有助于机器学习任务。

在机器学习中,分类是一种监督学习方法,用于根据输入数据预测标签。例如,根据历史特征预测某人是否对销售优惠感兴趣,可以使用训练数据训练机器学习模型进行分类。常见的分类任务有二元分类(两个标签)和多类分类(两个以上标签)。

在多标签分类中,模型需要从所有可用标签中预测一个标签。用于分类的数据集类似于下图所示,目标为销售优惠。在二元分类中,有两个标签;在多类分类中,有三个标签。模型会从可用特征中进行训练。

在多标签分类中,不仅预测一个输出标签,而是预测尽可能多的适用于输入数据的标签。输出可以是从没有标签到最大数量的可用标签。多标签分类通常用于文本数据分类任务。例如,一个多标签分类的示例数据集如下所示。在这个例子中,假设文本1到文本5可以归类为四个类别的句子:事件、体育、流行文化和自然。

通过上述训练数据,可以使用Scikit-Learn建立多标签分类器,预测哪个标签适用于给定的句子。每个类别之间并不相互对立,因为它们不是互斥的;每个标签可以被视为独立的。更详细地说,可以看到文本1标记为体育和流行文化,而文本2标记为流行文化和自然,这表明每个标签是互斥的。多标签分类的预测输出可以是没有标签或同时包含所有标签。

本教程将使用Kaggle上公开的生物医学PubMed多标签分类数据集。该数据集包含各种特征,但本视频只使用abstrdtText特征和它们的MeSH分类(A:解剖学、B:有机体、C:疾病等)。

本视频将使用Scikit-Learn建立多标签分类器。在训练模型之前,首先准备好数据集,本视频将文本数据转换为TF-IDF表示,以便Scikit-Learn模型能够接受训练数据。此外,为了简化教程,本视频跳过了预处理数据的步骤,例如删除停顿词。

数据转换完成后,将数据集分割为训练集和测试集。完成所有准备工作后,将开始训练多标签分类器。Scikit-Learn采用多输出分类器对象来训练多标签分类器模型。这种模型的策略是为每个标签训练一个分类器,每个标签都有自己的分类器。

在示例中,将使用逻辑回归并使用多输出分类器将其扩展到所有标签。可以根据需要更改模型并调整传递给多输出分类器的参数,因此请根据自己的需求进行管理。

完成训练后,使用模型预测测试数据,预测结果为每个MeSH类别的标签数组,每行代表一个句子,每列代表一个标签。

最后,需要对多输出分类器进行评估。可以使用准确率指标来评估模型,准确率得分为0.145,这表明该模型只能在不到14.5%的情况下预测准确的标签组合。

然而,对于多标签预测评估来说,准确率得分存在不足,因为它需要每个句子的所有标签都出现在准确的位置上,否则就会被认为是错误的。例如,第一行预测与测试数据之间仅有一个标签的差异,对于准确率得分来说这将被认为是错误的预测。因为标签组合不同,这就是为什么模型具有较低度量分数的原因。

为了解决这个问题,必须评估标签的预测而不是它们的组合。在这种情况下,可以使用汉明损失评估指标。汉明损失通过将错误预测与总标签数的比例来计算。因为汉明损失是一种损失函数,得分越低越好(0表示没有错误预测,1表示所有预测都错误)。多输出分类器当上ing Loss模型为0.13,这意味着模型在独立情况下约有13%的错误预测,这意味着每个标签的预测可能有13%的错误结论。

多标签分类是一种机器学习任务,其输出可以是没有标签或给定输入数据的所有可能标签,这与二元或多类分类不同,其中标签输出是相互排斥的。使用Scikit-Learn的MultiOutputClassifier,我们可以开发多标签分类器,为每个标签训练一个分类器。在模型评估方面最好使用Hamming Loss指标,因为准确率得分可能无法正确反映整体情况。

推荐书单《Python分布式机器学习》,《Python分布式机器学习》本书详细阐述了与分布式机器学习相关的基本解决方案,主要包括拆分输入数据参数服务器和All-Reduce构建数据并行训练和服务管道瓶颈和解决方案。拆分模型管道输入和层拆分,实现模型并行训练和服务工作流程,实现更高的吞吐量和更低的延迟。本书融合了数据并行和模型并行、联合学习和边缘设备弹性模型训练和服务等高级技术,能进一步加速训练速度。除此之外,本书还提供了示例代码,帮助读者更深入地理解相关方案的实现过程。

本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码