《使用Scikit-Learn实现多标签分类，助力机器学习任务》

多标签分类有助于机器学习任务。

在机器学习中，分类是一种监督学习方法，用于根据输入数据预测标签。例如，根据历史特征预测某人是否对销售优惠感兴趣，可以使用训练数据训练机器学习模型进行分类。常见的分类任务有二元分类（两个标签）和多类分类（两个以上标签）。

在多标签分类中，模型需要从所有可用标签中预测一个标签。用于分类的数据集类似于下图所示，目标为销售优惠。在二元分类中，有两个标签；在多类分类中，有三个标签。模型会从可用特征中进行训练。

在多标签分类中，不仅预测一个输出标签，而是预测尽可能多的适用于输入数据的标签。输出可以是从没有标签到最大数量的可用标签。多标签分类通常用于文本数据分类任务。例如，一个多标签分类的示例数据集如下所示。在这个例子中，假设文本1到文本5可以归类为四个类别的句子：事件、体育、流行文化和自然。

通过上述训练数据，可以使用Scikit-Learn建立多标签分类器，预测哪个标签适用于给定的句子。每个类别之间并不相互对立，因为它们不是互斥的；每个标签可以被视为独立的。更详细地说，可以看到文本1标记为体育和流行文化，而文本2标记为流行文化和自然，这表明每个标签是互斥的。多标签分类的预测输出可以是没有标签或同时包含所有标签。

本教程将使用Kaggle上公开的生物医学PubMed多标签分类数据集。该数据集包含各种特征，但本视频只使用abstrdtText特征和它们的MeSH分类（A：解剖学、B：有机体、C：疾病等）。

本视频将使用Scikit-Learn建立多标签分类器。在训练模型之前，首先准备好数据集，本视频将文本数据转换为TF-IDF表示，以便Scikit-Learn模型能够接受训练数据。此外，为了简化教程，本视频跳过了预处理数据的步骤，例如删除停顿词。

数据转换完成后，将数据集分割为训练集和测试集。完成所有准备工作后，将开始训练多标签分类器。Scikit-Learn采用多输出分类器对象来训练多标签分类器模型。这种模型的策略是为每个标签训练一个分类器，每个标签都有自己的分类器。

在示例中，将使用逻辑回归并使用多输出分类器将其扩展到所有标签。可以根据需要更改模型并调整传递给多输出分类器的参数，因此请根据自己的需求进行管理。

完成训练后，使用模型预测测试数据，预测结果为每个MeSH类别的标签数组，每行代表一个句子，每列代表一个标签。

最后，需要对多输出分类器进行评估。可以使用准确率指标来评估模型，准确率得分为0.145，这表明该模型只能在不到14.5%的情况下预测准确的标签组合。

然而，对于多标签预测评估来说，准确率得分存在不足，因为它需要每个句子的所有标签都出现在准确的位置上，否则就会被认为是错误的。例如，第一行预测与测试数据之间仅有一个标签的差异，对于准确率得分来说这将被认为是错误的预测。因为标签组合不同，这就是为什么模型具有较低度量分数的原因。

为了解决这个问题，必须评估标签的预测而不是它们的组合。在这种情况下，可以使用汉明损失评估指标。汉明损失通过将错误预测与总标签数的比例来计算。因为汉明损失是一种损失函数，得分越低越好（0表示没有错误预测，1表示所有预测都错误）。多输出分类器当上ing Loss模型为0.13，这意味着模型在独立情况下约有13%的错误预测，这意味着每个标签的预测可能有13%的错误结论。

多标签分类是一种机器学习任务，其输出可以是没有标签或给定输入数据的所有可能标签，这与二元或多类分类不同，其中标签输出是相互排斥的。使用Scikit-Learn的MultiOutputClassifier，我们可以开发多标签分类器，为每个标签训练一个分类器。在模型评估方面最好使用Hamming Loss指标，因为准确率得分可能无法正确反映整体情况。

推荐书单《Python分布式机器学习》，《Python分布式机器学习》本书详细阐述了与分布式机器学习相关的基本解决方案，主要包括拆分输入数据参数服务器和All-Reduce构建数据并行训练和服务管道瓶颈和解决方案。拆分模型管道输入和层拆分，实现模型并行训练和服务工作流程，实现更高的吞吐量和更低的延迟。本书融合了数据并行和模型并行、联合学习和边缘设备弹性模型训练和服务等高级技术，能进一步加速训练速度。除此之外，本书还提供了示例代码，帮助读者更深入地理解相关方案的实现过程。

本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学用书和参考手册。

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程