多标签分类有助于机器学习任务。
在机器学习中,分类是一种监督学习方法,用于根据输入数据预测标签。例如,根据历史特征预测某人是否对销售优惠感兴趣,可以使用训练数据训练机器学习模型进行分类。常见的分类任务有二元分类(两个标签)和多类分类(两个以上标签)。
在多标签分类中,模型需要从所有可用标签中预测一个标签。用于分类的数据集类似于下图所示,目标为销售优惠。在二元分类中,有两个标签;在多类分类中,有三个标签。模型会从可用特征中进行训练。
在多标签分类中,不仅预测一个输出标签,而是预测尽可能多的适用于输入数据的标签。输出可以是从没有标签到最大数量的可用标签。多标签分类通常用于文本数据分类任务。例如,一个多标签分类的示例数据集如下所示。在这个例子中,假设文本1到文本5可以归类为四个类别的句子:事件、体育、流行文化和自然。
通过上述训练数据,可以使用Scikit-Learn建立多标签分类器,预测哪个标签适用于给定的句子。每个类别之间并不相互对立,因为它们不是互斥的;每个标签可以被视为独立的。更详细地说,可以看到文本1标记为体育和流行文化,而文本2标记为流行文化和自然,这表明每个标签是互斥的。多标签分类的预测输出可以是没有标签或同时包含所有标签。
本教程将使用Kaggle上公开的生物医学PubMed多标签分类数据集。该数据集包含各种特征,但本视频只使用abstrdtText特征和它们的MeSH分类(A:解剖学、B:有机体、C:疾病等)。
本视频将使用Scikit-Learn建立多标签分类器。在训练模型之前,首先准备好数据集,本视频将文本数据转换为TF-IDF表示,以便Scikit-Learn模型能够接受训练数据。此外,为了简化教程,本视频跳过了预处理数据的步骤,例如删除停顿词。
数据转换完成后,将数据集分割为训练集和测试集。完成所有准备工作后,将开始训练多标签分类器。Scikit-Learn采用多输出分类器对象来训练多标签分类器模型。这种模型的策略是为每个标签训练一个分类器,每个标签都有自己的分类器。
在示例中,将使用逻辑回归并使用多输出分类器将其扩展到所有标签。可以根据需要更改模型并调整传递给多输出分类器的参数,因此请根据自己的需求进行管理。
完成训练后,使用模型预测测试数据,预测结果为每个MeSH类别的标签数组,每行代表一个句子,每列代表一个标签。
最后,需要对多输出分类器进行评估。可以使用准确率指标来评估模型,准确率得分为0.145,这表明该模型只能在不到14.5%的情况下预测准确的标签组合。
然而,对于多标签预测评估来说,准确率得分存在不足,因为它需要每个句子的所有标签都出现在准确的位置上,否则就会被认为是错误的。例如,第一行预测与测试数据之间仅有一个标签的差异,对于准确率得分来说这将被认为是错误的预测。因为标签组合不同,这就是为什么模型具有较低度量分数的原因。
为了解决这个问题,必须评估标签的预测而不是它们的组合。在这种情况下,可以使用汉明损失评估指标。汉明损失通过将错误预测与总标签数的比例来计算。因为汉明损失是一种损失函数,得分越低越好(0表示没有错误预测,1表示所有预测都错误)。多输出分类器当上ing Loss模型为0.13,这意味着模型在独立情况下约有13%的错误预测,这意味着每个标签的预测可能有13%的错误结论。
多标签分类是一种机器学习任务,其输出可以是没有标签或给定输入数据的所有可能标签,这与二元或多类分类不同,其中标签输出是相互排斥的。使用Scikit-Learn的MultiOutputClassifier,我们可以开发多标签分类器,为每个标签训练一个分类器。在模型评估方面最好使用Hamming Loss指标,因为准确率得分可能无法正确反映整体情况。
推荐书单《Python分布式机器学习》,《Python分布式机器学习》本书详细阐述了与分布式机器学习相关的基本解决方案,主要包括拆分输入数据参数服务器和All-Reduce构建数据并行训练和服务管道瓶颈和解决方案。拆分模型管道输入和层拆分,实现模型并行训练和服务工作流程,实现更高的吞吐量和更低的延迟。本书融合了数据并行和模型并行、联合学习和边缘设备弹性模型训练和服务等高级技术,能进一步加速训练速度。除此之外,本书还提供了示例代码,帮助读者更深入地理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。