搜索
您的当前位置:首页正文

多标记学习中LIFT算法的简要概述

来源:欧得旅游网
龙源期刊网 http://www.qikan.com.cn

多标记学习中LIFT算法的简要概述

作者:李星星

来源:《大众科学·上旬》2019年第02期

摘 要:在多标记学习体系內,关于现实内的所有客观对象,系统均会在输入空间(属性空间)通过使用一个样本来描述这种对象的性质,而在输出空间(类标空间)中则采用类标来描述这种对象所具有的语义信息。而其中一种基于特异性特征的多标记学习方法LIFT尤为重要。

关键词:多标记学习;类别属性;LIFT算法 一、LIFT算法概述

在多标记学习体系内,关于现实内的所有客观对象,系统均会在输入空间(属性空间)通过使用一个样本来描述这种对象的性质,而在输出空间(类标空间)中则采用类标来描述这种对象所具有的语义信息。而多标记学习的任务就是替真实世界中拥有多种语义的那些客观对象构建分类器的模型,从而以便这种模型能够高效地预测未知样本拥有的所有相关标记。 以前很多多标记学习方法应运而生,然而这些方法所采用的共同思想就是在同样的特征空间中,利用相同的特征集合来预测样本所有的类标。换言之,通过这类方法,多标记学习体系将得出的p个实值函数{f1,f2,…,fp}则是通过同样特征集合所训练而来。

虽然这些方法在性能上也实现了很好的鲁棒性,但是这种思想也许并不是最好的选择。比如说:当判断一个学生是计算机系的学生还是艺术系的学生时,可以通过像代码和艺术作品这类的特性就可以大致区别该学生的身份来;以上的信息特征和所对应的类别最相关、对该类别最具有区分能力的属性,这类特征也被称之为类标特异性特征(Label-Specific Features)。对于此,本文将介绍一种基于特异性特征的多标记学习方法LIFT。 二、LIFT算法基本原理及步骤

在构建多标记学习模型的过程中,已有的多标记学习方法基本都是在输出空间(类标空间)的基础上进行研究,而很少在输入空间(特征空间)上进行研究。基于此,与以往方法的思想不同,为了充分考察特征空间的性质,充分利用某一特定类标lk∈L,k∈{1,2,…,p}的特异性特征,LIFT算法被提出以便应对这些多标记数据集。

假设x=IRk表示为包含k个维度的样本空间,L={l1,l2,…,lp}表示为类标向量,符号p表示为类别总数。S={(xi,Yi)|i=1,2,…,n}表示为多标记学习的训练集,符号n表示为训练样本的数目。则第i个样本对象可看作是具有k个属性值的一个向量xi=[xi1,xi2,…,

龙源期刊网 http://www.qikan.com.cn

xik],其中xi∈x,并且Yi=[Yi1,Yi2,…,YiP]包含于L,是样本xi的地表真实类标。基于这些性质,LIFT算法分为以下三个步骤:类标特异性特征构建、分类模型架构以及未知样本的预测。

(1)类标特异性特征构建

对于LIFT算法,每一个类标lk∈L,训练样本均被划分为两个部分,即正训练样本子集Pk和负训练样本子集Nk。换句话说,Pk代表着由囊括类标lk的样本所构成的集合,同样地,Nk代表着由不含类标lk的样本所构成的集合。它们的形式可表示如下:

在式(1)和(2)中,如果训练样本xi涵盖类标lk,则xi隶属于Pk,否则的话,则xi隶属于Nk。

为了获得Pk和Nk的内在属性,LIFT方法分别对正训练样本集合Pk和负训练样本集合Nk上采用聚类分析方法。在先前文献[1, 2]中,依据经典而又有效的k-means方法[来聚类分析。在此,将Pk划分成mk个不相交的聚类,并且它的聚类中心被描述为 ,

按照同样的方式,Nk也被划分成mk个不相交的聚类,其聚类中心被描述为 。正如我们所知,在多标记学习系统中,经常会

出现类别不平衡的问题,即Nk的聚类中心数目远远地超过Pk的聚类中心数目,形式化表示则为|Nk|≥20*|Pk|。因此,为了避免这个问题,LIFT算法对子集Pk和Nk设置了同样的聚类中心数目。如此说来,LIFT算法对正训练样本子集Pk和负训练样本子集Nk的聚类信息则赋予了一样的权重。具体而言,聚类中心数目以如下形式表示:

式中,|.|可表示为集合的势,也称作该集合的基数。并且ε∈[0,1]表示为一个可以控制聚类数目的参数。

根据聚类自身的特性可以知道,子集Pk和Nk的聚类中心展现了它们样本数据的内部结构特点。所以说,通过聚类中心,我们可以构建出类标特异性特征,其形式如下所示: 式中,d(·,·)表示着两不同样本间的距离,在文献[25, 26]中,欧氏距离通常被用来计算距离,其实在本文中,也尝试用其他距离公式,如,闵可夫斯基距离来计算样本间的距离,然而最后的效果却和欧氏距离所得到的效果并无多的差异。因此,本文最后还是使用欧氏距离。实际上,这是一个由原始的k维的特征空间向2mk维的类标特异性特征空间Nk的映射函数

(2)分类模型架构

龙源期刊网 http://www.qikan.com.cn

在第二步中,LIFT算法则通过由上一步骤中所构建的类标特异性特征空间Nk中的类标特异性特征Ψk分别训练出υ个分类模型{Q1,Q2,…,Qυ}。对于每一个类标lk∈L,依据映射函数Ψk,从原始的训练集S内得到相应的具有n个样本的二类训练集Sk*,二类训练集Sk*具有如下表示:

式中,如果lk∈Yi,则p(lk,Yi)值为+1;否则其值为-1。基于以上的分析,任何的一个二类学习算法都可以被用来诱导出类标lk所对应的一个分类模型Qk:Nk→R。 (3)未知样本的预测

在最后一步中,在给出某一未知样本x'∈x后,其预测类标子集可由如下公式表示 参考文献

[1]Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific Features[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120. [2]Zhang M L. LIFT: multi-label learning with label-specific features[CInternational Joint Conference on Artificial Intelligence. AAAI Press, 2011:1609-1614.

作者简介:李星星,1991.4,男,江西九江,广州工商学院,无,模式识别与图像处理

因篇幅问题不能全部显示,请点此查看更多更全内容

Top