查看“︁多元分类”︁的源代码
←
多元分类
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{多個問題| {{cleanup-jargon|time=2019-10-08T14:29:35+00:00}} {{expand language|1=en|time=2019-10-01T14:55:40+00:00}} {{onesource|time=2019-10-01T14:55:40+00:00}} }} {{confused|多标签分类}} 在[[机器学习]]中,'''多元分类'''是将实例[[分类问题|分配]]到多个(多于两个)类别中的其中一个(将实例分配到两个类别中的其中一个被称为[[二分类]])。 显然,分类算法可以分为二分类和多分类两种,而多分类算法可以通过将其转化为多个二分类来实现。 需要注意的是,多分类不应和[[多标签分类]]相混淆:多标签分类可以为每个实例预测多个标签,即同一个实例可以同时被分配到多个类别。 == 一般策略 == 这部分讨论将多分类问题转化为多个二分类问题的策略。 === One-vs.-rest === ''one-vs.-rest''<ref name="bishop">{{cite book |first = Christopher M.|last = Bishop|year = 2006|title = Pattern Recognition and Machine Learning|url = https://archive.org/details/patternrecogniti0000bish|publisher = Springer}}</ref>{{Rp|182, 338}} (或''one-vs.-all'',OvA或OvR)策略需要为每一个类别分别建立一个唯一的二分类基分类器,属于此类的所有样本均为正例,其余的全部为负例。这一策略需要基分类器去产生一个实值置信度以供决策,而不仅仅是预测出一个类标签:只是预测出类标签可能会导致归类的不明确(可能有多个基分类器都预测为正例),以致于一个样本会被预测属于多个类别。<ref name="bishop">{{cite book |first = Christopher M.|last = Bishop|year = 2006|title = Pattern Recognition and Machine Learning|url = https://archive.org/details/patternrecogniti0000bish|publisher = Springer}}</ref>{{Rp|182}}<ref group="注">在多标签分类中,OvR被认为是“二元相关性”(binary relevance),并且被预测到多个类别被认为是多标签分类的自身特色,而非问题</ref> 通过OvR方法使用二分类算法{{Mvar|L}}建立多分类学习器,其伪代码表示如下: : 输入: :* 二分类训练算法{{Mvar|L}} :* 样本集合{{Mvar|X}} :* 标签集合{{Mvar|y}} 使{{Mvar|y{{sub|i}}}} ∈ {1, … {{Mvar|K}}} 是样本{{Mvar|X{{sub|i}}}}的类标签 : 输出: :* 一个二分类分类器序列{{Mvar|f{{sub|k}}}},{{Mvar|k}} ∈ {1, …, {{Mvar|K}}} : 执行过程: :* 对于{1, …, {{Mvar|K}}}中的每个元素{{Mvar|k}}: :** 构建一个新标签向量{{Mvar|z}},其中{{Math|''y''{{sub|''i''}} {{=}} ''k''}}时{{Math|''z''{{sub|''i''}} {{=}} 1}},否则 {{Math|''z''{{sub|''i''}} {{=}} 0(或-1)}} :** 将{{Mvar|L}} 应用于{{Mvar|X}}、{{Mvar|z}} 以获得{{Mvar|f{{sub|k}}}} 当进行多分类时,需要将所有的二分类分类器应用于一个未知样本{{Mvar|x}},{{Mvar|x}}的最终分类类别即为产生最大置信度的分类器所对应的标签{{Mvar|k}}: :<math>\hat{y} = \arg\max_{k \in 1 \ldots K} f_k(x)</math> 尽管这一策略很流行,但它是一个受到些许问题困扰的[[启发法|启发式算法]]。首先,不同分类器之间置信度分布可能不同,这些分类器各自输出的置信度之间不一定具有可比性。其次,即使一个多分类训练集的类别是均衡分布的,其所对应的二分类所看到的类别分布也是不均衡的,因为它们所看到的负例个数通常远多于正例个数(即类别不平衡问题)。<ref name="bishop">{{cite book |first = Christopher M.|last = Bishop|year = 2006|title = Pattern Recognition and Machine Learning|url = https://archive.org/details/patternrecogniti0000bish|publisher = Springer}}</ref>{{Rp|338}} === One-vs.-one === ''在one-vs.-one'' (OvO) 的转化中,对于一个K类多分类问题,训练 {{Math|''K'' (''K'' − 1) / 2}} 个二分类分类器;每一个二分类分类器从初始多分类训练集中收集其中两个类别的所有样本,并学习去区分这两个类别。在预测时,会有一个投票:所有 {{Math|''K'' (''K'' − 1) / 2}} 个二分类分类器被应用于一个未知样本,并且那个得到最多“+1”预测的类别会成为最终的多分类预测结果。<ref name="bishop">{{cite book |first = Christopher M.|last = Bishop|year = 2006|title = Pattern Recognition and Machine Learning|url = https://archive.org/details/patternrecogniti0000bish|publisher = Springer}}</ref>{{Rp|339}} 像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。<ref name="bishop">{{cite book |first = Christopher M.|last = Bishop|year = 2006|title = Pattern Recognition and Machine Learning|url = https://archive.org/details/patternrecogniti0000bish|publisher = Springer}}</ref>{{Rp|183}} == 另见 == * [[二分类]] * [[一分类]] * [[多标签分类]] == 注释 == {{Reflist|group = 注}} == 参考资料 == {{Reflist}} [[Category:分類演算法]] [[Category:统计分类]]
该页面使用的模板:
Template:Cite book
(
查看源代码
)
Template:Confused
(
查看源代码
)
Template:Math
(
查看源代码
)
Template:Mvar
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Rp
(
查看源代码
)
Template:多個問題
(
查看源代码
)
返回
多元分类
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息