【模式识别与机器学习】——4.1模式分类可分性的测度

摘要:
特征选择和提取特征选择和抽取是模式识别中的一个关键问题当我们之前讨论分类器设计时,我们总是假设我们给出了一个样本集,其中每个样本的每个维度都是样本的特征;这些特征的选择非常重要,它强烈影响分类器的设计和性能;如果这些特征对于不同的类别非常不同,那么更容易设计出性能更好的分类器。
特征选择和提取

  特征选择和提取是模式识别中的一个关键问题 前面讨论分类器设计的时候,一直假定已给出了特征向量维数确定的样本集,其中各样本的每一维都是该样本的一个特征; 这些特征的选择是很重要的,它强烈地影响到分类器的设计及其性能; 假若对不同的类别,这些特征的差别很大,则比较容易设计出具有较好性能的分类器。

特征选择和提取是构造模式识别系统时的一个重要课题 在很多实际问题中,往往不容易找到那些最重要的特征,或受客观条件的限制,不能对它们进行有效的测量; 因此在测量时,由于人们心理上的作用,只要条件许可总希望把特征取得多一些; 另外,由于客观上的需要,为了突出某些有用信息,抑制无用信息,有意加上一些比值、指数或对数等组合计算特征; 如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生“特征维数灾难”问题。

  为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征; 在保证一定分类精度的前提下,减少特征维数,即进行“降维”处理,使分类器实现快速、准确和高效的分类。 为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择。 应去掉模棱两可、不易判别的特征; 所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征。

说明:

实际上,特征选择和提取这一任务应在设计分类器之前进行; 从通常的模式识别教学经验看,在讨论分类器设计之后讲述特征选择和提取,更有利于加深对该问题的理解。

特征选择:

就是从n个度量值集合{x1, x2,…, xn}中,按某一准则选取出供分类用的子集,作为降维(m维,m<n)的分类特征; 所谓特征提取,就是使(x1, x2,…, xn)通过某种变换,产生m个特征(y1, y2,…, ym) (m<n) ,作为新的分类特征(或称为二次特征); 其目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。

以细胞自动识别为例:

  通过图像输入得到一批包括正常细胞和异常细胞的图像,我们的任务是根据这些图像区分哪些细胞是正常的,哪些细胞是异常的; 首先找出一组能代表细胞性质的特征,为此可计算 细胞总面积 总光密度 胞核面积 核浆比 细胞形状 核内纹理 ……

  这样产生出来的原始特征可能很多(几十甚至几百个),或者说原始特征空间维数很高,需要降低(或称压缩)维数以便分类; 一种方式是从原始特征中挑选出一些最有代表性的特征,称之为特征选择; 另一种方式是用映射(或称变换)的方法把原始特征变换为较少的特征,称之为特征提取。

4.1 模式类别可分性的测度

(1)距离和散布矩阵

知识储备:

【模式识别与机器学习】——4.1模式分类可分性的测度第1张

【模式识别与机器学习】——4.1模式分类可分性的测度第2张

【模式识别与机器学习】——4.1模式分类可分性的测度第3张

【模式识别与机器学习】——4.1模式分类可分性的测度第4张

【模式识别与机器学习】——4.1模式分类可分性的测度第5张

【模式识别与机器学习】——4.1模式分类可分性的测度第6张

【模式识别与机器学习】——4.1模式分类可分性的测度第7张

【模式识别与机器学习】——4.1模式分类可分性的测度第8张

【模式识别与机器学习】——4.1模式分类可分性的测度第9张

【模式识别与机器学习】——4.1模式分类可分性的测度第10张

【模式识别与机器学习】——4.1模式分类可分性的测度第11张

免责声明:文章转载自《【模式识别与机器学习】——4.1模式分类可分性的测度》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇SpringBoot2.x 整合Spring-Session实现Session共享beforeunload事件下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

谷歌大神Jeff Dean:大规模深度学习最新进展 zz

http://www.tuicool.com/articles/MBBbeeQ 在AlphaGo与李世石比赛期间,谷歌天才工程师Jeff Dean在Google Campus汉城校区做了一次关于智能计算机系统的大规模深度学习(Large-Scale Deep Learning for Intelligent Computer Systems)的演讲。本文是...

python数据分析用什么软件?(萌新进)

Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性,这里就为大家分享几个不错的数据分析工具。 Python数据分析需要安装的第三方扩展库有:Numpy、Pandas、SciPy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy等,以下是第三方...

如何理解全连接层

有部分内容是转载的知乎的,如有侵权,请告知,删除便是,但由于是总结的,所以不一一列出原作者是who。 再次感谢,也希望给其他小白受益。 首先说明:可以不用全连接层的。 理解1: 卷积取的是局部特征,全连接就是把以前的局部特征重新通过权值矩阵组装成完整的图。 因为用到了所有的局部特征,所以叫全连接。 理解2: 从卷积网络谈起,卷积网络在形式上有一点点像咱们正...

深度学习之模型压缩

一、背景      深度学习让计算机视觉任务的性能到达了一个前所未有的高度。但,复杂模型的同时,带来了高额的存储空间、计算资源消耗,使其很难落实到各个硬件平台。      为了解决这些问题,压缩模型以最大限度地减小模型对于计算空间和时间的消耗。 二、理论基础     必要性:目前主流的网络,如VGG16,参数量1亿3千多万,占用500多MB空间,需要进行3...

可视化机器学习工具软件的比较分析研究

可视化机器学习工具软件的比较分析研究 Ø 摘要 近年来,随着人脸识别、语音识别等技术的突破性进展,隐藏在它们背后的底层技术也引起工程和研究人员的高度重视,譬如机器学习。然而,机器学习是一个入门门槛相对比较高的技术领域,大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取,算法选择,参数调优和模型验证上,因此一个方便高效的可视化工具,对于降低用户的机器...

《机器学习导论》札记

《机器学习导论》 (土耳其)Ethem Alpaydin 著   范明等译。 1.1 什么是机器学习 1)机器学习方法在大型数据库中的应用称为数据挖掘(data mining)。数据挖掘也称数据库知识发现(knowledge discovery in databases,KDD) 1.2 机器学习的应用实例  1.2.1 学习关联性  (条件概率)  1....