That TDD Fellow | Tech Blog | Screencasts

Let’s stop fearing our own creations and start being in control of them. Let’s be professional.

数据分析之粗糙集

| Comments

信息是什么?用来消除不确定性的东西。

Rough set => RS

RS的基本概念

  • 1、知识与分类

    在粗糙集理论种,知识被认为是一种分类能力。人们的行为基本是分辨现实的或抽象的对象的能力。根据事物的特征差别,将其分门别类的能力,均看做是某种知识。更抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。

    假定我们起初对论域内的对象(或者称为元素、样本、个体)已具备必要的信息或者知识,通过这些知识能够将其划分到不同的类别。若对两个对象具有相同的信息,则它们是不可区分的,即根据已有的信息不能将其划分开,显然这是一种等价关系,粗糙集理论的核心是等价关系,通常用等价关系替代分类,根据这个等价关系划分样本集合为等价类。从知识库的观点来看,每个等价类被称为一个概念,即一条知识(规则)。换句话说,每个等价类唯一地表示了一个概念属于一个等价类的不同对象对该概念是不可分的。

  • 2、知识表达系统

  • 3、不可分辨关系

    在粗糙集中,论域 U 中的对象可用多种信息(知识)来描述。当两个不同对象有相同属性来描述时,这两个对象在该系统中被归于同一类,它们的关系称之为不可分辨(indiscernibility relation),则对于任一属性子集。不可分辨关系称为等价关系(equivalence relation)。

    不可分辨关系这一概念在RS中十分重要,它反映了我们对世界观察的不精确性。若两个对象分别处于 lnd(B) 的不同划分种,那么它们就可以为现有的知识所辨识;若两个对象处于同一划分中,它们是不能为现有的知识所分辨。另一方面,不可分辨关系反映了论域知识的颗粒性,即通过现有的知识我们往往不能精确的认识每一个对象,属性相同的对象聚合在一起以颗粒的状态呈现在我们面前,彼此无法分辨开来。

  • 4、基本集合

    由于论域中相互不可分辨的对象组成的集合称之为基本集合,它是组成论域知识的颗粒。

RS的基本思想

  • 1、RS认为只是就是将论域种的对象进行分类的能力。我们对对象的认知成都取决于所拥有的知识的多少,知识越多,则分类的能力越强;知识越少,则对象间的区分越模糊。

    从数学上看,RS理论反映出人类以不完全信息或知识去出库不分明现象,以及依据观察、度量到的某些不精确的信息对数据进行分类的能力,较好的在不确定、不完整甚至矛盾信息的情况下,对数据进行分析和对位置的信息进行估计推测。

  • 2、在没有掌握有关对象域的知识的情况下,为了刻画模糊性,RS使用了一对称为(下近似) Lower approximation and (上近似)Upper approximation的精确概念来表示每个不精确概念。下近似和上近似的差是一个边界集合,它包含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的精确度,能偶很好的近似分类,得到可以接受质量的分类。

  • 3、在RS中,论域中的对象可用多种知识来描述(通常描述为属性)。当两个不同的对象有相同的属性来描述的时候,这两个对象在系统中被归为一类,它们的关系称之为不可分辨的关系或等价关系。不可分辨关系是RS理论的及时,它反映了论域知识的颗粒性。由于知识的颗粒性,使得通过现有的知识往往不能精确地认识每一个对象,属性相同的对象聚合在一起以颗粒的状态呈现在我们面前,彼此无法分辨开来。知识的粒度过大,则对象间得不到有效的区分;粒度过于精细,则造成知识的荣誉和低效。

  • 4、影响分类能力的属性很多,不同的属性重要程度不同,其中某些属性起决定性作用;属性的取值不同对分类能力也会产生影响。RS理论提出知识的约减方法,在保留基本知识,对对象的分类能力不变的基础上,消除重复、冗余的属性和属性值,实现了对知识的压缩和再提炼。冗余知识的存在,既造成对计算资源的浪费,又干扰人们作出正确而简洁的决策。RS理论是以知识的简约为核心,以减少结构化数据的维数,从而达到简化数据集合的目的。

RS的基本特点

RS的基本方法是使用等价关系将集合种的元素(对象)进行分类,生成集合的某种划分,与等价关系对应。根据等价关系的理论,同意分类(等价类)内的元素是不可分的,对信息的处理可以在等价类的粒度上进行,由此可以达到对信息进行简化的目的。RS是一种基于集合论的不确定信息处理方法,具有如下基本特点:

  • 1、RS是一种软计算(soft computing)方法,传统的知识处理是一种硬计算(hard computing)方法,使用精确、固定和不变的算法来表达和求解问题。而软计算方法则允许利用不精确、不确定和部分真实性以得到易于处理、鲁棒性强和成本低的解决方案,以便更好地与显示系统相协调。

  • 2、RS仅仅从数据本身进行分析,无需提供所要分析的样本数据之外的任何鲜艳只是或附加信息,不要预先给予主观评价,如统计学中要假定概率分布,模糊集中要给定隶属度,证据理论种要赋予似然值等。

  • 3、RS能分析各种数据,包括确定性和非确定性的;不精确和不完整的以及拥有众多变量的数据,并对数据进行简化,从而发现知识、推理决策规则,不仅是一种决策分析方法,而且是一种系统建模方法。系统模型是由求出的一组决策规则来表达,因此利用该组系统特性的表达公式建立的系统模型,我们可以进行系统预测、控制和决策分析等。

  • 4、RS与其他不确定方法一样,它们都是处理含糊性和不确定性问题的数学工具。但是它们又有不同之处:主观Bayes种不确定性看成是概率;D/S证据理论中,不确定性是可信度;模糊集理论中,不确定性是集合的隶属度;RS理论中,不确定性是上下近似集之差集,有确定的数学公式来描述,所以含糊元素的树木可以计算出来,这就使得边界域具有清晰的数学意义,大大减少了算法设计的随意性。

Comments