admin管理员组

文章数量:829170

神奇宝贝/数码宝贝分类器笔记

1.我们不利用classificaion而利用regression来分类的时候会遇到的问题

 在update的时候,regression因为一些噪点,或者偏离的点,逐渐将boundry远离了原本的目的函数,比如说图中的紫色和绿色。这是欧几里得距离或者说最小二乘法的一个缺点(弹幕里说)会惩罚那些太正确的点,在一边但是太过火的那些点。

理想情况怎么样呢

 输入数值,输出discrete(某个种类  )。

这个的loss函数难以用gd,因为这个没有微分啊,但是有另外两个的方法

 分类是用下面这个情况

 

 这个叫做generative modle,即为(生成模型),可以generate一个x出来,可以产生distribution,可以产生一个x,sample x

先计算p(c1)和p(c2 )。从第一个Water系里面sample出来一个宝可梦的几率是0.56

挑一只水系的,可能是海龟的几率?

如果从水系里面挑一只出来,是海龟的几率到底有多少 

gaussian distribution 高斯分布 

 输出vector是x,output是被sample出来的几率,是probability的density

同样的不同的,或者同样的,不同的都会有最高分布的不同,最高程度的一样,分布的散的不一样。

假如可以从79个点中估测出gaussian的(mean)

 

 可以理解为由样本生成高斯分布,再用海龟的数据去找到高斯分布的位置

 给一个新的点x,不在这个79个的sample里面

知道and,就可以吧gaus distribution 的 function给写出来,代入new x ,可以知道这个新的x被sample出来的几率。

怎么找这个 and ,使用的是maximum  likelihood

 任何一个高斯都有可能sample出来这个值

   只是有些的几率很低,有些的几率很好,但没有一个说是就等于0的,他们sample出这79个点的likelihood是不一样的,有的比较高,有的比较低。

如果给我某一个高斯,的  and ,我们就可以sample出这79个点的几率

 

此时有一个l,它的作用就是吧   and 代入到likelihood的function当中,之后就会告诉我们,这个   and sample出来这个79个点的几率到底有多大。

79个点是独立被sample出来的几率,所以总的几率就是sample出来每个点的几率。

 

现在的两个的mean和variance

现在可以 进行分类的

 已知了几个概率,一个是两个高斯分布,由此可知道p(x/c1)也可以额从高斯分布中得到

可以通过颜色来分类,右边红色的被分类成为水系,左边的被分类成为普通系。因为是用几率在分类,所以大于0.5的,现在用在test上面的测试正确率只有47%。但是现在只是二维的,也许我们能够使用高维空间来解决此类问题。机器学习的牛逼的地方,就是可以在高位的空间。

可以在七维的高位空间

 

 七维的高位空间,此时的正确率只有54%

 

此时来讲怎么去改进

(我觉得可以用图像识别能够去进行分类-因为种族值和到底是哪一种的关系不太大-说实话。不如看 )

不一定每一个class都有自己的一个高斯模型,比较常见的使用方法是,不同的 可以share同一个covariance matrix ,如果model都有differ 从covariance参数那么就有太多的parameter,容易过拟合。

 

 x79里面平均起来就是   ,唯一要考虑的就是 。但是   非常简单。是使用bishop chapter4.2.2。这部分真的太抽象了。使用共同的高斯的时候,covariance matrix是这样的。

共用之后,boundary变成了一条直线,这样的boundary是一个linear(线性)的model 。此时再考虑所有的feature(7个feature)此时的正确率就变成了73%(所以是为什么呢,需要进行机器学习可解释化,炼丹之术) 

 

 

哈哈哈哈为什么选这个probability distribution 是依据个人喜好的,哈哈哈哈。

如果每一个dimension,只有对角线才是1,得到一个更简单的模型,全部都在一维。朴素贝叶斯决策,各个特征独立。没有什么关系的话,甚至还有一些binary 的特征值。

 这里就有sigmoid function。

其他的就不再学习了。之后再补充吧

本文标签: 神奇宝贝数码宝贝分类器笔记