信息熵

信息熵 和 算法时间复杂度

本文仅仅是我个人的理解,发现错误请告诉我一下。 前几天虽然看完了吴军先生的《数学之美》,但一直搞不懂信息熵所以连带着也没搞懂 最大熵的原理,直到今天白天看了TopLanguage的一个讨论信息论的帖子 再经过晚上散步时思考才顿悟信息熵的意义。 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底...

fingerprint2 计算浏览器指纹分析

介绍 浏览器指纹简单来说就是获取浏览器一些具有辨识度的信息,计算得到的值,以此指纹信息可以对应此用户。辨识度的信息可以是 UA、时区、地理位置或者是你使用的语言等其他的参数,信息越多并且信息的区别度越大,越能决定浏览器指纹的准确性。 直接使用 fingerprint2 库 <script src="https://cdnjs.cloudflare.c...

Python机器学习(1)——决策树分类算法

1、决策树算法 决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归。不过对于一些特殊的逻辑分类会有困难。典型的如异或(XOR)逻辑,决策树并不擅长解决此类问题。 决策树的构建不是唯一的,遗憾的是最优决策树的构建属于NP问题。因此如何构建一棵好的决策树是研究的重点。 J. Ross Quinlan在1975提出将信息熵的概念引入决策...

从决策树到随机森林

这里仅介绍分类决策树。 决策树:特征作为决策的判断依据,整个模型形如树形结构,因此,称之为决策树 对于分类决策树,他们可以认为是一组if-then规则的集合。决策树的每一个内部节点有特征组成,叶子节点代表了分类的结果。父节点和子节点之间是由有向边连接,表示了决策的结果。 在这里,有必要解释一下,为什么决策树的学习过程变成了三个步骤:特征选择、决策树生成和剪...

自信息和互信息、信息熵

自信息的含义包括两个方面: 1.自信息表示事件发生前,事件发生的不确定性。 2.自信息表示事件发生后,事件所包含的信息量,是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。 互信息: 离散随机事件之间的互信息: 换句话说就是,事件x,y之间的互信息等于“x的自信息”减去 “y条件下x的自信息”。 I(x)表示x的不确定性,I(x|y)表示在y发生...

图像检索中类似度度量公式:各种距离(1)

基于内容的图像检索(Content-Based Image Retrieval)是指通过对图像视觉特征和上下文联系的分析,提取出图像的内容特征作为图像索引来得到所需的图像。 相似度度量方法 在基于内容的图像检索中须要通过计算查询和候选图像之间在视觉特征上的相似度匹配。 因此须要定义一个合适的视觉特征相似度度量方法对图像检索的效果无疑是一个非常大的影响。...