概率计算

假设检验(Hypothesis Testing)

假设检验的定义 假设检验:先对总体参数提出某种假设,然后利用样本数据判断假设是否成立。在逻辑上,假设检验采用了反证法,即先提出假设,再通过适当的统计学方法证明这个假设基本不可能是真的。(说“基本”是因为统计得出的结果来自于随机样本,结论不可能是绝对的,所以我们只能根据概率上的一些依据进行相关的判断。) 假设检验依据的是小概率思想,即小概率事件在一次试验中基...

机器学习分类算法之朴素贝叶斯

一、概念 朴素贝叶斯模型(Naive Bayesian Model,NBM)是以条件概率为基础的分类器,是一种监督算法,常被用于文本分类和垃圾邮件过滤。贝叶斯理论解决的是逆向概率问题,即通过已经发生的已知的概率来推测未发生的事将会发生的概率。  二、计算 朴素贝叶斯各个事件发生的概率是彼此独立的,即m事件概率P(m)和n事件概率P(n)同时发生的概率为P(...

概率与期望在oi中的有关公式及其应用

考完THUSC2019回来的我发现自己对概率与期望一无所知... 因此这一篇应该是填一个(给自己)挖了差不多两年的坑... 接下来详细介绍概率与期望问题: (接下来所有内容均是按个人理解进行的表述,如有问题请不吝指出!) 一.概率 定义:在大量进行的实验中,一个事件发生的频率会稳定在一个定值,这个定值称为这个事件的概率 古典概型:如果可能发生的结果数量为$...

Recurrent Neural Network系列2--利用Python,Theano实现RNN

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS TUTORIAL, PART 2 – IMPLEMENTING A RNN WITH PYTHON, NUMPY AND THEANO 。 github地址 在...

机器学习之线性回归---logistic回归---softmax回归

在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它与深度学习/无监督学习方法的结合。(译者注: MNIST...

机器学习 —— 概率图模型(推理:消息传递算法)

  概率图模型G(V,E)由节点V和边E构成。在之前马尔科夫模型相关的博客中,我谈到马尔科夫模型的本质是当两个人交流后,其意见(两个随机变量)同意0与不同意1的概率组合。而势函数表达的是两个意见相同或者相左的程度。   我们搞的那么麻烦,最后想要得到的不就是每个意见正确与否(随机变量取不同值的概率)吗?与其采用解析的方法去算,去把所有其他的变量边际掉,那干...

机器学习 —— 概率图模型(推理:团树算法)

  在之前的消息传递算法中,谈到了聚类图模型的一些性质。其中就有消息不能形成闭环,否则会导致“假消息传到最后我自己都信了”。为了解决这种问题,引入了一种称为团树(clique tree)的数据结构,树模型没有图模型中的环,所以此模型要比图模型更健壮,更容易收敛。 1.团树模型   链模型是一种最简单的树模型,其结构如下图所示,假设信息从最左端传入则有以下式...

零基础入门深度学习(5)

无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就out了?现在救命稻草来了,《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识,只要会写程序就行了,...

Data Mining | 二分类模型评估-ROC/AUC/K-S/GINI

目录 1 混淆矩阵衍生指标 1.1 ROC 1.2 AUC 1.3 K-S 1.4 GINI 1.5 小结 1 混淆矩阵衍生指标 上面提到的ACC、PPV、TPR、FPR等指标,都是对某一给定分类结果的评估,而绝大多数模型都能产生好多份分类结果(通过调整阈值),所以它们的评估是单一的、片面的,并不能全面地评估模型的效果。因此,需要引入新的评估指标...

机器学习 -- 统计与分布

      机器学习中用到的一些统计方面的概念。 1. 标准差     公式:       假设一个班有30个学生,每个学生的语文课的考试成绩是 Xi, 平均分是80,标准差 不是每个学生的成绩减去平均分的平方的和,再除以学生数,然后再开方。     意义: 标准差越大,表示学生之间的水平相差较大。 2. 加权均值     平均值计算时,按照权重的。比如...