系数

机器学习中的正则化问题(1)——概念

一般来说,监督学习就是最小化下面函数: [w^* = argmin_w sum_iL(y_i,;f(x_i;w)) + lambdaOmega(w) ] 对于第一部分——Loss函数,一般有如下几种情况: 如果是Square loss,那就是最小二乘了; 如果是Hinge Loss,那就是著名的SVM了; 如果是exp-Loss,那就是牛逼的 Boo...

句子相似度计算方法

W~J~T~E 一、基本方法  在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,那么求句子相似度方法有哪些呢? 编辑距离计算 杰卡德系数计算 TF 计算 TFIDF 计算 Word2Vec 计算  1)Word2Vec:其实就是将每一个词转换为向量的过程   这里我们可以直接下载训练好的 Word2Vec 模型,...

【机器学习】聚类分析的模型评估

  一、聚类算法中的距离   1. 单个样本之间的距离        余弦距离        在聚类分析中,一般需要对数据进行标准化,因为聚类数据会受数据量纲的影响。   在sklearn库中,可调用如下方法进行标准化: 1 from sklearn.preprocessing import StandardScaler 2 data = Standard...

线性函数拟合R语言示例

线性函数拟合(y=a+bx) 1.       R运行实例 R语言运行代码如下:绿色为要提供的数据,黄色标识信息为需要保存的。 x<-c(0.10,0.11, 0.12, 0.13, 0.14, 0.15,0.16, 0.17, 0.18, 0.20, 0.21, 0.23) y<-c(42.0,43.5, 45.0, 45.5, 45.0,...

量化参数QP:quantization parameter 以及 HEVC

一、介绍 1、量化就是把信号的连续取值映射成多个离散的幅值的过程,实现了信号取值多对一的映射。 2、残差数据进过变换之后,变换系数具有较大的取值范围,量化可以有效减小信号的取值范围,进而获得更好的压缩效果,量化是造成失真的根本原因   二、衡量失真的三种准则(分别有对应的公式): 1、均方差MSE 2、信噪比SNR 3、峰值信噪比PSNR   三、HEVC...