机器学习相关的面试问题

摘要:
机器学习:伪码实现:LR、梯度下降、最小二乘、KNN、Kmeans;基本知识:1)监督与非监督的区别;2) L1L2差异;3) 生成模型和判别模型的不同算法的优缺点以及相应的解决方案:k-means、KNN、apriori算法原理:LR、KNN,k-means,apriori,ID3,SVM,神经网络,协同过滤,em算法常见问题:1)SVM算法的原理,如何组织训练数据,如何调整惩罚因子,如何防止过度拟合,支持向量机的泛化能力,增量学习2)神经网络参数相关性。

机器学习:

伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans;

基本知识:1)监督与非监督区别;2)L1L2区别;3)生成模型和判别模型区别

算法的优缺点以及相应解决方案:k-means, KNN, apriori

算法原理:LR、KNN、k-means、apriori、ID3(C45,CART)、SVM、神经网络,协同过滤,em算法

常见问题:

1)svm算法的原理、如何组织训练数据、如何调节惩罚因子、如何防止过拟合、svm的泛化能力、增量学习

2)神经网络参数相关。比如,参数的范围?如何防止过拟合?隐藏层点的个数多了怎样少了怎样?什么情况下参数是负数?

3)为什么要用逻辑回归?

4)决策树算法是按什么来进行分类的?

5) 朴素贝叶斯公式

6) 讲em算法

7)svm中rbf核函数与高斯和函数的比较

8)说一下SVM的实现和运用过程

9)谈谈DNN

10)简单说说决策树分析

11)推荐系统中基于svd方法

12)SVM有哪些优势,(x,y,z)三个特征如何用径向基核函数抽取第四维特征

13)userCF和ItemCF在实际当中如何使用,提供具体操作,以及它们的优势(推荐系统)

14)如何用Logic regression建立一个广告点击次数预测模型

15)举一个适合采用层次分析法的例子

17)关联分析中的极大频繁项集;FP增长算法

18)线性分类器与非线性分类器的区别及优劣

19)特征比数据量还大时,选择什么样的分类器

20)对于维度很高的特征,你是选择线性还是非线性分类器

21) 对于维度极低的特征,你是选择线性还是非线性分类器

22) 如何解决过拟合问题

23)  L1和L2正则的区别,如何选择L1和L2正则

24) 随机森林的学习过程

25) 随机森林中的每一棵树是如何学习的

26) 随机森林学习算法中CART树的基尼指数是什么

27)支持向量机、图模型、波尔茨曼机,内存压缩、红黑树、并行度

28) 如何搭建一个推荐平台,给出具体的想法,
29) 实现一个中文输入法

30) k-meanshift的机制,能不能用伪码实现
31)实现最小二乘法。。




实例数量远小于特征数量

如果特征数量很多,我们可能不需要将输入空间转换到一个更高维的空间就能拟合训练数据。也就是说,非线性转换并不能明显提升效果。那么使用Linear kernel就足够了,而且只需要寻一个最优参数C。

实例数量和特征数量都很大

当然选Linear Kernel啦,因为特征数量足够多保证Linear kernel效果并不差,而对于实例数量很多,Linear kernel比RBF效率高很多。

实例数量远大于特征数量

免责声明:文章转载自《机器学习相关的面试问题》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇visual studio 和 sql server 的激活密钥序列号Python2.X和Python3.X中Tkinter模块的文件对话框、下拉列表的不同下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

机器学习之朴素贝叶斯及高斯判别分析

1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊...

机器学习优化器总结

一、梯度下降法 1、标准梯度下降法(GD) 公式:Wt+1=Wt−ηtΔJ(Wt) 其中,WtWt表示tt时刻的模型参数。 从表达式来看,模型参数的更新调整,与代价函数关于模型参数的梯度有关,即沿着梯度的方向不断减小模型参数,从而最小化代价函数。 基本策略可以理解为”在有限视距内寻找最快路径下山“,因此每走一步,参考当前位置最陡的方向(即梯度)进而迈出下一...

Separate to Adapt: Open Set Domain Adaptation via Progressive Separation论文笔记

Separate to Adapt: Open Set Domain Adaptation via Progressive Separation论文笔记 Abstract Domain adaptation问题在利用源域的标注数据为未标记的目标域学习准确的分类器方面已经有较大成功,但是Open Set Domain Adaptation问题中的目标域中存在...

动手学深度学习-导入python模块:d2l_pytorch

importsys #其中将".."里面的..换成d2lzh_pytorch文件夹的上一级路径 sys.path.append("..") from d2lzh_pytorch import * 其中错误:OSError: libtorch_cpu.so: cannot open shared object file: No such file or d...

阿里大数据竞赛season1 总结

关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果; 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是归一化环境是不可少的; 3. 将部分代码传到了**github** 4. 听说阿里又改赛制了,哈哈。 最近好累啊,简单总结一下吧。 碎碎念 这个比赛自己...

解决多标签分类问题的技术

多标签分类基本上,有三种方法来解决一个多标签分类问题,即: 问题转换 改编算法 集成方法 4.1问题转换 在这个方法中,我们将尝试把多标签问题转换为单标签问题。这种方法可以用三种不同的方式进行: 二元关联(Binary Relevance) 分类器链(Classifier Chains) 标签Powerset(Label Powerset) 4.4...