Home Blogs Readings Notes Jupyter Seafile

机器学习和深度学习常见知识点

31 August 2019

ML&DL QA knowledge

Ref: https://nndl.github.io/

Q13 如何进行模型调优

A13 神经网络表达能力强,但也存在两大问题。非凸优化以及过拟合。

Q14 简述下CNN,TextCNN的原理,1*1的filter有什么用

A14 CNN指的是卷积神经网络的。其网络架构主要卷积层,池化层以及全链接层。以手写问题为例其计算过程主要如下:

Q8 RNN,LSTM,GRU的联系和区别,能否画出对应结构图

https://arxiv.org/pdf/1506.02078.pdf https://arxiv.org/pdf/1412.3555.pdf 先来说说RNN和LSTM以及GRU的区别。

Q8-1 LSTM的激活函数为什么分别采用了sigmoid和tanh,对mem信息和输入信息采用加法操作有什么好处?

A8-1 sigmoid主要是用在i,f,o三个门控单元上,之所以用sigmoid是因为其在值在0,1区间上并且可微,更符合门控单元的物理意义。而tanh其值区间在-1,1是用来对内存单元信息进行调整。加法操作能够在反向传播的过程中基本不会分散梯度,能让内存单元c的梯度反向传播很长区间而不打断。

Q15 表示学习是指的什么?

https://arxiv.org/abs/1206.5538

Q1 什么是机器学习,如何运用机器学习,怎么高效的使用

A1 机器学习是一种运用基于统计算法的从数据中挖掘业务价值的方法。其目前主要应用领域有计算广告,金融风控,智能交互等,目前定位宽泛点说可以是一种提高生产效率的工具。那么如何高效使用其实是和各个领域的业务问题有着密不可分的关系。根据具体的业务问题特点去选择合适的算法模型进行建模,然后得到比较有价值的模型。

Q2 什么是梯度消失,如何解决

A2 梯度消失这种现象主要出现在深度神经网络DNN和循环神经网络中。

Q3 GBDT和XGB的联系和区别有哪些

A3 GBDT是梯度提升决策树的简称,属于集成学习里面boosting算法的一种。boosting的算法通常是由n个基准模型对数据进行连续学习,并通过重点关注前面模型分错的数据进行模型调整,从而达到学习目标的。GBDT也是类似流程,不过其主要是通过学习模型预测结果和实际值之间的残差来进行模型训练。CART回归树来作为基础模型。XGB也是GBDT模型的一种。其相对于典型的GBDT主要有以下几点:

Q3-1 XGB有什么缺点?

A3-1 XGB的不足之处主要表现在三个方面:

Q4 什么是过拟合,如何解决

过拟合是指模型学到了训练数据中比较特异性的特征,在训练数据表现很好,在测试数据和其他数据表现很差。 对于传统模型比较通用的解决方法有

Q5 L1和L2正则化有什么特点,为什么,分别适合什么场景

L1和L2正则化都是对通过添加在目标函数后对模型参数空间进行调整的方法。L1倾向于将模型参数稀疏化,有特征选择的作用。L2则倾向于对不重要的特征赋予较低的权重值,对模型参数进行平滑。之所以能产生如此的效果和L1,L2的计算方式以及和目标函数的结合方式有关。函数加和的效果等效于对目标函数的求解加上了对应的限制条件。因此权重的分布空间就是在L1,L2的限定空间内。

Q6 有哪些正则化方法?(针对过拟合有什么解决办法?) https://arxiv.org/pdf/1611.03530.pdf https://arxiv.org/pdf/1710.05468.pdf

Q6 什么是梯度优化,常见的优化算法有哪些?梯度提升和梯度下降有什么关系

梯度优化是指用梯度变化信息求解目标函数在特定约束下最优解的过程。在函数的最优解求解一般有凸函数和非凸函数两种。对于凸函数来说,其有全局唯一最优解,而对于非凸函数则是有多个局部最优解。梯度优化就是求解函数最优解的一种方法。

Q6-1 什么是线性模型,什么是非线性模型

线性分类器是指对于由模型函数为0解的特征空间组成的一个线性分类超平面。简单来说,分类边界是线性超平面的就是线性模型,反之为非线性模型。

Q6-2 模型参数和超参数有什么区别

模型本身的参数,可以通过学习得到的。超参数是定义模型结构或者优化过程的,这类是超参数。超参数的最优解是一个组合优化过程,学习不到。

Q6-3 miniBatch有什么好处

A6-3 miniBatch的好处主要是相对单个样本和全部样来说的

Q15 BatchNormalization 和 LayerNormalization分别解决了什么问题?

A15

二者的计算方式的区别是一个是针对Batch内的每个特征维度,LN则是针对Batch内的每个样本维度。

Q16 Bagging和Boosting分别适用什么场景?

A16 bagging主要目标是降低目标函数的方差,并行化好,训练速度快。boosting 则是针对学错的数据不断进行修正,模型的偏差小。因此在过拟合不严重的情况下可以用boosting类算法提高效果,数据不足的情况下可以bagging的方式防止过拟合。

-->
Fork me on GitHub