算法模型选择实用指导

July 06 2016

在面对众多纷杂的算法模型的时候,我们该如何去选择一个比较合适的模型呢?不用思考的方法是把能拿到的模型都试一遍,最后哪个表现好就选哪个。这种做法在我们对数据一无所知以及模型尝试成本低的时候很值得一试。但是,如果我们不对每个模型的适用情况有所了解的话,那么后期就没法结合数据和模型各自的特点做出更好的效果。下面就简单对常见模型的适用情况做一个介绍。

阅读接下来的内容需要对LR,SVM,NB,DT,RF,NN,GBDT,XGBOOST这些算法模型有所了解。

LR=Logistic regression  
SVM=Support Vector Machine  
NB=Naive Bayes  
DT=Decision Tree  
RF=Random Forests  
NN=Neural networks  
GBDT=Gradient Boosting Decision Tree  
XGBOOST=Extreme Gradient Boosting  

模型的选择需要考虑的因素主要的有以下几个方面:

主要从三个方面来汇总:

一、常见算法模型适用情况

LR

适用:

不适用

SVM

适用

不适用

数据量大的情况时不太合适

DT

适用

不适用

NB

适用:

NN

适用

集成学习方法

RF,GBDT,XGBOOST

适用

对比

二、模型选择原则

三、模型选择决策图

参考: