enterprise miner 怎么看决策树是否overfitting?

2024年11月15日 16:17
有1个网友回答
网友(1):

1、我认为模型是用训练数据集训练出来的,然后用验证数据集来验证就可以看出是否过度拟合

我这里是SAS9.4中文版的,使用“简单随机”抽样方法,该方法使得两个数据集没有交集,能够更好验证是否过度拟合

一种方法是比较ROC值,如果训练的比验证的要高的很多,那么过度拟合可能性很大

这个图我顺便找数据做得,蓝线是过度拟合的决策树,训练过程中蓝线比绿线好;而验证过程中绿线比蓝线要好一点点,这就说明,蓝色那个有过度拟合的嫌疑。

2、

决策树拆分方法中对于区间列名型变量可以使用probf、probchisq拆分方法!这里就涉及到T 、F检验,其中-log(P)中的P就是统计量P值

这个是在决策树模块中的“交互式”选项中出现的,属于建立自定义决策树。

打开交互式决策树如下图:

工具栏中有个拆分节点就是你说说的list of variables with -logP values和 split
node