很久之前参加过一次面试,面试题目让我记忆犹新。当时的面试过程大体是这样的:
面试官:你知道Logistic回归吗? 我:当然知道,很常用。 面试官:那么你觉着Logistic回归预测的概率该怎么解释?是某个个体成功的概率吗? 我:当然不是。如果只有一次观测,个体概率是估计不出来的。应该解释为,给定N个具有相同特征的个体,成功的比率等于估计出来的概率。
嗯,当时面试官不置可否,当然最后的面试结果是我被刷了(可能归功于我的经济学而非统计、计算机背景)
也许你觉着我上面说的有点拗口,也很难理解,当我们估计Logistic回归的时候,我们估计出的:
难道不该解释为个体成功的概率吗?
当我们说单独某个人成功的概率,应该是同一个人在相同的条件下重复100次,平均而言成功了多少次。如果记t为某个人尝试的次数,那么我们理想的模型(数据生成过程)应该是这样的:
然而,alternatively,现实的数据生成过程可能是这样的:
hello886 lgistic本身和概率没关系,只是为了将距离映射到0-1之间而已
tzjistzj 有意思
发明者量化-小小梦 哇 大佬 有时间讲讲,论坛这方面的讨论应该很有吸引力。