¿Por qué se dice que embolsar sirve para reducir la varianza, mientras que impulsar sirve para reducir el sesgo?
La diferencia entre impulso y embolsado de aprendizaje automático
La diferencia entre impulso y embolsado:
El modelo en embolsado es un modelo sólido con bajo sesgo y alta varianza . El objetivo es reducir la varianza. En el embolsado, el sesgo y la varianza de cada modelo son aproximadamente los mismos, pero la correlación mutua no es muy alta, por lo que generalmente no se puede reducir el sesgo, pero la varianza se puede reducir hasta cierto punto. Un embolsado típico es un bosque aleatorio.
Cada modelo de impulso es un modelo débil con un alto sesgo y una baja varianza. El objetivo es reducir el sesgo mediante el promedio. La idea básica del impulso es utilizar el método codicioso para minimizar la función de pérdida, lo que obviamente puede reducir la desviación, pero generalmente el modelo está altamente correlacionado, por lo que la varianza no se puede reducir significativamente. Un impulso típico es adaboost, y otro algoritmo de impulso paralelo comúnmente utilizado es GBDT (árbol de decisión de impulso de gradiente). Este tipo de algoritmo suele ser menos propenso a sobreajustarse.
Los modelos sobreajustados suelen tener una variación relativamente grande y se debe utilizar ensacado para corregirla.
Para los modelos insuficientemente adaptados, el Bias suele ser relativamente grande y se debe utilizar el refuerzo para corregirlo. Al utilizar el impulso, cada modelo puede ser más sencillo.
Un problema común en finanzas es usar solo regresión lineal, que generalmente no está bien ajustada, por lo que es necesario introducir algunas características no lineales para los modelos que no están bien ajustados. Si el efecto no es bueno, utilice otros métodos. Los métodos de ajuste excesivo, que normalmente utilizan bolsas, tendrán cierto efecto.