#¡Hola a todos, espero que estén muy bien

1 messages · Page 1 of 1 (latest)

rare copper
#

Para empezar, lo que haces se me hace muy interesante, pero debido a la naturaleza de tus datos, considero que es complicado arrancar con un modelo no supervisado, como una red neuronal. Muchos se dejan llevar por esa tendencia, pero no siempre es lo adecuado para un problema tan simple.

Primero que nada, te recomendaría optar por un modelo de regresión logística multivariable para predecir o clasificar tus datos (por ejemplo, “aprobado” o “no aprobado”). La regresión logística es ideal para clasificación binaria, ya que a diferencia de la regresión lineal, se ajusta mejor a este tipo de problemas. Eso sí, tendrás que tratar los datos cualitativos (como el nivel de educación) ya sea eliminándolos o convirtiéndolos a variables dummy (hot encoding), lo que le añade un poco de complejidad.

#

Por otra parte, pienso que un árbol binario es una alternativa muy sólida. Este modelo toma rangos y parámetros para tomar decisiones de forma similar a un IF, pero de manera mucho más potente y automatizada. Básicamente, le pasas la estructura (por ejemplo, el número de niveles) y la librería se encarga del resto. Esto lo hace especialmente adecuado cuando ya tienes una calificación directa en tus datos.

Si lo que buscas es generar datos sintéticos, no te recomiendo hacerlo únicamente con funciones random. Existen alternativas más robustas, como random.normal o incluso funciones de NumPy, que permiten generar datos con una distribución más controlada y normalizada. Lo ideal es que estos datos sintéticos se generen con un sentido y propósito, validando que la puntuación (por ejemplo, el umbral de 0.7) esté en línea con otros parámetros del dataset. Así, si la puntuación máxima es 0.7 para que un candidato sea considerado adecuado, te sugeriría variar en ciertos rangos y ajustar los demás campos para reflejar niveles coherentes de desempeño, en lugar de hacerlo de forma aleatoria.

#

Además, las máquinas de soporte vectorial (SVM) pueden ser una opción interesante. SVM es un algoritmo de clasificación muy robusto, ideal si en algún momento deseas experimentar con modelos que capten posibles no linealidades en los datos. Eso sí, si tus datos son unidimensionales o tienen pocas variables, quizás la regresión logística o el árbol binario sean opciones más sencillas y efectivas.