tl;dr_
Uno de los aspectos más destacados de este análisis / estudio es la capacidad de los modelos de IA para normalizar puntuaciones, garantizando una retroalimentación objetiva y estandarizada. Según el estudio realizado en octubre de 2024, se utilizaron metodologías como la normalización Min-Max, la estandarización mediante puntuaciones Z y la ponderación de variables para establecer un marco sólido que permite comparar objetivamente los distintos modelos y puntuaciones de pruebas de candidatos.
Por ejemplo, la normalización Min-Max fue aplicada a tres categorías principales de evaluación: corrección de código, explicación de errores y respuesta libre, cada una puntuándose de 0 a 100. Los modelos evaluados, demostraron puntuaciones que oscilaban entre 75 y 100 en cada una de estas categorías, con una variabilidad poco significativa dependiendo del enfoque del modelo.
Tipos de pruebas evaluadas_
Para evaluar las competencias técnicas de los candidatos, se llevaron a cabo diferentes tipos de pruebas que abarcan tanto el conocimiento teórico como las habilidades técnicas / prácticas. Estas pruebas se dividieron en tres categorías principales, cada una con un enfoque específico para medir las capacidades del candidato de manera integral:
- P1: Preguntas tipo test.
Estas preguntas están diseñadas para evaluar el conocimiento teórico del candidato sobre conceptos fundamentales relacionados con el área técnica. Los tests permiten obtener una visión rápida y objetiva sobre el nivel de comprensión de temas esenciales, como la sintaxis de un lenguaje de programación, conceptos de algoritmos, estructuras de datos, y otros aspectos relevantes. Las preguntas tipo test se puntúan automáticamente, lo que agiliza el proceso de evaluación y asegura la uniformidad en la corrección. - P2: Preguntas abiertas.
Las preguntas abiertas tienen como objetivo evaluar la capacidad del candidato para expresar sus ideas de manera clara y estructurada. A través de este tipo de preguntas, se puede conocer el nivel de profundidad con el que el candidato entiende ciertos conceptos, su capacidad para explicar problemas complejos, y cómo abordan desafíos teóricos. Además, permiten evaluar habilidades de comunicación, lo cual es fundamental para roles que requieren trabajo colaborativo y la transmisión efectiva de conocimientos. - P3: Preguntas de generación de código.
Estas pruebas están diseñadas para evaluar la habilidad práctica del candidato al momento de escribir código. Se le presenta un problema y se espera que el candidato desarrolle una solución funcional a través de la programación. Este tipo de prueba ayuda a medir la capacidad del candidato para aplicar sus conocimientos teóricos a problemas prácticos, su estilo de codificación, la eficiencia de su solución, y su habilidad para cumplir con los requisitos especificados. Además, permite observar cómo el candidato maneja las restricciones de tiempo y su capacidad para trabajar bajo presión.
Cada una de estas pruebas proporciona una visión diferente y complementaria de las habilidades de los candidatos, lo que permite realizar una evaluación integral y precisa de su aptitud para el puesto. La combinación de estas pruebas ayuda a identificar no solo el conocimiento técnico, sino también habilidades de resolución de problemas y comunicación, factores clave para el éxito en cualquier equipo de desarrollo tecnológico.
Datos arrojados_
1. Normalización Min-Max
La fórmula de normalización Min-Max ajusta las puntuaciones a un rango de [0, 1]:
Puntuación normalizada = (x – xmin) / (xmax – xmin)
- x: puntuación obtenida en la variable específica antes de la normalización.
- xmin: puntuación más baja registrada en esa variable entre todos los modelos evaluados.
- xmax: puntuación más alta registrada en esa variable.
2. Cálculo de las puntuaciones Z
La puntuación Z estandariza las puntuaciones, facilitando comparaciones entre variables con diferentes distribuciones:
Z = (x – μ) / σ
- x: puntuación normalizada de un modelo.
- μ: media de las puntuaciones normalizadas en esa variable.
- σ: desviación estándar de las puntuaciones normalizadas en esa variable.
3. Ponderación de las Variables
La fórmula para calcular la Puntuación Total ponderada asigna diferentes pesos a cada variable para reflejar su relevancia relativa en el análisis:
Puntuación Total = (ω1 × P1Normalizada) + (ω2 × P2Normalizada) + (ω3 × P3Normalizada)
- P1Normalizada, P2Normalizada, P3Normalizada: puntuaciones normalizadas de las preguntas 1, 2 y 3.
- ω1, ω2, ω3: pesos asignados a cada variable, en este caso, ω1 = 0.4, ω2 = 0.4 y ω3 = 0.2.
Modelo | Puntuación P1 | Puntuación P2 | Puntuación P3 |
---|---|---|---|
ChatGPT 4o | 90 | 95 | 85 |
ChatGPT 01-preview | 95 | 100 | 85 |
ChatGPT 01-mini | 90 | 95 | 88 |
ChatGPT 4o mini | 85 | 90 | 85 |
GPT 4 | 90 | 95 | 90 |
Claude 3.5 Sonnet | 95 | 90 | 80 |
Claude 3 Opus | 90 | 90 | 85 |
Claude 3 Haiku | 90 | 100 | 95 |
Gemini 1.5 Pro 002 | 90 | 90 | 75 |
Gemini 1.5 Flash 002 | 85 | 90 | 80 |
Llama 3.2 3b | 95 | 90 | 85 |
Llama 3.2 1b | 90 | 90 | 95 |
Mistral Large 2 | 85 | 95 | 90 |
Mistral Codestral | 95 | 95 | 90 |
Mistral Nemo | 90 | 95 | 90 |
Copilot | 90 | 95 | 85 |
Reducción de Tiempos de Respuesta
Uno de los beneficios más inmediatos de la implementación de un SaaS de IA para pruebas técnicas es la reducción de los tiempos de respuesta. El análisis mostró que la normalización Min-Max aplicada a los modelos permitió comparabilidad y equidad en las evaluaciones, eliminando la influencia de escalas originales y facilitando la comparación directa entre los modelos. Por ejemplo, la puntuación normalizada de ChatGPT 4o fue de 0.5, mientras que otros modelos como Claude 3 Haiku y ChatGPT 01-preview lograron una puntuación normalizada de 1.0. Esto implica que la IA puede puntuar la calidad y eficiencia de las respuestas de los candidatos de manera consistente, sin importar las diferencias de escala que podrían afectar a un evaluador humano. Esto no solo mejora la experiencia de los candidatos al ofrecer una retroalimentación más precisa y rápida, sino que además evita los sesgos que suelen estar presentes en las evaluaciones manuales.
Modelo | Puntuación Normalizada P1 | Puntuación Normalizada P2 | Puntuación Normalizada P3 |
ChatGPT 4o | 0.5 | 0.5 | 0.5 |
ChatGPT 01-preview | 1.0 | 1.0 | 0.5 |
ChatGPT 01-mini | 0.5 | 0.5 | 0.65 |
ChatGPT 4o mini | 0.0 | 0.0 | 0.5 |
GPT 4 | 0.5 | 0.5 | 0.75 |
Claude 3.5 Sonnet | 1.0 | 0.0 | 0.25 |
Claude 3 Opus | 0.5 | 0.0 | 0.25 |
Claude 3 Haiku | 0.5 | 1.0 | 1.0 |
Gemini 1.5 Pro 002 | 0.5 | 0.0 | 0.0 |
Gemini 1.5 Flash 002 | 0.0 | 0.0 | 0.25 |
Llama 3.2 3b | 1.0 | 0.0 | 0.25 |
Llama 3.2 1b | 0.5 | 0.0 | 1.0 |
Mistral Large 2 | 0.0 | 0.5 | 0.75 |
Mistral Codestral | 1.0 | 0.5 | 0.75 |
Mistral Nemo | 0.5 | 0.5 | 0.75 |
Copilot | 0.5 | 0.5 | 0.5 |
Impacto en la eficiencia del departamento de people / reclutamiento
El uso de IA para la evaluación de candidatos también tiene un impacto significativo en la eficiencia del departamento de reclutamiento. Un SaaS de IA puede aliviar las cargas de trabajo al encargarse de tareas repetitivas, como la corrección de pruebas técnicas y la generación de reportes, permitiendo que el equipo de reclutamiento se concentre en actividades estratégicas y de mayor valor, como la interacción con los candidatos y la mejora de la experiencia del proceso de selección.
Los datos del análisis mostraron cómo el uso de la normalización Min-Max y la estandarización mediante puntuaciones Z resultó en una reducción de la variabilidad en las puntuaciones y en una mayor consistencia en la evaluación de las competencias técnicas. Este proceso asegura una evaluación justa y equitativa, beneficiando tanto a los aspirantes como a la empresa al garantizar que todos los candidatos sean evaluados con los mismos criterios.
Reducción del “Time-to-Market” en la adquisión de talento
Otro aspecto clave es el impacto en el “time-to-market” cuando existe la necesidad de incorporar a un candidato de manera urgente. En situaciones donde la incorporación rápida de talento es esencial, contar con un sistema que pueda realizar evaluaciones técnicas de manera inmediata es una ventaja competitiva. El análisis mostró que los modelos de IA, al ser capaces de realizar evaluaciones estandarizadas y consistentes, pueden reducir significativamente el tiempo necesario para completar el ciclo de selección. Modelos como ChatGPT 01-preview y Claude 3 Haiku, que obtuvieron puntuaciones superiores a la media con valores Z de 2.00 y 1.33 respectivamente, demostraron un rendimiento excepcional en la corrección y retroalimentación de pruebas técnicas, superando significativamente el promedio de los modelos evaluados. Esto indica que el uso de estos modelos no solo acelera el proceso de selección, sino que también asegura que los candidatos seleccionados cumplen con los estándares de calidad requeridos.
Modelo | Puntuación Z P1 | Puntuación Z P2 | Puntuación Z P3 |
ChatGPT 4o | -0.095 | 0.539 | -0.156 |
ChatGPT 01-preview | 1.424 | 1.977 | 1.977 |
ChatGPT 01-mini | -0.095 | 0.539 | 0.539 |
ChatGPT 4o mini | -1.616 | -0.898 | -0.898 |
GPT 4 | -0.095 | 0.539 | 0.539 |
Claude 3.5 Sonnet | 1.424 | -0.898 | -0.898 |
Claude 3 Opus | -0.095 | -0.898 | -0.898 |
Claude 3 Haiku | -0.095 | 1.977 | 1.977 |
Gemini 1.5 Pro 002 | -0.095 | -0.898 | -0.898 |
Gemini 1.5 Flash 002 | -1.616 | -0.898 | -0.898 |
Llama 3.2 3b | 1.424 | -0.898 | -0.898 |
Llama 3.2 1b | -0.095 | -0.898 | 1.977 |
Mistral Large 2 | -1.616 | 0.539 | 0.539 |
Mistral Codestral | 1.424 | 0.539 | 0.539 |
Mistral Nemo | -0.095 | 0.539 | 0.539 |
Copilot | -0.095 | 0.539 | -0.156 |
Conclusión
La implementación de un SaaS de inteligencia artificial para la evaluación de pruebas técnicas tiene múltiples beneficios que incluyen la mejora de la experiencia de los candidatos, la reducción de cargas de trabajo en los departamentos de reclutamiento, la agilización de los procesos de selección y la garantía de una evaluación justa y equitativa. Los datos del análisis demuestran que los modelos de IA pueden proporcionar puntuaciones precisas y estandarizadas, lo cual no solo optimiza la selección de talento, sino que además proyecta una imagen de innovación y eficiencia en el mercado. Para las empresas que buscan mantenerse competitivas y atraer a los mejores talentos, adoptar una solución de este tipo representa una inversión estratégica con un impacto positivo a largo plazo.
Si quieres que te envíe el estudio, ponte en contacto.