Cuando un asistente virtual se hace público, las empresas se enfrentan a múltiples preguntas que, en última instancia, tienen que ver con la calidad. ¿Cómo puedo medir la calidad de mi solución conversacional?
Una forma de medir la calidad de nuestra formación de Asistente Virtual es aplicar una prueba de medición de la asertividad.
Aunque el significado de este último término expresa una habilidad social, actualmente se utiliza dentro de la comunidad para describir la capacidad de los asistentes virtuales para dar una respuesta correcta o adecuada a una pregunta concreta de un usuario que se ha expresado de una forma que no estaba directamente entrenada en el chatbot o asistente virtual.
Hay varias formas de medir correctamente la asertividad, pero se pueden agrupar en tres formas principales de medir que aumentan en complejidad y coste.
1. Índice indirecto de asertividad:
Cuando hablamos de «fallback», nos referimos a una respuesta en la que el asistente no estaba formado y respondió con un mensaje del tipo «no lo he entendido».
De este modo, se puede crear el indicador más sencillo de la asertividad, que sería tomar el número total de retrocesos y dividirlo por el número de interacciones que entraron en el bot durante un periodo.
Esto daría una tasa de retroceso, y su complemento sería la asertividad, por lo que estamos hablando de una tasa de asertividad indirecta. Sirve para saber aproximadamente el volumen de preguntas que llegan para las que el bot no ha sido entrenado, respondiendo a las que no entiende.
2. Tasa de asertividad estricta:
En el otro extremo, la forma más compleja de medir la asertividad requiere el acuerdo común de dos o más partes que seleccionen una muestra representativa de entradas o ejemplos reales de usuarios con los que se medirá el sistema y, a continuación, anoten manualmente cada una de las entradas con sus salidas, es decir, la respuesta que el sistema dio realmente, e identifiquen si la frase pertenece al dominio de conocimiento del bot y si la clasificación o respuesta que dio fue adecuada o no.
Una vez que el grupo de anotadores ha realizado la evaluación pertinente del mismo conjunto de datos, se evalúa el grado de acuerdo entre ellos, ya que es posible que alguno de ellos haya considerado que todo era pertinente y adecuado de forma aleatoria.
Una sencilla prueba estadística permite resolverlo, creando una colección anotada de gran valor para seguir mejorando la formación. El trabajo es engorroso y lleva mucho tiempo, e incluso requiere cierta formación de los anotadores. Esta forma de medir el Índice de Asertividad Estricta sólo se recomienda en los casos en que el indicador esté vinculado a alguna obligación que requiera una demostración formal.
3. Tasa de asertividad semiautomatizada:
Un enfoque intermedio es el procedimiento de cálculo de la Tasa de Asertividad Semiautomatizada, que ahorra tiempo y suele ser una fórmula ideal en contextos ágiles en los que es necesario medir y actualizar la calidad de nuestro Asistente Virtual demostrando su valor.
Según el tipo de solución conversacional, el cálculo se hará identificando primero toda la formación, vinculándola con las respuestas que se medirán. Con esta entrada, se genera una tabla en la que aparecen las frases reales y la respuesta que «debería» haberse recibido.
Esta tarea suele abreviarse utilizando simplemente la intención que debería haber clasificado esa frase. Como en la práctica suele ser necesario un esfuerzo manual en esta parte, aparece la parte «semi» del nombre del indicador. En algunos casos, es posible automatizar todo el flujo de principio a fin, pero suele haber condiciones que dificultan esta tarea.
A continuación, un segundo bot externo «enviará» las frases al asistente virtual. El asistente responderá con su respuesta y esa respuesta se guardará, dando lugar a una colección de datos que contiene cada una de las entradas reales del usuario, la clasificación que debería haberse entregado y la clasificación que se entregó.
Finalmente, se crea una matriz con la frecuencia de clasificaciones correctas e incorrectas, creando así el indicador de tasa de asertividad por excelencia, que nos permite identificar con un buen nivel de detalle y de forma relativamente rápida cuáles son los dominios de conocimiento que el bot no maneja y en los que el entrenamiento falla más en un indicador familiar expresado en porcentaje.
La primera idea que hemos visto generada en estas experiencias de medición es la necesidad de fusionar algunas respuestas, para evitar confundir al motor de diálogo que ejecuta el asistente.
Hay infinitas formas de combinar estas medidas y los tres niveles son bastante didácticos para describir su complejidad. Normalmente, se añaden más pasos a la medición a medida que surgen los requisitos propios de cada asistente virtual.
Disponer de una medición adecuada de la asertividad de nuestro bot asegurará su calidad con el apoyo de un indicador que repercute en la experiencia del usuario y en la evaluación final del asistente virtual. Con la medición viene un proceso posterior de reentrenamiento que debe llevarse a cabo con cuidado para evitar que disminuya la capacidad de generalización del modelo en nuevos casos para los que no fue entrenado.
Otra lectura interesante: Un asistente virtual dijo: Lo siento, no lo he entendido bien, todavía estoy aprendiendo, ¿puedes escribirlo de otra manera?