Apple prepara a Siri para que detecte y se adapte a los usuarios que tartamudean mediante una investigación y un catálogo de podcasts

Para los usuarios que tartamudean, la versión actual de Siri suele interpretar las pausas en el habla como el final de un comando de voz.

Apple está investigando formas de mejorar su asistente de voz Siri para los usuarios con patrones de habla atípicos, según confirma la compañía al Wall Street Journal. Según el informe, Apple está aprovechando su biblioteca de podcasts para obtener muestras de habla que podrían preparar a Siri para adaptarse a los usuarios que hablan con tartamudez.

Esta es la noticia del informe del Wall Street Journal:

La compañía está investigando cómo detectar automáticamente si alguien habla con tartamudez, y ha construido un banco de 28.000 clips de audio de podcasts que presentan tartamudez para ayudar a hacerlo, según un documento de investigación que será publicado por los empleados de Apple esta semana y que fue visto por el Wall Street Journal.

Por ahora, Apple confía en su función “Hold to Talk” como método para interactuar con Siri sin que el asistente de voz corte a los usuarios con patrones de habla más lentos de lo que está afinado, pero interactuar físicamente con un dispositivo no siempre es conveniente.

Siri puede activarse por voz en iPhones, iPads y Macs, y especialmente en HomePod y HomePod mini, utilizando el comando de voz “Hey Siri” seguido de una petición. Sin embargo, para los usuarios que tartamudean, la versión actual de Siri suele interpretar las pausas en el habla como el final de un comando de voz. A su vez, esto impide que el asistente de voz alcance todo su potencial para un conjunto de clientes.

El amigo del sitio Steve Aquino señaló el documento de investigación de Apple al que hace referencia el informe del WSJ.

Este es el resumen de la investigación de Apple:

La capacidad de detectar automáticamente eventos de tartamudez en el habla podría ayudar a los patólogos del habla a rastrear la fluidez de un individuo a lo largo del tiempo o a mejorar los sistemas de reconocimiento del habla para personas con patrones de habla atípicos. A pesar del creciente interés en esta área, los conjuntos de datos públicos existentes son demasiado pequeños para construir sistemas de detección de disfluencia generalizables y carecen de suficientes anotaciones. En este trabajo, presentamos los Eventos de Tartamudez en Podcasts (SEP-28k), un conjunto de datos que contiene más de 28k clips etiquetados con cinco tipos de eventos, incluyendo bloques, prolongaciones, repeticiones de sonido, repeticiones de palabras e interjecciones. El audio proviene de podcasts públicos que consisten en su mayoría en personas que tartamudean entrevistando a otras personas que tartamudean. Comparamos un conjunto de modelos acústicos con SEP-28k y el conjunto de datos público FluencyBank y destacamos cómo el simple hecho de aumentar la cantidad de datos de entrenamiento mejora el rendimiento relativo de la detección en un 28% y un 24% de F1 en cada uno de ellos. Las anotaciones de más de 32.000 clips de ambos conjuntos de datos se harán públicas.

El documento de investigación reconoce que el enfoque actual para afinar Siri para la disfluencia es un enfoque, sigue habiendo una oportunidad para mejorar el esfuerzo utilizando modelos de lenguaje y otros métodos.

Por último, Apple concluye que, si bien su investigación actual se centra en los usuarios que tartamudean, la investigación futura debería explorar otras categorías, como la disartria, que tienen características diferentes.

Zac Hall

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

You May Also Like