La Red de Conocimientos Pedagógicos - Currículum vitae - Documento sobre cirugía de inteligencia artificial

Documento sobre cirugía de inteligencia artificial

Google llevó a cabo un estudio exploratorio que demuestra que la tecnología de mejora del habla, específicamente los supresores de ruido, también podría usarse con implantes cocleares para mejorar la comprensión de los sonidos por parte de los usuarios en entornos ruidosos.

Un implante coclear es un dispositivo electrónico que se puede colocar quirúrgicamente en el oído interno de una persona con discapacidad auditiva y emite corriente eléctrica a través de una unidad de procesamiento de audio externa para estimular los nervios. Si bien los implantes cocleares pueden estimular estas corrientes eléctricas y convertirlas en habla audible, la experiencia auditiva puede variar mucho dependiendo del entorno del usuario, especialmente en entornos ruidosos. Los implantes cocleares modernos utilizan una unidad de procesamiento de audio externa para calcular señales de pulso para accionar los electrodos, y un desafío importante en este campo ha sido encontrar una manera de procesar bien el sonido y convertirlo en pulsos de electrodos adecuados.

Para resolver este problema, científicos de la industria y el mundo académico realizaron un hackathon sobre implantes cocleares para intercambiar ideas, y Google propuso utilizar el modelo de mejora del habla Solve Tasnacht en implantes cocleares para suprimir los sonidos no relacionados con el habla, permitiendo a los usuarios escuchar voces humanas con mayor claridad. Los investigadores dividieron el audio en 16 bandas superpuestas, correspondientes a los 16 electrodos del implante coclear. Sin embargo, debido a que el rango dinámico de los sonidos puede abarcar fácilmente muchos órdenes de magnitud más allá de lo que se espera que representen las descargas eléctricas, los investigadores deben utilizar métodos paradigmáticos para comprimir el rango dinámico.

Los usuarios de implantes cocleares tienen diferentes preferencias y la experiencia general proviene de las evaluaciones de los usuarios al escuchar varias categorías de audio, incluida la música. Los investigadores dicen que si bien la música es un tipo de sonido importante para los usuarios, también es una categoría particularmente difícil de procesar. Debido a que la red de mejora del habla de Google está capacitada para suprimir sonidos que no son del habla, incluidos el ruido y la música, toman medidas adicionales para evitar que la red de mejora del habla suprima los sonidos musicales. Para lograr esto, los investigadores utilizaron el clasificador de código abierto YAMNet para juzgar los sonidos del habla y los que no son del habla, ajustando así la proporción de audio mezclado en tiempo real para garantizar que no se filtre suficiente música y que el usuario pueda escucharla.

Los investigadores utilizaron el modelo conv-Tasnett para implementar un módulo de mejora para audio no hablado que puede separar diferentes sonidos. Inicialmente, la forma de onda de audio sin procesar se convierte en una forma que la red neuronal pueda utilizar y los sonidos se aíslan en función del análisis de características. El modelo interceptará características y generará dos máscaras, una para sonido y otra para ruido. Estos escudos representan niveles de sonido y ruido. Multiplicando las características enmascaradas y analizadas y algunos cálculos de transformación, se puede obtener audio con voz y ruido separados. Los investigadores mencionaron que el modelo conv-Tasnet tiene baja latencia y puede generar instantáneamente estimaciones que separan el habla y el ruido.

Después de las pruebas de escucha a ciegas, el resultado de esta investigación puede permitir a los oyentes comprender el contenido del habla cuando el entorno no contiene demasiado ruido de fondo, pero todavía hay mucho margen de mejora en la claridad del habla. Además, debido a que este estudio aún se encuentra en la fase exploratoria, los investigadores utilizaron un modelo con 2,9 millones de variables, que es demasiado grande para implementarse prácticamente en los implantes cocleares actuales, solo para demostrar el potencial futuro de esta tecnología.