La tecnología para convertir tus pensamientos en texto ya está aquí

Aunque la forma de interactuar con los ordenadores y dispositivos electrónicos ha mejorado mucho en la última época –especialmente desde que se volvieron de uso común los sistemas de reconocimiento de voz– todavía queda un hito por resolver que es la famosa conversión de pensamientos a texto. De este modo bastaría literalmente con pensar en lo que se quiere hacer para transcribir un texto y con ello ejecutar una acción más o menos compleja.

Actualmente decir eso de “Ok, Google, muéstrame la ruta a la oficina” es algo corriente y que, hasta cierto punto, funciona. Pero idealmente bastaría pensar en esa misma frase (o incluso un pensamiento equivalente) para obtener la respuesta. Ahora la revista Frontiers in Neuroscience ha publicado un artículo de dos investigadores alemanes de la Universidad de Bremen que revisan el estado de la cuestión y su posible aplicación para el reconocimiento de voz en personas con problemas en el habla, ya sea por incapacidad o deterioro. De camino examinan muchas de las tecnologías que se utilizan en esta forma de comunicación alternativa entre humanos y ordenadores.

De cerebros humanos a “cerebros” binarios

El artículo enumera varios conceptos básicos, de los cuales el primero son las interfaces cerebro-ordenador (BCI, de Brain-Computer Interface). Los sistemas habituales emplean técnicas habituales del mapeado cerebral como son la resonancia magnética funcional (fRMI) o la espectroscopia del infrarrojo cercano (fNIRS), que miden la cantidad de oxígeno en la sangre en ciertas zonas. Esta es la opción menos invasiva, el clásico gorrito que hemos visto en tantas fotos: los datos se pueden transmitir desde sensores situados en la cabeza de una personaal ordenador que los procesa, donde el software de una red neuronal artificial los registra, aprende y compara para ejecutar ciertas acciones.

Los investigadores han conseguido convertir pensamientos en texto usando electrodos

La principal limitación es que el número de «estados mentales» ha sido tradicionalmente muy limitado, variando desde una opción binaria (sí/no) a tres o más estados con cierta probabilidad de acierto, por ejemplo al pensar en una zona de la pantalla, en un color o un movimiento.

Una acción compleja como es escribir una frase puede hacerse palabra por palabra y letra por letra, seleccionándolas en paneles que van mostrando opciones, al estilo de la famosa silla/ordenador del profesor Stephen Hawking, que actuaba mediante un pequeño mando. Pero a diferencia de otros sistemas que tras el entrenamiento pueden reconocer decenas de palabras simplesconvertir un pensamiento completo en una nueva frase correctamente escrita no es tan fácil.

Los datos se pueden transmitir desde sensores situados en la cabeza de una persona al ordenador que los procesa

En un punto intermedio están sistemas como los que de Herff y Schultz, del Laboratorio de Sistemas Cognitivos de la Universidad de Bremen. Utilizan las mismas técnicas de interfaz cerebro-ordenador y reconocimiento de voz pero con usuarios con dificultades en el habla. De este modo alguien con el habla deteriorada puede hablarle al ordenador y que éste reconozca lo que quiere decir.

Limitaciones y complicaciones

El principal problema es que las interfaces como las resonancias fRMI y otros basados en señales metabólicas (“cantidad de oxígeno en sangre”) suceden de forma demasiada lenta en comparación con la velocidad a la que hablamos (y pensamos al hablar). La fNIRS funciona aproximadamente a la misma velocidad que la fRMI pero cubre un área mayor y resulta más barata en comparación.

Los sistemas más invasivos implican la inserción de electrodos en la cabeza, y difícilmente cubren todas las áreas del cerebro: aunque den con la zona adecuada para interpretar ciertas palabras se puede perder mucha información importante. Otros métodos como la electroencefalografía son demasiado sensibles a los movimientos, lo que los hace poco prácticos para tareas como convertir pensamientos en textos. Algo parecido le sucede a los sistemas de magnetoencefalografía (MEG).

Finalmente la electrocorticografía (ECoG) también tiene suficiente velocidad, cubre un área amplia del cerebro y no se ve afectada por los movimientos – de hecho se utiliza habitualmente al realizar cirugías a pacientes con epilepsia, de modo que resulta más prometedora, aunque también es invasiva.

La conversión de pensamiento a texto

La técnica habitual que los científicos utilizan es obtener los datos de dos formas simultáneas: por un lado, los datos en bruto que proceden del cerebro; por otro los audibles a través de micrófonos. Entonces se procede a clasificar los fonos o sonidos distinguibles en la comunicación.

Los sistemas más invasivos implican la inserción de electrodos en la cabeza, y difícilmente cubren todas las áreas del cerebro

En el caso de los investigadores alemanes experimentaron con pacientes con dificultades en el habla, combinando los sonidos que emitían con la información procedente de su cerebro mediante ECoG. Por ejemplo: quizá para decir la palabra “coche” pronunciaban “ko-e”, que sonaba igual que “coge”, pero el resultado sería distinto al tener en cuenta la información adicional obtenida en ese mismo instante mediante ECoG.

En esta parte final de la conversión de pensamiento-a-texto también se utiliza software similar al de los autocorrectores y los teclados predictivos, eliminando algunos errores y generando finalmente palabras y frases con sentido.

De momento lo que los científicos han demostrado es que es posible combinar la información de voz deteriorada y señales obtenidas mediante ECoG con software de reconocimiento de voz para realizar lo que han denominado “conversión de señales neuronales en texto con un alto grado de fiabilidad”. El hecho de que todavía se necesite implantar electrodos en los sujetos es una gran limitación, pero quizá pueda resolverse en el futuro con otras tecnologías.

fuente:http://tecnologia.elpais.com/tecnologia/2016/11/22/actualidad/1479828665_563569.html