Saúde

Como a inteligência artificial devolveu a voz a uma mulher paralisada
A prescrição de Pat Bennett é um pouco mais complicada do que “Tome algumas aspirinas e me ligue de manhã”. Mas um quarteto de sensores do tamanho de uma aspirina infantil implantados em seu cérebro visam resolver uma condição que frustra...
Por Centro Médico da Universidade de Stanford - 23/08/2023


Uma participante da pesquisa do estudo sobre neuropróteses de fala do Dr. Edward Chang está conectada a computadores que traduzem seus sinais cerebrais enquanto ela tenta falar na fala e nos movimentos faciais de um avatar na segunda-feira, 22 de maio de 2023, em El Cerrito, Califórnia À esquerda está o coordenador de pesquisa clínica da UCSF, Max Dougherty. Crédito: Noah Berger

A prescrição de Pat Bennett é um pouco mais complicada do que “Tome algumas aspirinas e me ligue de manhã”. Mas um quarteto de sensores do tamanho de uma aspirina infantil implantados em seu cérebro visam resolver uma condição que frustra a ela e a outras pessoas: a perda da capacidade de falar de forma inteligível. Os dispositivos transmitem sinais de algumas regiões do cérebro de Bennett relacionadas à fala para um software de última geração que decodifica sua atividade cerebral e a converte em texto exibido na tela do computador.

Bennett, agora com 68 anos, é ex-diretor de recursos humanos e ex-hipismo que corria diariamente. Em 2012, ela foi diagnosticada com esclerose lateral amiotrófica , uma doença neurodegenerativa progressiva que ataca os neurônios que controlam o movimento, causando fraqueza física e eventual paralisia.

“Quando você pensa em ELA, pensa no impacto nos braços e nas pernas”, escreveu Bennett em uma entrevista realizada por e-mail. "Mas num grupo de pacientes com ELA, começa com dificuldades de fala. Não consigo falar."

Normalmente, a ELA se manifesta primeiro na periferia do corpo - braços e pernas, mãos e dedos. Para Bennett, a deterioração começou não na medula espinhal, como é típico, mas no tronco cerebral . Ela ainda pode se movimentar, vestir-se e usar os dedos para digitar, embora com dificuldade crescente. Mas ela não pode mais usar os músculos dos lábios, língua, laringe e mandíbula para enunciar claramente os fonemas - ou unidades de som, como "sh" - que são os blocos de construção da fala.

Embora o cérebro de Bennett ainda possa formular instruções para gerar esses fonemas, seus músculos não podem executar os comandos.

Em vez de treinar a IA para reconhecer palavras inteiras, os pesquisadores criaram um sistema que decodifica palavras de fonemas. Essas são as subunidades da fala que formam as palavras faladas da mesma forma que as letras formam as palavras escritas. "Hello", por exemplo, contém quatro fonemas: "HH", "AH", "L" e "OW".

Usando essa abordagem, o computador precisou apenas aprender 39 fonemas para decifrar qualquer palavra em inglês. Isso aumentou a precisão do sistema e o tornou três vezes mais rápido.

Em 29 de março de 2022, um neurocirurgião da Stanford Medicine colocou dois pequenos sensores cada um em duas regiões distintas – ambos implicados na produção da fala – ao longo da superfície do cérebro de Bennett. Os sensores são componentes de uma interface cérebro-computador intracortical, ou iBCI. Combinados com software de decodificação de última geração, eles são projetados para traduzir a atividade cerebral que acompanha as tentativas de fala em palavras em uma tela.

Cerca de um mês após a cirurgia, uma equipe de cientistas de Stanford iniciou sessões de pesquisa duas vezes por semana para treinar o software que estava interpretando seu discurso. Depois de quatro meses, as tentativas de expressão de Bennett estavam sendo convertidas em palavras em uma tela de computador a 62 palavras por minuto – mais de três vezes mais rápido que o recorde anterior de comunicação assistida por BCI.

“Esses resultados iniciais provaram o conceito e, eventualmente, a tecnologia o alcançará para torná-lo facilmente acessível a pessoas que não podem falar”, escreveu Bennett. "Para aqueles que não falam, isso significa que eles podem permanecer conectados ao mundo maior, talvez continuar trabalhando, manter amigos e relacionamentos familiares."

Aproximando-se da velocidade da fala

O ritmo de Bennett começa a se aproximar da taxa de aproximadamente 160 palavras por minuto de uma conversa natural entre falantes de inglês, disse Jaimie Henderson, MD, a cirurgiã que realizou a cirurgia.

"Mostramos que você pode decodificar a fala pretendida registrando a atividade de uma área muito pequena na superfície do cérebro", disse Henderson.

Henderson, professor de John e Jean Blume-Robert e Ruth Halperin no departamento de neurocirurgia, é o coautor sênior de um artigo descrevendo os resultados, publicado em 23 de agosto na Nature .

Seu coautor sênior, Krishna Shenoy, Ph.D., professor de engenharia elétrica e de bioengenharia, morreu antes da publicação do estudo.

Frank Willett, Ph.D., um cientista da equipe do Howard Hughes Medical Institute afiliado ao Neural Prosthetics Translational Lab, que Henderson e Shenoy cofundaram em 2009, compartilha a autoria principal do estudo com os alunos de pós-graduação Erin Kunz e Chaofei Fan.

Em 2021, Henderson, Shenoy e Willett foram coautores de um estudo publicado na Nature descrevendo seu sucesso na conversão da caligrafia imaginada de uma pessoa paralisada em texto em uma tela usando um iBCI, atingindo uma velocidade de 90 caracteres, ou 18 palavras, por minuto. —um recorde mundial até agora para uma metodologia relacionada ao iBCI.

Em 2021, Bennett conheceu o trabalho de Henderson e Shenoy. Ela entrou em contato com Henderson e se ofereceu para participar do ensaio clínico.

Como funciona

Os sensores que Henderson implantou no córtex cerebral de Bennett, a camada mais externa do cérebro, são matrizes quadradas de minúsculos eletrodos de silício. Cada matriz contém 64 eletrodos, dispostos em oito por oito grades e espaçados uns dos outros por uma distância de cerca de metade da espessura de um cartão de crédito. Os eletrodos penetram no córtex cerebral a uma profundidade aproximadamente igual à de duas moedas empilhadas.

As matrizes implantadas são presas a finos fios de ouro que saem por meio de pedestais aparafusados ??ao crânio, que são então conectados por cabo a um computador.

Um algoritmo de inteligência artificial recebe e decodifica informações eletrônicas que emanam do cérebro de Bennett, eventualmente aprendendo a distinguir a atividade cerebral distinta associada a suas tentativas de formular cada um dos 39 fonemas que compõem o inglês falado.

Ele alimenta seu melhor palpite sobre a sequência das tentativas de fonemas de Bennett em um chamado modelo de linguagem, essencialmente um sofisticado sistema de autocorreção, que converte os fluxos de fonemas na sequência de palavras que eles representam.

“Este sistema é treinado para saber quais palavras devem vir antes de outras e quais fonemas formam quais palavras”, explicou Willett. "Se alguns fonemas foram interpretados incorretamente, ainda é possível dar um bom palpite."

A prática leva à perfeição

Para ensinar o algoritmo a reconhecer quais padrões de atividade cerebral estavam associados a quais fonemas, Bennett participou de cerca de 25 sessões de treinamento, cada uma com duração de cerca de quatro horas, durante as quais ela tentou repetir frases escolhidas aleatoriamente em um grande conjunto de dados que consistia em amostras de conversas. entre pessoas falando ao telefone.

Um exemplo: "Só tem sido assim nos últimos cinco anos." Outro: "Saí bem no meio dela."

Enquanto ela tentava recitar cada frase, a atividade cerebral de Bennett, traduzida pelo decodificador em um fluxo de fonemas e depois reunida em palavras pelo sistema de autocorreção, era exibida na tela abaixo do original. Em seguida, uma nova frase aparecia na tela.

Bennett repetiu de 260 a 480 sentenças por sessão de treinamento. Todo o sistema continuou melhorando à medida que se familiarizou com a atividade cerebral de Bennett durante suas tentativas de fala.

A capacidade de tradução da fala pretendida do iCBI foi testada em frases diferentes daquelas usadas nas sessões de treinamento. Quando as sentenças e o modelo de linguagem de montagem de palavras foram restritos a um vocabulário de 50 palavras (caso em que as sentenças utilizadas foram extraídas de uma lista especial), a taxa de erro do sistema de tradução foi de 9,1%.

Quando o vocabulário foi expandido para 125.000 palavras (grande o suficiente para compor quase tudo o que você quisesse dizer), a taxa de erro subiu para 23,8% – longe de ser perfeita, mas um passo gigantesco em relação ao estado da arte anterior.

“Esta é uma prova científica de conceito, não um dispositivo real que as pessoas possam usar na vida cotidiana ”, disse Willett. "Mas é um grande avanço no sentido de restaurar a comunicação rápida para pessoas com paralisia que não conseguem falar."

“Imagine”, escreveu Bennett, “quão diferente será a realização de atividades cotidianas, como fazer compras, comparecer a compromissos, pedir comida, ir ao banco, falar ao telefone, expressar amor ou apreço – até mesmo discutir – quando pessoas não-verbais puderem comunicar seus pensamentos de maneira verbal. tempo real."

O dispositivo descrito neste estudo é licenciado apenas para uso investigativo e não está disponível comercialmente. O estudo, um ensaio clínico registrado, ocorreu sob a égide do BrainGate, um consórcio multi-institucional dedicado ao avanço do uso de BCIs em aplicações protéticas, liderado pelo co-autor do estudo Leigh Hochberg, MD, Ph.D., um neurologista e pesquisador afiliado ao Massachusetts General Hospital, à Brown University e ao VA Providence (Rhode Island) Health Care System.


Mais informações: Edward Chang et. al., Uma neuroprótese de alto desempenho para decodificação de fala e controle de avatar, Nature (2023). DOI: 10.1038/s41586-023-06443-4 www.nature.com/articles/s41586-023-06443-4

Francis Willett et. al., Uma neuroprótese de alto desempenho, Nature (2023). DOI: 10.1038/s41586-023-06377-x www.nature.com/articles/s41586-023-06377-x

Informações da revista: Nature

 

.
.

Leia mais a seguir