Talento

Colar inteligente reconhece comandos 'silenciosos' em inglês e mandarim
A tecnologia de reconhecimento de fala nos permite pedir a  Siri para verificar o tempo para amanha£ ou pedir a  Alexa para tocar nossa música favorita.
Por Tom Fleischman - 15/02/2022


Ruidong Zhang, estudante de doutorado na área de ciência da informação, demonstra o dispositivo de reconhecimento de fala silencioso SpeeChin. Crédito: Ryan Young/Cornell University

A tecnologia de reconhecimento de fala nos permite pedir a  Siri para verificar o tempo para amanha£ ou pedir a  Alexa para tocar nossa música favorita.

Mas essas tecnologias exigem fala auda­vel. E se uma pessoa não puder falar, ou se a fala vocalizada em um determinado ambiente não for apropriada?

Cheng Zhang, professor assistente de ciência da informação na Cornell Ann S. Bowers College of Computing and Information Science, e o estudante de doutorado Ruidong Zhang tem uma resposta: SpeeChin, um dispositivo de reconhecimento de fala silenciosa (SSR) que pode identificar comandos silenciosos usando imagens de deformação da pele no pescoa§o e no rosto capturada por uma ca¢mera infravermelha (IR) montada no pescoa§o.

A tecnologia édetalhada em "SpeeChin: A Smart Necklace for Silent Speech Recognition", publicado em 31 de dezembro na revista Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies .

Ruidong Zhang também apresentara¡ o artigo em outubro na conferaªncia Ubiquitous Computing (UbiComp 2022).

"Ha¡ duas perguntas: primeiro, por que um colar? E segundo, por que falar em silaªncio?" disse Zhang. "Sentimos que um colar éum fator de forma com o qual as pessoas estãoacostumadas, ao contra¡rio de dispositivos montados na orelha, que podem não ser tão conforta¡veis. No que diz respeito a  fala silenciosa, as pessoas podem pensar: 'Já tenho um dispositivo de reconhecimento de fala no meu computador. telefone.' Mas vocêprecisa vocalizar o som para eles, e isso nem sempre ésocialmente apropriado, ou a pessoa pode não conseguir vocalizar a fala."

“Este dispositivo tem o potencial de aprender os padraµes de fala de uma pessoa, mesmo com fala silenciosa ”, disse ele.

“Estamos introduzindo um fator de forma totalmente novo, um novo hardware, neste campo”, disse Ruidong Zhang, que construiu o prota³tipo original em 2020 em sua casa na China, enquanto completava o primeiro ano de seu programa de doutorado remotamente.

O dispositivo ésemelhante em aparaªncia ao NeckFace, uma tecnologia que Cheng Zhang e seus membros da equipe do SciFi Lab revelaram no ano passado. O NeckFace rastreia continuamente expressaµes faciais completas usando ca¢meras infravermelhas para capturar imagens do queixo e do rosto por baixo do pescoa§o.

Como o NeckFace, o SpeeChin possui uma ca¢mera IR montada em um estojo de colar impresso em 3D, que épendurado em uma corrente de prata com a ca¢mera apontando para o queixo do usua¡rio. Para maior estabilidade, os desenvolvedores projetaram uma asa de cada lado e colocaram uma moeda na parte inferior.
 
Conveniaªncia e privacidade, disse Cheng Zhang, são duas razões pelas quais uma ca¢mera IR montada em um colar pode ser prefera­vel a uma ca¢mera tradicional na frente do rosto. "Uma ca¢mera na frente do seu rosto estãotirando fotos do que estãoatrás de vocaª", disse ele, "e isso levanta preocupações com a privacidade".

Para a experimentação inicial, que contou com 20 participantes (10 falando inglês, 10 chinaªs mandarim), foram feitas medições para determinar a posição da linha de base do queixo e, em seguida, imagens diferenciais foram usadas para treinar o dispositivo a reconhecer comandos simples.

Ruidong Zhang fez com que os participantes pronunciassem 54 comandos em inglês, consistindo em da­gitos, comandos interativos, comandos de assistente de voz, comandos de pontuação e comandos de navegação. Ele então fez o mesmo com 44 palavras ou frases simples em mandarim.

SpeeChin reconheceu comandos em inglês e mandarim com uma precisão média de 90,5% e 91,6%, respectivamente. Para testar ainda mais seus limites, os pesquisadores conduziram outro estudo com 10 participantes, todos pronunciando silenciosamente uma lista especialmente projetada de 72 "não-palavras" de uma sa­laba usando fonemas - combinações de 18 consoantes e quatro vogais.

Finalmente, os pesquisadores recrutaram seis participantes para proferir 10 frases em mandarim e 10 em inglês enquanto caminhavam. As taxas de sucesso foram menores neste estudo, em parte devido a  variação nos estilos de caminhada (mais versus menos movimento da cabea§a, por exemplo) entre os participantes.

O projeto ilustra o poder da determinação: Ruidong Zhang construiu um laboratório em sua casa, completo com estação de solda, e recrutou pessoas em sua cidade natal como participantes do estudo.

"Mas como moro em uma cidade pequena e édifa­cil encontrar pessoas que falem inglês", disse ele, "na verdade acabamos em HangZhou, na Universidade de Zhejiang, para recrutar falantes de inglês. Foi uma experiência inesqueca­vel para mim".

 

.
.

Leia mais a seguir