A tecnologia de reconhecimento de fala nos permite pedir a Siri para verificar o tempo para amanha£ ou pedir a Alexa para tocar nossa música favorita.
Ruidong Zhang, estudante de doutorado na área de ciência da informação, demonstra o dispositivo de reconhecimento de fala silencioso SpeeChin. Crédito: Ryan Young/Cornell University
A tecnologia de reconhecimento de fala nos permite pedir a Siri para verificar o tempo para amanha£ ou pedir a Alexa para tocar nossa música favorita.
Mas essas tecnologias exigem fala audavel. E se uma pessoa não puder falar, ou se a fala vocalizada em um determinado ambiente não for apropriada?
Cheng Zhang, professor assistente de ciência da informação na Cornell Ann S. Bowers College of Computing and Information Science, e o estudante de doutorado Ruidong Zhang tem uma resposta: SpeeChin, um dispositivo de reconhecimento de fala silenciosa (SSR) que pode identificar comandos silenciosos usando imagens de deformação da pele no pescoa§o e no rosto capturada por uma ca¢mera infravermelha (IR) montada no pescoa§o.
A tecnologia édetalhada em "SpeeChin: A Smart Necklace for Silent Speech Recognition", publicado em 31 de dezembro na revista Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies .
Ruidong Zhang também apresentara¡ o artigo em outubro na conferaªncia Ubiquitous Computing (UbiComp 2022).
"Ha¡ duas perguntas: primeiro, por que um colar? E segundo, por que falar em silaªncio?" disse Zhang. "Sentimos que um colar éum fator de forma com o qual as pessoas estãoacostumadas, ao contra¡rio de dispositivos montados na orelha, que podem não ser tão conforta¡veis. No que diz respeito a fala silenciosa, as pessoas podem pensar: 'Já tenho um dispositivo de reconhecimento de fala no meu computador. telefone.' Mas vocêprecisa vocalizar o som para eles, e isso nem sempre ésocialmente apropriado, ou a pessoa pode não conseguir vocalizar a fala."
“Este dispositivo tem o potencial de aprender os padraµes de fala de uma pessoa, mesmo com fala silenciosa â€, disse ele.
“Estamos introduzindo um fator de forma totalmente novo, um novo hardware, neste campoâ€, disse Ruidong Zhang, que construiu o prota³tipo original em 2020 em sua casa na China, enquanto completava o primeiro ano de seu programa de doutorado remotamente.
O dispositivo ésemelhante em aparaªncia ao NeckFace, uma tecnologia que Cheng Zhang e seus membros da equipe do SciFi Lab revelaram no ano passado. O NeckFace rastreia continuamente expressaµes faciais completas usando ca¢meras infravermelhas para capturar imagens do queixo e do rosto por baixo do pescoa§o.
Como o NeckFace, o SpeeChin possui uma ca¢mera IR montada em um estojo de colar impresso em 3D, que épendurado em uma corrente de prata com a ca¢mera apontando para o queixo do usua¡rio. Para maior estabilidade, os desenvolvedores projetaram uma asa de cada lado e colocaram uma moeda na parte inferior.
Â
Conveniaªncia e privacidade, disse Cheng Zhang, são duas razões pelas quais uma ca¢mera IR montada em um colar pode ser preferavel a uma ca¢mera tradicional na frente do rosto. "Uma ca¢mera na frente do seu rosto estãotirando fotos do que estãoatrás de vocaª", disse ele, "e isso levanta preocupações com a privacidade".
Para a experimentação inicial, que contou com 20 participantes (10 falando inglês, 10 chinaªs mandarim), foram feitas medições para determinar a posição da linha de base do queixo e, em seguida, imagens diferenciais foram usadas para treinar o dispositivo a reconhecer comandos simples.
Ruidong Zhang fez com que os participantes pronunciassem 54 comandos em inglês, consistindo em dagitos, comandos interativos, comandos de assistente de voz, comandos de pontuação e comandos de navegação. Ele então fez o mesmo com 44 palavras ou frases simples em mandarim.
SpeeChin reconheceu comandos em inglês e mandarim com uma precisão média de 90,5% e 91,6%, respectivamente. Para testar ainda mais seus limites, os pesquisadores conduziram outro estudo com 10 participantes, todos pronunciando silenciosamente uma lista especialmente projetada de 72 "não-palavras" de uma salaba usando fonemas - combinações de 18 consoantes e quatro vogais.
Finalmente, os pesquisadores recrutaram seis participantes para proferir 10 frases em mandarim e 10 em inglês enquanto caminhavam. As taxas de sucesso foram menores neste estudo, em parte devido a variação nos estilos de caminhada (mais versus menos movimento da cabea§a, por exemplo) entre os participantes.
O projeto ilustra o poder da determinação: Ruidong Zhang construiu um laboratório em sua casa, completo com estação de solda, e recrutou pessoas em sua cidade natal como participantes do estudo.
"Mas como moro em uma cidade pequena e édifacil encontrar pessoas que falem inglês", disse ele, "na verdade acabamos em HangZhou, na Universidade de Zhejiang, para recrutar falantes de inglês. Foi uma experiência inesquecavel para mim".