Os pesquisadores desenvolveram um manãtodo para usar o aprendizado de ma¡quina para identificar contas maliciosas da Internet, ou trolls, com base em seu comportamento passado.
Uma equipe de pesquisa liderada pela Universidade de Princeton desenvolveu uma técnica para rastrear campanhas de desinformação estrangeira on-line em tempo real, o que poderia ajudar a mitigar interferaªncias externas nas eleições americanas de 2020. Crédito: Egan Jimenez, Universidade de Princeton
Uma equipe de pesquisa liderada pela Universidade de Princeton desenvolveu uma técnica para rastrear campanhas de desinformação estrangeira on-line em tempo real, o que poderia ajudar a mitigar interferaªncias externas nas eleições americanas de 2020.
Os pesquisadores desenvolveram um manãtodo para usar o aprendizado de ma¡quina para identificar contas maliciosas da Internet, ou trolls, com base em seu comportamento passado. Destaque no Science Advances , o modelo investigou campanhas anteriores de desinformação da China, Raºssia e Venezuela que foram travadas contra os Estados Unidos antes e depois das eleições de 2016.
A equipe identificou os padraµes dessas campanhas, analisando as postagens no Twitter e Reddit e os hiperlinks ou URLs que eles incluaam. Apa³s realizar uma sanãrie de testes, eles descobriram que seu modelo era eficaz na identificação de postagens e contas que faziam parte de uma campanha de influaªncia estrangeira, incluindo aquelas de contas que nunca haviam sido usadas antes.
Eles esperam que os engenheiros de software possam desenvolver seu trabalho para criar um sistema de monitoramento em tempo real para expor a influaªncia estrangeira na polatica americana.
"O que nossa pesquisa significa éque vocêpode estimar em tempo real quanto dela existe e o que eles estãofalando", disse Jacob N. Shapiro, professor de polatica e assuntos internacionais da Escola Paºblica e Internacional de Princeton. Romances. "Nãoéperfeito, mas forçaria esses atores a serem mais criativos e possivelmente interrompera¡ seus esforços. Vocaª pode imaginar o quanto isso poderia ser melhor se alguém enviasse os esforços de engenharia para otimiza¡-lo".
Shapiro e o pesquisador associado Meysam Alizadeh conduziram o estudo com Joshua Tucker, professor de polatica da Universidade de Nova York, e Cody Buntain, professor assistente de informa¡tica no Instituto de Tecnologia de Nova Jersey.
"O povo americano merece entender o quanto estãosendo feito porpaíses estrangeiros para influenciar nossa polatica", disse Shapiro. "Esses resultados sugerem que fornecer esse conhecimento étecnicamente via¡vel. Atualmente, o que nos falta éa vontade e o financiamento polaticos, e isso éuma farsa".
A equipe começou com uma pergunta simples: usando apenas recursos baseados em conteaºdo e exemplos de atividades conhecidas da campanha de influaªncia, vocêpoderia examinar outro conteaºdo e saber se uma determinada postagem fazia parte de uma campanha de influaªncia?
Eles escolheram investigar uma unidade conhecida como "par postURL", que ésimplesmente uma postagem com um hiperlink. Para ter influaªncia real, operações coordenadas requerem intenso compartilhamento de informações humanas e controladas por bots. A equipe teorizou que postagens semelhantes podem aparecer com frequência nas plataformas ao longo do tempo.
Eles combinaram dados de campanhas trolls do Twitter e do Reddit com um rico conjunto de dados de posts de usuários politicamente engajados e usuários comuns coletados ao longo de muitos anos pelo Centro de Madias Sociais e Polatica da NYU (CSMaP). Os dados do troll incluaam dados publicamente disponíveis no Twitter e no Reddit de trolls chineses, russos e venezuelanos, totalizando 8.000 contas e 7,2 milhões de posts do final de 2015 a 2019.
Â
"Nãopoderaamos ter conduzido a análise sem esse conjunto de dados de comparação de linha de base de tweets comuns e comuns", disse Tucker, co-diretor do CSMaP. "Na³s o usamos para treinar o modelo para distinguir entre os tweets das campanhas de influaªncia coordenada e os dos usuários comuns".
A equipe considerou as caracteristicas da postagem em si, como o tempo, a contagem de palavras ou se o domanio URL mencionado éum site de notacias. Eles também analisaram o que chamaram de "metacontent" ou como as mensagens em uma postagem se relacionavam com outras informações compartilhadas naquele momento (por exemplo, se um URL estava nos 25 principais domanios polaticos compartilhados por trolls).
"A visão de Meysam sobre o metacontente foi fundamental", disse Shapiro. "Ele viu que poderaamos usar a ma¡quina para replicar a intuição humana de que 'algo neste post parece fora de lugar'." Os trolls e as pessoas normais geralmente incluem URLs de notacias locais em suas postagens, mas os trolls costumavam mencionar usuários diferentes nessas postagens, provavelmente porque estãotentando chamar a atenção do paºblico em uma nova direção. O Metacontent permite que o algoritmo encontre essas anomalias ".
A equipe testou seu manãtodo extensivamente, examinando o desempenho maªs a maªs em cinco tarefas diferentes de previsão em quatro campanhas de influaªncia. Em quase todos os 463 testes diferentes, ficou claro quais postagens faziam ou não parte de uma operação de influaªncia, o que significa que os recursos baseados em conteaºdo podem realmente ajudar a encontrar campanhas de influaªncia coordenadas nas madias sociais.
Em algunspaíses, os padraµes eram mais fa¡ceis de detectar do que outros. Os trolls venezuelanos apenas retweetaram certas pessoas e tópicos, facilitando sua detecção. Os trolls russos e chineses eram melhores em tornar seu conteaºdo orga¢nico, mas também podiam ser encontrados. No inicio de 2016, por exemplo, os trolls russos costumavam ser vinculados a URLs de extrema direita, o que era incomum devido aos outros aspectos de suas postagens e, no inicio de 2017, eles eram vinculados a sites polaticos de maneiras estranhas.
No geral, a atividade de trolls russos se tornou mais difacil de encontrar com o passar do tempo. a‰ possível que grupos de investigação ou outros tenham pego informações falsas, sinalizando os posts e forçando os trolls a mudar de ta¡tica ou abordagem, embora os russos também parea§am ter produzido menos em 2018 do que nos anos anteriores.
Embora a pesquisa mostre que não háum conjunto esta¡vel de caracteristicas que encontre esforços de influaªncia, ela também mostra que o conteaºdo de trolls quase sempre serádiferente de maneiras detecta¡veis. Em um conjunto de testes, os autores mostram que o manãtodo pode encontrar contas nunca antes usadas que fazem parte de uma campanha em andamento. E embora as plataformas de madia social excluam regularmente contas associadas a campanhas de desinformação estrangeiras, as descobertas da equipe podem levar a uma solução mais eficaz.
"Quando as plataformas proabem essas contas, não são dificulta a coleta de dados para encontrar contas semelhantes no futuro, mas também indica ao ator da desinformação que eles devem evitar o comportamento que levou a exclusão", disse Buntain. "Esse mecanismo permite [a plataforma] identificar essas contas, afasta¡-las do resto do Twitter e fazer parecer a esses atores como se eles continuassem compartilhando seu material de desinformação".
O trabalho destaca a importa¢ncia da pesquisa interdisciplinar entre ciências sociais e computacionais, bem como a criticidade do financiamento de arquivos de dados de pesquisa.
"O povo americano merece entender o quanto estãosendo feito porpaíses estrangeiros para influenciar nossa polatica", disse Shapiro. "Esses resultados sugerem que fornecer esse conhecimento étecnicamente via¡vel. Atualmente, o que nos falta éa vontade e o financiamento polaticos, e isso éuma farsa".
O manãtodo não épanaceia, alertaram os pesquisadores. Exige que alguém já tenha identificado atividades recentes da campanha de influaªncia para aprender. E como os diferentes recursos se combinam para indicar alterações de conteaºdo questiona¡vel ao longo do tempo e entre campanhas.