Um novo ataque de inferência que pode permitir o acesso a dados confidenciais do usuário
À medida que o uso de algoritmos de aprendizado de máquina (ML) continua a crescer, os cientistas da computação em todo o mundo estão constantemente tentando identificar e abordar maneiras pelas quais esses algoritmos podem ser usados...
Um exemplo de ilustração de VFL. A parte B é uma empresa financeira com as características 1 e 2, e a parte A é um banco com as características 3 e 4. Eles colaboram para treinar um modelo prevendo se um pedido de empréstimo deve ser aprovado. Crédito: Morteza Varasteh.
À medida que o uso de algoritmos de aprendizado de máquina (ML) continua a crescer, os cientistas da computação em todo o mundo estão constantemente tentando identificar e abordar maneiras pelas quais esses algoritmos podem ser usados ??de forma maliciosa ou inadequada. Devido às suas capacidades avançadas de análise de dados, de fato, as abordagens de ML têm o potencial de permitir que terceiros acessem dados privados ou realizem ataques cibernéticos de forma rápida e eficaz.
Morteza Varasteh, pesquisador da Universidade de Essex, no Reino Unido, identificou recentemente um novo tipo de ataque de inferência que pode comprometer dados confidenciais do usuário e compartilhá-los com outras partes. Esse ataque, detalhado em um artigo pré-publicado no arXiv , explora o aprendizado federado vertical (VFL), um cenário de ML distribuído no qual duas partes diferentes possuem informações diferentes sobre os mesmos indivíduos (clientes).
"Este trabalho é baseado em minha colaboração anterior com um colega do Nokia Bell Labs, onde introduzimos uma abordagem para extrair informações privadas do usuário em um data center, conhecido como parte passiva (por exemplo, uma seguradora)", disse Varasteh à Tech . Xplore. "A parte passiva colabora com outro centro de dados , referido como a parte ativa (por exemplo, um banco), para construir um algoritmo de ML (por exemplo, um algoritmo de aprovação de crédito para o banco)."
O principal objetivo do estudo recente de Varasteh foi mostrar que, depois de desenvolver um modelo de ML em um ambiente de aprendizado federado vertical (VFL), uma chamada "parte ativa" poderia potencialmente extrair informações confidenciais de usuários, que são compartilhadas apenas com o outra parte envolvida na construção do modelo ML. A parte ativa pode fazer isso utilizando seus próprios dados disponíveis em combinação com outras informações sobre o modelo de ML.
É importante ressaltar que isso pode ser feito sem fazer uma consulta sobre um usuário da outra parte. Isso significa que, por exemplo, se um banco e uma seguradora desenvolverem um algoritmo de ML de forma colaborativa, o banco poderá usar o modelo para obter informações sobre seus próprios clientes que também são clientes da seguradora, sem obter sua permissão.
"Considere um cenário em que um banco e uma seguradora têm muitos clientes em comum, com os clientes compartilhando algumas informações com o banco e outras com a seguradora", explicou Varasteh. "Para construir um modelo de aprovação de crédito mais poderoso, o banco colabora com a seguradora na criação de um algoritmo de aprendizado de máquina (ML). O modelo é construído e o banco o utiliza para processar pedidos de empréstimo, incluindo um de um cliente chamado Alex , que também é cliente da seguradora."
No cenário descrito por Varasteh, o banco pode estar interessado em descobrir quais informações Alex (o usuário hipotético que eles compartilham com uma seguradora) compartilhou com a seguradora. Essas informações são privadas, é claro, então a seguradora não pode compartilhá-las livremente com o banco.
“Para superar isso, o banco poderia criar outro modelo de ML com base em seus próprios dados para imitar o modelo de ML construído em colaboração com a seguradora”, disse Varasteh. "O modelo ML autônomo produz estimativas da situação geral de Alex na seguradora, levando em consideração os dados compartilhados por Alex com o banco. Uma vez que o banco tenha essa visão aproximada da situação de Alex e também usando os parâmetros do modelo VFL, eles pode usar um conjunto de equações para resolver as informações privadas de Alex, compartilhadas apenas com a companhia de seguros."
O ataque de inferência descrito por Varasteh em seu artigo é relevante para todos os cenários em que duas partes (por exemplo, bancos, empresas, organizações, etc.) compartilham alguns usuários comuns e mantêm os dados confidenciais desses usuários. A execução desses tipos de ataques exigiria que uma parte "ativa" contratasse desenvolvedores para criar modelos autônomos de ML, uma tarefa que agora está se tornando mais fácil de realizar.
"Mostramos que um banco (ou seja, parte ativa) pode usar seus dados disponíveis para estimar o resultado do modelo VFL que foi construído em colaboração com uma seguradora", disse Varasteh.
"Uma vez obtida essa estimativa, é possível resolver um conjunto de equações matemáticas usando os parâmetros do modelo VFL para obter as informações privadas do usuário hipotético Alex. Vale a pena notar que as informações privadas de Alex não devem ser conhecidas por ninguém. Embora Além disso, algumas contramedidas foram introduzidas no artigo para evitar esse tipo de ataque, o ataque em si ainda é uma parte notável dos resultados da pesquisa."
O trabalho de Varasteh lança uma nova luz sobre os possíveis usos maliciosos de modelos de ML para acessar ilicitamente as informações pessoais dos usuários. Notavelmente, o cenário de ataque e violação de dados que ele identificou não havia sido explorado na literatura anterior.
Em seu artigo, o pesquisador da Universidade de Essex propõe esquemas de preservação da privacidade (PPSs) que poderiam proteger os usuários desse tipo de ataque de inferência. Esses esquemas são projetados para distorcer os parâmetros de um modelo VFL que correspondem a recursos de dados mantidos por uma chamada parte passiva, como a seguradora no cenário delineado por Varasteh. Ao distorcer esses parâmetros em graus variados, as partes passivas que ajudam de forma colaborativa uma parte ativa a construir um modelo de ML podem reduzir o risco de que a parte ativa acesse os dados confidenciais de seus clientes.
Este trabalho recente pode inspirar outros pesquisadores a avaliar os riscos do ataque de inferência recém-descoberto e identificar ataques semelhantes no futuro. Enquanto isso, Varasteh pretende examinar ainda mais as estruturas do VFL, procurando possíveis brechas de privacidade e desenvolvendo algoritmos que possam fechá-las com o mínimo de dano a todas as partes envolvidas.
"O objetivo principal do VFL é permitir a construção de modelos de ML poderosos, garantindo que a privacidade do usuário seja preservada", acrescentou Varasteh. "No entanto, existe uma dicotomia sutil no VFL entre a parte passiva, que é responsável por manter as informações do usuário seguras, e a parte ativa, que visa obter uma melhor compreensão do modelo VFL e seus resultados. Fornecendo esclarecimentos sobre os resultados do modelo pode levar inerentemente a formas de extrair informações privadas. Portanto, ainda há muito trabalho a ser feito em ambos os lados e para vários cenários no contexto do VFL."
Mais informações: Morteza Varasteh, Privacy Against Agnostic Inference Attacks in Vertical Federated Learning, arXiv (2023). DOI: 10.48550/arxiv.2302.05545
Informações da revista: arXiv