Publicado originalmente em *Desinformante por Matheus Soares. Para acessar, clique aqui.
Um coletivo de 12 órgãos internacionais de proteção de dados assinou uma carta conjunta, nesta semana, pedindo para que as plataformas digitais protejam as publicações e informações pessoais de usuários da extração massiva de dados para diferentes propósitos maliciosos, incluindo a criação de base de dados para sistemas de reconhecimento facial. O documento, apesar de não fazer menção direta à Inteligência Artificial, reforça a preocupação sobre os usos de dados disponíveis nas redes sociais para treinamento dessas tecnologias.
De acordo com a declaração, nos últimos anos, as autoridades nacionais de privacidade e segurança de dados estão identificando um aumento de incidentes envolvendo o “data scraping”, também conhecido como raspagem de dados, que consiste na extração automatizada de informações, especialmente de redes sociais e outros websites.
Por meio dessa atividade, segundo as autoridades, as informações pessoais publicadas pelos usuários em plataformas e sites, sujeitas às leis de proteção de dados e privacidade em diversas jurisdições, podem ser utilizadas por agentes maliciosos para aplicar fraudes ou ataques cibernéticos e monitorar indivíduos por meio de criação de banco de dados sem a autorização das pessoas.
Sendo assim, o coletivo reforça que as empresas de redes sociais e operadoras de websites que alojam dados pessoais acessíveis ao público têm obrigações por lei de proteger as informações pessoais dos usuários das coletas ilegais de dados. Para isso, os órgãos de segurança afirmam que as plataformas devem aplicar técnicas e processos de controle multicamada, como a criação de equipes internas para lidar com o assunto e delimitar um limite de acessos por hora ou por dia a perfis se for identificada atividade incomum.
“Dada a natureza dinâmica das ameaças de raspagem de dados, as empresas de redes sociais e outros sites devem monitorar continuamente e responder com agilidade a novos riscos e ameaças à segurança de atores mal-intencionados ou outros atores não autorizados à sua plataforma”, defendem os órgãos na carta.
O documento foi assinado por órgãos de privacidade de países como Austrália, Reino Unido, Canadá, México e Argentina. A versão, em inglês, está disponível aqui.
Extração de dados e treinamento de IA
A extração de dados que estão abertos ao público foi um dos motivos levantados pelas plataformas como Twitter e Reddit para o fechamento das suas respectivas APIs. Em junho, o coordenador do grupo de pesquisa R-EST vinculado à Universidade Federal de Minas Gerais (UFMG), Carlos d´Andréa explicou ao *desinformante que, além de buscar rentabilizar produtos e serviços, essas plataformas estão num esforço de “evitar extração massiva dos seus dados para treinamento de IA”.
Para um bom funcionamento, um sistema de IA precisa ser alimentado com uma grande quantidade de dados. Na época do seu lançamento, o ChatGPT, IA generativa da OpenAI, foi alimentada com textos disponíveis publicamente na Internet até 2021, como artigos publicados na Wikipedia.
Dora Kaufman, professora do TIDD PUC-SP, levanta a preocupação sobre a qualidade dessas bases de dados que são construídas para o treinamento dos sistemas automatizados. Utilizando como referência os escritores Richard Heimann e Clayton Pummill, Kaufman afirma que a grande escala dos bancos de dados impossibilita a curadoria ou até mesmo a auditoria para identificar se há presença de dados pessoais ou confidenciais, protegidos por direitos autorais e conteúdo impróprio ou antiético.
“Por essas e outras limitações, brotam sinais de que a magia inicial dos modelos de IA generativa não está se sustentando. O número de pessoas que visitam o site do ChatGPT e baixam seu aplicativo, por exemplo, caiu pela primeira vez desde seu lançamento, em novembro, e o tráfego móvel e de desktop para o site do ChatGPT em todo o mundo caiu 9,7% em junho em relação ao mês anterior, de acordo com a empresa de dados de internet Similarweb”, afirmou Kaufman na sua coluna.
Neste mês, o jornal The New York Times chegou a bloquear o mecanismo de web crawler, utilizado para mapear e indexar páginas e conteúdos postados na Internet web, da OpenAI. Com essa medida, o veículo norte-americano impede que seus textos e publicações sejam utilizadas para criação de banco de dados e treinamento dos produtos desenvolvidos pela gigante do setor de IA.
Dicas para usuários minimizarem riscos com segurança
A carta assinada pelas autoridades em segurança e privacidade também traz alguns passos que podem ser seguidos pelas pessoas para protegerem suas informações pessoais e, assim, diminuir os riscos da extração massiva e indesejada de dados. Abaixo, separamos mais algumas dicas fornecidas na declaração:
- Ler as informações nos termos das plataformas e sites sobre o compartilhamento de dados pessoais e a política de privacidade: isso ajudará que o indivíduo tome uma decisão informada sobre quais dados ele escolhe compartilhar com a plataforma;
- Refletir sobre a quantidade e tipos de informações compartilhadas: os indivíduos devem ser cautelosos na hora de compartilhar uma informação – principalmente sendo dados pessoais, números de contas ou de identificação -, considerando que elas podem colocá-lo em risco de assédio, fraude ou discriminação;
- Compreender e gerenciar as configurações de privacidade: embora as configurações de privacidade de usuários individuais só possam ir até certo ponto, elas podem e devem ajudar os indivíduos a aumentar o controle que têm sobre como suas informações pessoais são compartilhadas online. Consequentemente, os usuários do site devem considerar o uso dessas configurações para limitar as informações que tornam acessíveis ao público.