Dados públicos de 100 milhões de usuários do Facebook caíram na internet na semana passada, agrupados em um pacote facilmente encontrado em vários sites da rede. A notícia só prova algo que especialistas já sabiam: a possibilidade de qualquer informação ser coletada, agregada e analisada. O que se viu na semana passada é apenas uma pequena amostra do que pode ser feito. Os softwares que “varrem” a internet buscando e armazenando informações são chamados de “crawlers”, e é sobre eles que trata a coluna Segurança para o PC.
Como são feitos os sites de pesquisa
Se você já se perguntou como o Google, o Bing e outros sites de buscas
conseguem pesquisar tantas páginas na internet, saiba que a resposta é
realmente a mais simples possível: o Google visita os sites, segue
automaticamente cada link e salva as páginas que acessar.
Depois entra a parte complexa do processo, que é de fato a “mágica” do Google e que permite que as páginas sejam encontradas – é aí que mora o diferencial de cada site de pesquisa.
Se o crawler não visitou alguma página na internet – talvez porque ninguém fez links para ela – ou o software não conseguiu entender a informação que está em uma página, ela não será localizada pelos sites de busca. Mas os crawlers são continuamente melhorados para que todas as informações sejam coletadas.
Cem milhões de nomes
O código que coletou os dados do Facebook é muito simples. O próprio
autor admitiu limitações, como, por exemplo, o fato de ele não acessar
as páginas dos amigos dos perfis públicos.
Crawlers de sites de busca seguem links, mas, para isso, têm alguns pontos pelos quais eles “começam” a varrer a internet. O diretório público do Facebook é uma lista de perfis públicos da rede social e, por isso, pode ser um excelente ponto de partida, e foram exatamente esses perfis que o código analisou para compilar a lista de 100 milhões de usuários do Facebook – ou um quinto da rede social, de acordo com dados recentes.
Só o nome de cada perfil foi armazenado, embora todas as informações públicas pudessem ser copiadas. O desafio seria o volume de informação, difícil de ser processado e arquivado. Mesmo assim, o crawler usado era rudimentar.
Se você ainda não teve ideia de um ponto de partida de um crawler para Orkut, pense nas comunidades populares, que chegam a ter mais de um milhão de membros. Várias têm uma lista de membros pública e, mesmo quando esse não é o caso, é fácil conseguir acesso a essas informações. Depois de salvar todos os links dos perfis, basta analisar os perfis dos amigos e refazer o processo. Logo, o montante de perfis teria um volume respeitável.
Agregando e analisando
Depois de ter copiado os dados públicos de todos os perfis, há possibilidades infinitas a respeito de como essas informações podem ser usadas. Uma vez agregadas, é possível realizar análises, cruzar comunidades e também informações. Por exemplo, qual o curso superior mais comum entre quem está em determinadas comunidades de informática? Tendo os dados agregados, essa pergunta poderia ser facilmente respondida.
Se você não vê utilidade para isso, confie na criatividade dos criminosos e dos especialistas. Só os nomes registrados nos perfis do Facebook já serão suficientes para servir de complemento a um software que quebra senhas. Com os dados, o especialista conseguiu determinar quais os nomes mais comuns. Isso é útil para ataques do tipo dicionário, que tentam quebrar senhas usando listas de expressões pré-determinada. Ou seja, sabendo quais os nomes mais comuns, será possível testar primeiro as combinações de usuário/senha com esses nomes, aumentando as chances de conseguir acesso não autorizado em poucas tentativas.
É possível também pensar em ataques mais pessoais: quais são as comunidades mais comuns entre seus amigos? Qual o colégio mais comum? Essas informações seriam muito relevantes para um ataque mais sofisticado de engenharia social (enganação, fraude).
Outro detalhe é que, se crawlers ficarem comuns, informações públicas não poderão ser retiradas da rede, já que, uma vez coletadas, apagá-las na rede social não vai eliminá-las permanentemente da rede.
O que as redes sociais podem fazer
Visitar três milhões de perfis do Orkut certamente cria alguma movimentação – certamente tornaria o crawler o usuário mais assíduo da rede social. É difícil passar despercebido criando esse volume de acessos. Mas crawlers podem ser configurados para fazer alguns poucos acessos por dia. Criminosos com mais recursos podem usar computadores diferentes, em locais diferentes, para distribuir a carga e parecer que os robôs coletores de dados não pareçam mais ativos do que os outros usuários.
Embora as redes sociais possam tardar o efeito dos crawlers, limitando o número de acessos que um mesmo IP pode realizar, realmente há muito pouco que pode ser feito. Complicar a vida dos crawlers é receita para também complicar a vida dos internautas comuns, já que os crawlers maliciosos se disfarçam, copiando, inclusive, os padrões adotados por algum navegador web, de modo a parecer idêntico ao software comum e não ser bloqueado.
O que você pode fazer
Quanto mais informações você disponibilizar publicamente na rede social, mais fácil outras pessoas poderão encontrá-lo – e isso inclui também os crawlers. Simplesmente não há solução fácil: qualquer informação ou comunidade que você participar é informação pública e um crawler vai poder coletar isso.
A criação de um crawler para muitas redes sociais ainda não passa de uma hipótese. Mas, conforme as velocidades de conexão aumentam e o hardware de armazenamento fica mais barato, a tendência é que esse tipo de coisa pareça cada vez mais real e possível.
Se você colocar uma informação na rede, considere-a pública de verdade, como se exposta permanentemente em uma vitrine de um grande centro urbano. Para evitar isso, use os controles de privacidade da rede social e entre apenas em comunidades que você realmente precisa.
Se for uma opção, considere perfis vazios ou o total abandono das redes
sociais. Os riscos
envolvidos na participação de uma rede
social têm aumentado; você
ainda pode usá-las para manter contato com amigos, mas tome cuidado ao
expor informações. Talvez você nunca mais consiga tirá-las da rede. Informações G1.

