Dados públicos de 100
milhões de usuários do Facebook caíram na internet na semana passada,
agrupados em um pacote facilmente encontrado em vários sites da rede. A
notícia só prova algo que especialistas já sabiam: a possibilidade de
qualquer informação ser coletada, agregada e analisada. O que se viu na
semana passada é apenas uma pequena amostra do que pode ser feito. Os
softwares que “varrem” a internet buscando e armazenando informações são
chamados de “crawlers”, e é sobre eles que trata a coluna Segurança
para o PC.
Como são feitos os sites de pesquisa
Se você já se perguntou como o Google, o Bing e outros sites de buscas
conseguem pesquisar tantas páginas na internet, saiba que a resposta é
realmente a mais simples possível: o Google visita os sites, segue
automaticamente cada link e salva as páginas que acessar.
Depois entra a parte complexa do processo, que é de fato a “mágica” do
Google e que permite que as páginas sejam encontradas – é aí que mora o
diferencial de cada site de pesquisa.
Esse processo de visita a cada página e de seguir os links é feito por
um programa chamado crawler (do inglês: “que se arrasta”, “que
engatinha”). Também recebem o nome de “spiders” (“aranhas”), ou ainda,
search engine spiders (“aranhas de sites de busca”), em uma brincadeira
com o significado da palavra web (“teia”).
Se o crawler não visitou alguma página na internet – talvez porque
ninguém fez links para ela – ou o software não conseguiu entender a
informação que está em uma página, ela não será localizada pelos sites
de busca. Mas os crawlers são continuamente melhorados para que todas as
informações sejam coletadas.
Crawlers são usados para outros fins menos nobres. Por exemplo, spam.
Crawlers visitam milhões de páginas na internet buscando por qualquer
trecho que pareça um e-mail (qualquer coisa seguida de arroba seguida de
ponto com; expressando de outra forma, *@*.com, sendo * um “coringa”).
Ao analisarem o código das páginas, crawlers também podem encontrar
falhas de segurança. Mais tarde, os sites vulneráveis encontrados podem
ser invadidos em massa para um ataque coordenado.
Cem milhões de nomes
O código que coletou os dados do Facebook é muito simples. O próprio
autor admitiu limitações, como, por exemplo, o fato de ele não acessar
as páginas dos amigos dos perfis públicos.
Crawlers de sites de busca seguem links, mas, para isso, têm alguns
pontos pelos quais eles “começam” a varrer a internet. O diretório
público do Facebook é uma lista de perfis públicos da rede social e,
por isso, pode ser um excelente ponto de partida, e foram exatamente
esses perfis que o código analisou para compilar a lista de 100 milhões
de usuários do Facebook – ou um quinto da rede social, de acordo com
dados recentes.
Só o nome de cada perfil foi armazenado, embora todas as informações
públicas pudessem ser copiadas. O desafio seria o volume de informação,
difícil de ser processado e arquivado. Mesmo assim, o crawler usado era
rudimentar.
Se você ainda não teve ideia de um ponto de partida de um crawler para
Orkut, pense nas comunidades populares, que chegam a ter mais de um
milhão de membros. Várias têm uma lista de membros pública e, mesmo
quando esse não é o caso, é fácil conseguir acesso a essas informações.
Depois de salvar todos os links dos perfis, basta analisar os perfis dos
amigos e refazer o processo. Logo, o montante de perfis teria um volume
respeitável.
Agregando e analisando
Depois de ter copiado os dados públicos de todos os perfis, há
possibilidades infinitas a respeito de como essas informações podem ser
usadas. Uma vez agregadas, é possível realizar análises, cruzar
comunidades e também informações. Por exemplo, qual o curso superior
mais comum entre quem está em determinadas comunidades de informática?
Tendo os dados agregados, essa pergunta poderia ser facilmente
respondida.
Se você não vê utilidade para isso, confie na criatividade dos
criminosos e dos especialistas. Só os nomes registrados nos perfis do
Facebook já serão suficientes para servir de complemento a um software
que quebra senhas. Com os dados, o especialista conseguiu determinar
quais os nomes mais comuns. Isso é útil para ataques do tipo dicionário,
que tentam quebrar senhas usando listas de expressões pré-determinada.
Ou seja, sabendo quais os nomes mais comuns, será possível testar
primeiro as combinações de usuário/senha com esses nomes, aumentando as
chances de conseguir acesso não autorizado em poucas tentativas.
É possível também pensar em ataques mais pessoais: quais são as
comunidades mais comuns entre seus amigos? Qual o colégio mais comum?
Essas informações seriam muito relevantes para um ataque mais
sofisticado de engenharia social (enganação, fraude).
Outro detalhe é que, se crawlers ficarem comuns, informações públicas
não poderão ser retiradas da rede, já que, uma vez coletadas, apagá-las
na rede social não vai eliminá-las permanentemente da rede.
O que as redes sociais podem fazer
Visitar três
milhões de perfis do Orkut certamente cria alguma movimentação –
certamente tornaria o crawler o usuário mais assíduo da rede social. É
difícil passar despercebido criando esse volume de acessos. Mas crawlers
podem ser configurados para fazer alguns poucos acessos por dia.
Criminosos com mais recursos podem usar computadores diferentes, em
locais diferentes, para distribuir a carga e parecer que os robôs
coletores de dados não pareçam mais ativos do que os outros usuários.
Embora as redes sociais possam tardar o efeito dos crawlers, limitando o
número de acessos que um mesmo IP pode realizar, realmente há muito
pouco que pode ser feito. Complicar a vida dos crawlers é receita para
também complicar a vida dos internautas comuns, já que os crawlers
maliciosos se disfarçam, copiando, inclusive, os padrões adotados por
algum navegador web, de modo a parecer idêntico ao software comum e não
ser bloqueado.
O que você pode fazer
Quanto mais informações você
disponibilizar publicamente na rede social, mais fácil outras pessoas
poderão encontrá-lo – e isso inclui também os crawlers. Simplesmente não
há solução fácil: qualquer informação ou comunidade que você participar
é informação pública e um crawler vai poder coletar isso.
A criação de um crawler para muitas redes sociais ainda não passa de
uma hipótese. Mas, conforme as velocidades de conexão aumentam e o
hardware de armazenamento fica mais barato, a tendência é que esse tipo
de coisa pareça cada vez mais real e possível.
Se você colocar uma informação na rede, considere-a pública de verdade,
como se exposta permanentemente em uma vitrine de um grande centro
urbano. Para evitar isso, use os controles de privacidade da rede social
e entre apenas em comunidades que você realmente precisa.
Se for uma opção, considere perfis vazios ou o total abandono das redes
sociais. Os riscos
envolvidos na participação de uma rede
social têm aumentado; você
ainda pode usá-las para manter contato com amigos, mas tome cuidado ao
expor informações. Talvez você nunca mais consiga tirá-las da rede. Informações G1.
Dados públicos de 100
milhões de usuários do Facebook caíram na internet na semana passada,
agrupados em um pacote facilmente encontrado em vários sites da rede. A
notícia só prova algo que especialistas já sabiam: a possibilidade de
qualquer informação ser coletada, agregada e analisada. O que se viu na
semana passada é apenas uma pequena amostra do que pode ser feito. Os
softwares que “varrem” a internet buscando e armazenando informações são
chamados de “crawlers”, e é sobre eles que trata a coluna Segurança
para o PC.
Como são feitos os sites de pesquisa
Se você já se perguntou como o Google, o Bing e outros sites de buscas
conseguem pesquisar tantas páginas na internet, saiba que a resposta é
realmente a mais simples possível: o Google visita os sites, segue
automaticamente cada link e salva as páginas que acessar.
Depois entra a parte complexa do processo, que é de fato a “mágica” do
Google e que permite que as páginas sejam encontradas – é aí que mora o
diferencial de cada site de pesquisa.
Esse processo de visita a cada página e de seguir os links é feito por
um programa chamado crawler (do inglês: “que se arrasta”, “que
engatinha”). Também recebem o nome de “spiders” (“aranhas”), ou ainda,
search engine spiders (“aranhas de sites de busca”), em uma brincadeira
com o significado da palavra web (“teia”).
Se o crawler não visitou alguma página na internet – talvez porque
ninguém fez links para ela – ou o software não conseguiu entender a
informação que está em uma página, ela não será localizada pelos sites
de busca. Mas os crawlers são continuamente melhorados para que todas as
informações sejam coletadas.
Crawlers são usados para outros fins menos nobres. Por exemplo, spam.
Crawlers visitam milhões de páginas na internet buscando por qualquer
trecho que pareça um e-mail (qualquer coisa seguida de arroba seguida de
ponto com; expressando de outra forma, *@*.com, sendo * um “coringa”).
Ao analisarem o código das páginas, crawlers também podem encontrar
falhas de segurança. Mais tarde, os sites vulneráveis encontrados podem
ser invadidos em massa para um ataque coordenado.
Cem milhões de nomes
O código que coletou os dados do Facebook é muito simples. O próprio
autor admitiu limitações, como, por exemplo, o fato de ele não acessar
as páginas dos amigos dos perfis públicos.
Crawlers de sites de busca seguem links, mas, para isso, têm alguns
pontos pelos quais eles “começam” a varrer a internet. O diretório
público do Facebook é uma lista de perfis públicos da rede social e,
por isso, pode ser um excelente ponto de partida, e foram exatamente
esses perfis que o código analisou para compilar a lista de 100 milhões
de usuários do Facebook – ou um quinto da rede social, de acordo com
dados recentes.
Só o nome de cada perfil foi armazenado, embora todas as informações
públicas pudessem ser copiadas. O desafio seria o volume de informação,
difícil de ser processado e arquivado. Mesmo assim, o crawler usado era
rudimentar.
Se você ainda não teve ideia de um ponto de partida de um crawler para
Orkut, pense nas comunidades populares, que chegam a ter mais de um
milhão de membros. Várias têm uma lista de membros pública e, mesmo
quando esse não é o caso, é fácil conseguir acesso a essas informações.
Depois de salvar todos os links dos perfis, basta analisar os perfis dos
amigos e refazer o processo. Logo, o montante de perfis teria um volume
respeitável.
Agregando e analisando
Depois de ter copiado os dados públicos de todos os perfis, há
possibilidades infinitas a respeito de como essas informações podem ser
usadas. Uma vez agregadas, é possível realizar análises, cruzar
comunidades e também informações. Por exemplo, qual o curso superior
mais comum entre quem está em determinadas comunidades de informática?
Tendo os dados agregados, essa pergunta poderia ser facilmente
respondida.
Se você não vê utilidade para isso, confie na criatividade dos
criminosos e dos especialistas. Só os nomes registrados nos perfis do
Facebook já serão suficientes para servir de complemento a um software
que quebra senhas. Com os dados, o especialista conseguiu determinar
quais os nomes mais comuns. Isso é útil para ataques do tipo dicionário,
que tentam quebrar senhas usando listas de expressões pré-determinada.
Ou seja, sabendo quais os nomes mais comuns, será possível testar
primeiro as combinações de usuário/senha com esses nomes, aumentando as
chances de conseguir acesso não autorizado em poucas tentativas.
É possível também pensar em ataques mais pessoais: quais são as
comunidades mais comuns entre seus amigos? Qual o colégio mais comum?
Essas informações seriam muito relevantes para um ataque mais
sofisticado de engenharia social (enganação, fraude).
Outro detalhe é que, se crawlers ficarem comuns, informações públicas
não poderão ser retiradas da rede, já que, uma vez coletadas, apagá-las
na rede social não vai eliminá-las permanentemente da rede.
O que as redes sociais podem fazer
Visitar três
milhões de perfis do Orkut certamente cria alguma movimentação –
certamente tornaria o crawler o usuário mais assíduo da rede social. É
difícil passar despercebido criando esse volume de acessos. Mas crawlers
podem ser configurados para fazer alguns poucos acessos por dia.
Criminosos com mais recursos podem usar computadores diferentes, em
locais diferentes, para distribuir a carga e parecer que os robôs
coletores de dados não pareçam mais ativos do que os outros usuários.
Embora as redes sociais possam tardar o efeito dos crawlers, limitando o
número de acessos que um mesmo IP pode realizar, realmente há muito
pouco que pode ser feito. Complicar a vida dos crawlers é receita para
também complicar a vida dos internautas comuns, já que os crawlers
maliciosos se disfarçam, copiando, inclusive, os padrões adotados por
algum navegador web, de modo a parecer idêntico ao software comum e não
ser bloqueado.
O que você pode fazer
Quanto mais informações você
disponibilizar publicamente na rede social, mais fácil outras pessoas
poderão encontrá-lo – e isso inclui também os crawlers. Simplesmente não
há solução fácil: qualquer informação ou comunidade que você participar
é informação pública e um crawler vai poder coletar isso.
A criação de um crawler para muitas redes sociais ainda não passa de
uma hipótese. Mas, conforme as velocidades de conexão aumentam e o
hardware de armazenamento fica mais barato, a tendência é que esse tipo
de coisa pareça cada vez mais real e possível.
Se você colocar uma informação na rede, considere-a pública de verdade,
como se exposta permanentemente em uma vitrine de um grande centro
urbano. Para evitar isso, use os controles de privacidade da rede social
e entre apenas em comunidades que você realmente precisa.
Se for uma opção, considere perfis vazios ou o total abandono das redes
sociais. Os riscos
envolvidos na participação de uma rede
social têm aumentado; você
ainda pode usá-las para manter contato com amigos, mas tome cuidado ao
expor informações. Talvez você nunca mais consiga tirá-las da rede. Informações G1.