Definição de Web Spidering e Web Crawlers
Daddy Yankee & Sech - Definitivamente (Video Oficial)
Índice:
- Spammers sites de aranha para coletar informações
- Dicas sobre como proteger seu site de rastreadores de robôs indesejados
- Artigos e informações relacionadas
Spiders são programas (ou scripts automatizados) que "rastreiam" através da Web à procura de dados. As aranhas viajam por meio de URLs de websites e podem extrair dados de páginas da Web, como endereços de e-mail. As aranhas também são usadas para alimentar informações encontradas em sites para mecanismos de busca.
Spiders, que também são chamados de "web crawlers", pesquisam na Web e nem todos são amigáveis em sua intenção.
Spammers sites de aranha para coletar informações
Google, Yahoo! e outros mecanismos de busca não são os únicos interessados em rastrear websites - então são scammers e spammers.
Spiders e outras ferramentas automatizadas são usadas por spammers para encontrar endereços de e-mail (na internet, essa prática é geralmente chamada de "colheita") em sites e, em seguida, usá-los para criar listas de spam.
As aranhas também são uma ferramenta usada pelos mecanismos de busca para descobrir mais informações sobre o seu site, mas deixadas desmarcadas, um site sem instruções (ou 'permissões') sobre como rastrear seu site pode apresentar grandes riscos à segurança das informações. As aranhas viajam seguindo os links e são muito hábeis em encontrar links para bancos de dados, arquivos de programas e outras informações às quais você talvez não queira que eles tenham acesso.
Os webmasters podem ver os registros para ver o que os spiders e outros robôs visitaram em seus sites. Essas informações ajudam os webmasters a saber quem está indexando o site e com que frequência.
Essas informações são úteis porque permitem que os webmasters ajustem seus arquivos SEO e Update robot.txt para impedir que determinados robôs rastreiem seus sites no futuro.
Dicas sobre como proteger seu site de rastreadores de robôs indesejados
Existe uma maneira bastante simples de manter os rastreadores indesejados fora do seu site. Mesmo que você não esteja preocupado com o rastreamento de spiders maliciosos em seu site (o endereço de e-mail ofuscante não o protegerá da maioria dos rastreadores), você ainda precisará fornecer instruções importantes aos mecanismos de pesquisa.
Todos os sites devem ter um arquivo localizado no diretório raiz chamado arquivo robots.txt. Este arquivo permite que você instrua os rastreadores da web onde você deseja que eles procurem páginas de índice (a menos que indicado de outra forma nos metadados de uma página específica para não serem indexados) se eles forem um mecanismo de pesquisa.
Assim como você pode informar aos rastreadores desejados onde deseja que eles naveguem, também é possível dizer a eles onde eles não podem ir e até mesmo bloquear rastreadores específicos em todo o site.
É importante ter em mente que um arquivo robots.txt bem unido terá um tremendo valor para os mecanismos de pesquisa e pode até ser um elemento-chave para melhorar o desempenho do seu site, mas alguns rastreadores de robôs ainda ignoram suas instruções. Por esse motivo, é importante manter todos os seus softwares, plug-ins e aplicativos atualizados o tempo todo.
Artigos e informações relacionadas
Devido à prevalência da coleta de informações usada para fins nefastos (spam), a legislação foi aprovada em 2003 para tornar certas práticas ilegais. Essas leis de proteção ao consumidor estão incluídas na Lei CAN-SPAM de 2003.
É importante que você reserve um tempo para ler a Lei CAN-SPAM se a sua empresa se envolver em alguma correspondência em massa ou coleta de informações.
Você pode descobrir mais sobre as leis antispam e como lidar com spammers, e o que você, como proprietário de uma empresa, pode não fazer, lendo os seguintes artigos:
- Lei CAN-SPAM de 2003
- Regras da lei CAN-SPAM para organizações sem fins lucrativos
- 5 Regras do CAN-SPAM Os pequenos empresários precisam entender
Ficção Científica: Definição de Escritores Criativos
O que é gênero escrito e qual é a diferença entre gênero e gênero literário? A ficção de gênero tende a ser escrita e lida principalmente para entretenimento.
Definição de "Condição Turnkey" em Imóveis
A definição de "Condição Turnkey" no setor imobiliário descreve um espaço para compra ou aluguel que está em estado de mudança.
Definição de Realismo Mágico na Escrita de Ficção
O termo realismo mágico descreve a ficção contemporânea, frequentemente da América Latina ou do terceiro mundo, misturando elementos mágicos ou fantasia com a realidade.