• 2024-06-30

Definição de Web Spidering e Web Crawlers

Daddy Yankee & Sech - Definitivamente (Video Oficial)

Daddy Yankee & Sech - Definitivamente (Video Oficial)

Índice:

Anonim

Spiders são programas (ou scripts automatizados) que "rastreiam" através da Web à procura de dados. As aranhas viajam por meio de URLs de websites e podem extrair dados de páginas da Web, como endereços de e-mail. As aranhas também são usadas para alimentar informações encontradas em sites para mecanismos de busca.

Spiders, que também são chamados de "web crawlers", pesquisam na Web e nem todos são amigáveis ​​em sua intenção.

Spammers sites de aranha para coletar informações

Google, Yahoo! e outros mecanismos de busca não são os únicos interessados ​​em rastrear websites - então são scammers e spammers.

Spiders e outras ferramentas automatizadas são usadas por spammers para encontrar endereços de e-mail (na internet, essa prática é geralmente chamada de "colheita") em sites e, em seguida, usá-los para criar listas de spam.

As aranhas também são uma ferramenta usada pelos mecanismos de busca para descobrir mais informações sobre o seu site, mas deixadas desmarcadas, um site sem instruções (ou 'permissões') sobre como rastrear seu site pode apresentar grandes riscos à segurança das informações. As aranhas viajam seguindo os links e são muito hábeis em encontrar links para bancos de dados, arquivos de programas e outras informações às quais você talvez não queira que eles tenham acesso.

Os webmasters podem ver os registros para ver o que os spiders e outros robôs visitaram em seus sites. Essas informações ajudam os webmasters a saber quem está indexando o site e com que frequência.

Essas informações são úteis porque permitem que os webmasters ajustem seus arquivos SEO e Update robot.txt para impedir que determinados robôs rastreiem seus sites no futuro.

Dicas sobre como proteger seu site de rastreadores de robôs indesejados

Existe uma maneira bastante simples de manter os rastreadores indesejados fora do seu site. Mesmo que você não esteja preocupado com o rastreamento de spiders maliciosos em seu site (o endereço de e-mail ofuscante não o protegerá da maioria dos rastreadores), você ainda precisará fornecer instruções importantes aos mecanismos de pesquisa.

Todos os sites devem ter um arquivo localizado no diretório raiz chamado arquivo robots.txt. Este arquivo permite que você instrua os rastreadores da web onde você deseja que eles procurem páginas de índice (a menos que indicado de outra forma nos metadados de uma página específica para não serem indexados) se eles forem um mecanismo de pesquisa.

Assim como você pode informar aos rastreadores desejados onde deseja que eles naveguem, também é possível dizer a eles onde eles não podem ir e até mesmo bloquear rastreadores específicos em todo o site.

É importante ter em mente que um arquivo robots.txt bem unido terá um tremendo valor para os mecanismos de pesquisa e pode até ser um elemento-chave para melhorar o desempenho do seu site, mas alguns rastreadores de robôs ainda ignoram suas instruções. Por esse motivo, é importante manter todos os seus softwares, plug-ins e aplicativos atualizados o tempo todo.

Artigos e informações relacionadas

Devido à prevalência da coleta de informações usada para fins nefastos (spam), a legislação foi aprovada em 2003 para tornar certas práticas ilegais. Essas leis de proteção ao consumidor estão incluídas na Lei CAN-SPAM de 2003.

É importante que você reserve um tempo para ler a Lei CAN-SPAM se a sua empresa se envolver em alguma correspondência em massa ou coleta de informações.

Você pode descobrir mais sobre as leis antispam e como lidar com spammers, e o que você, como proprietário de uma empresa, pode não fazer, lendo os seguintes artigos:

  • Lei CAN-SPAM de 2003
  • Regras da lei CAN-SPAM para organizações sem fins lucrativos
  • 5 Regras do CAN-SPAM Os pequenos empresários precisam entender

Artigos interessantes

Aprenda como promover seu próximo show de música

Aprenda como promover seu próximo show de música

Boa promoção é a chave para um bom show. Se você não tiver experiência, o trabalho pode parecer assustador. Aprenda a promover seu próximo show de música com essas dicas.

O que está em um documento de escopo do projeto

O que está em um documento de escopo do projeto

Quando você está planejando um projeto, o documento de escopo é uma informação crítica para toda a sua equipe e seu cliente. Veja como acertar.

10 dicas para promover o pensamento criativo

10 dicas para promover o pensamento criativo

Você quer promover a inovação no trabalho? Ouça os funcionários. Tire um tempo para o pensamento criativo. Leia dez ideias sobre maneiras de pensar criativamente.

Você pode incentivar os funcionários a praticarem a autodisciplina?

Você pode incentivar os funcionários a praticarem a autodisciplina?

Você odeia tomar medidas disciplinares e tarefas desagradáveis, como demitir um funcionário? Incentive seus funcionários a escolherem a autodisciplina.

3 maneiras principais de promover seu telejornal

3 maneiras principais de promover seu telejornal

Além de promover as histórias em sua transmissão, descubra outras três maneiras de atrair espectadores para assistirem ao seu telejornal. Construa sua marca.

Como promover seu livro no Twitter

Como promover seu livro no Twitter

O Twitter é um instrumento que conecta os membros com seus entusiasmos. Aprenda a usá-lo para promover seu livro.