• 2024-12-03

Definição de Web Spidering e Web Crawlers

Daddy Yankee & Sech - Definitivamente (Video Oficial)

Daddy Yankee & Sech - Definitivamente (Video Oficial)

Índice:

Anonim

Spiders são programas (ou scripts automatizados) que "rastreiam" através da Web à procura de dados. As aranhas viajam por meio de URLs de websites e podem extrair dados de páginas da Web, como endereços de e-mail. As aranhas também são usadas para alimentar informações encontradas em sites para mecanismos de busca.

Spiders, que também são chamados de "web crawlers", pesquisam na Web e nem todos são amigáveis ​​em sua intenção.

Spammers sites de aranha para coletar informações

Google, Yahoo! e outros mecanismos de busca não são os únicos interessados ​​em rastrear websites - então são scammers e spammers.

Spiders e outras ferramentas automatizadas são usadas por spammers para encontrar endereços de e-mail (na internet, essa prática é geralmente chamada de "colheita") em sites e, em seguida, usá-los para criar listas de spam.

As aranhas também são uma ferramenta usada pelos mecanismos de busca para descobrir mais informações sobre o seu site, mas deixadas desmarcadas, um site sem instruções (ou 'permissões') sobre como rastrear seu site pode apresentar grandes riscos à segurança das informações. As aranhas viajam seguindo os links e são muito hábeis em encontrar links para bancos de dados, arquivos de programas e outras informações às quais você talvez não queira que eles tenham acesso.

Os webmasters podem ver os registros para ver o que os spiders e outros robôs visitaram em seus sites. Essas informações ajudam os webmasters a saber quem está indexando o site e com que frequência.

Essas informações são úteis porque permitem que os webmasters ajustem seus arquivos SEO e Update robot.txt para impedir que determinados robôs rastreiem seus sites no futuro.

Dicas sobre como proteger seu site de rastreadores de robôs indesejados

Existe uma maneira bastante simples de manter os rastreadores indesejados fora do seu site. Mesmo que você não esteja preocupado com o rastreamento de spiders maliciosos em seu site (o endereço de e-mail ofuscante não o protegerá da maioria dos rastreadores), você ainda precisará fornecer instruções importantes aos mecanismos de pesquisa.

Todos os sites devem ter um arquivo localizado no diretório raiz chamado arquivo robots.txt. Este arquivo permite que você instrua os rastreadores da web onde você deseja que eles procurem páginas de índice (a menos que indicado de outra forma nos metadados de uma página específica para não serem indexados) se eles forem um mecanismo de pesquisa.

Assim como você pode informar aos rastreadores desejados onde deseja que eles naveguem, também é possível dizer a eles onde eles não podem ir e até mesmo bloquear rastreadores específicos em todo o site.

É importante ter em mente que um arquivo robots.txt bem unido terá um tremendo valor para os mecanismos de pesquisa e pode até ser um elemento-chave para melhorar o desempenho do seu site, mas alguns rastreadores de robôs ainda ignoram suas instruções. Por esse motivo, é importante manter todos os seus softwares, plug-ins e aplicativos atualizados o tempo todo.

Artigos e informações relacionadas

Devido à prevalência da coleta de informações usada para fins nefastos (spam), a legislação foi aprovada em 2003 para tornar certas práticas ilegais. Essas leis de proteção ao consumidor estão incluídas na Lei CAN-SPAM de 2003.

É importante que você reserve um tempo para ler a Lei CAN-SPAM se a sua empresa se envolver em alguma correspondência em massa ou coleta de informações.

Você pode descobrir mais sobre as leis antispam e como lidar com spammers, e o que você, como proprietário de uma empresa, pode não fazer, lendo os seguintes artigos:

  • Lei CAN-SPAM de 2003
  • Regras da lei CAN-SPAM para organizações sem fins lucrativos
  • 5 Regras do CAN-SPAM Os pequenos empresários precisam entender

Artigos interessantes

As melhores respostas para perguntas temporárias sobre entrevistas de emprego

As melhores respostas para perguntas temporárias sobre entrevistas de emprego

Reveja dicas sobre como responder a perguntas comuns sobre entrevistas para trabalhos temporários, além de exemplos de respostas para as 10 principais perguntas temporárias sobre entrevista de emprego.

Como responder me falar sobre você mesmo em uma entrevista

Como responder me falar sobre você mesmo em uma entrevista

Como responder à pergunta da entrevista de emprego "Conte-me sobre você", incluindo o que dizer, o que não dizer e exemplos das melhores respostas.

Autoridade Temporária para a Aposentadoria Antecipada (TERA)

Autoridade Temporária para a Aposentadoria Antecipada (TERA)

A Autoridade Temporária para a Aposentadoria Antecipada autorizou membros com mais de 15 anos, mas com menos de 20 anos de serviço ativo total para solicitar aposentadoria antecipada.

Definição de Empregados Temporários - Recursos Humanos

Definição de Empregados Temporários - Recursos Humanos

Aprenda as muitas diferenças entre funcionários temporários e regulares e por que os temporários podem ser benéficos.

Amostra de carta de demissão temporária de emprego

Amostra de carta de demissão temporária de emprego

Renunciar a um emprego temporário pode ser intimidante. Use uma carta de demissão formal para sair de forma profissional, mantendo-se respeitosa.

Ideias para Habitação Temporária de Verão para Estagiários

Ideias para Habitação Temporária de Verão para Estagiários

Vários campi universitários oferecem moradia temporária para estudantes fazendo estágios durante as férias de verão. Confira essas e outras opções de hospedagem.