Saturday, January 22, 2011

Como controlar os robôs do Search Engine

Não seria bom ser capaz de deixar algum código em seu Web site para dizer a busca rastreadores de aranha do motor para fazer o seu número um site? Infelizmente um arquivo robots.txt ou robots meta tag não vai fazer isso, mas eles podem ajudar os indexadores para indexar o seu site
melhor e bloquear as indesejadas.

Primeira definição um pouco de explicação:

Search Engine Spiders ou Crawlers - um web crawler (também conhecido como teia de aranha) é um programa que navega na World Wide Web de uma forma metódica e automatizada. Web crawlers são usados principalmente para criar uma cópia de todas as páginas visitadas para posterior processamento por um motor de busca, que o índice de páginas de download para fornecer buscas rápidas.

Um crawler é um tipo de bot, ou agente de software. Em geral, começa com uma lista de URLs a visitar. À medida que visita estas URLs, ele identifica todos os hiperlinks na página e adiciona-los à lista de URLs a visitar, recursivamente navegar na Web de acordo com um conjunto de políticas.

Robots.txt - O padrão de exclusão de robôs ou protocolo robots.txt é uma convenção para evitar a bem-comportada web spiders e web robots outras de acessar a totalidade ou parte de um website. As informações especificando as partes que não devem ser acessados é especificada em um arquivo chamado robots.txt no diretório de nível superior do site.

O protocolo robots.txt é meramente consultivo, e conta com a colaboração do robô web, de modo que marca uma área de seu site fora dos limites com robots.txt não garante a privacidade. Muitos administradores de sites web ter sido apanhado a tentar utilizar o arquivo de robots para fazer as partes privadas de um site invisível para o resto do mundo. No entanto, o arquivo é necessariamente acessível ao público e é facilmente verificado por qualquer pessoa com um navegador web.

Os padrões robots.txt são combinados por meio de comparações substring simples, por isso o cuidado deve ser tomado para se certificar de que os padrões de correspondência de diretórios tem o final '/' personagem anexado, caso contrário todos os arquivos com nomes que começam com essa substring irá corresponder, e não apenas aqueles em o diretório se destina.

Meta Tag - Tag do Meta são usados para fornecer dados estruturados sobre dados.

No início de 2000, os motores de busca se afastou da dependência de meta tags, como muitos sites utilizados palavras inadequadas ou palavra-chave foram enchendo de obter todo e qualquer tráfego possível.

Alguns motores de busca, no entanto, continuam a meta tags em alguma consideração quando a produzir resultados. Nos últimos anos, os motores de busca tornaram-se mais inteligente, penalizando os sites que estão enganando (repetindo a mesma palavra-chave várias vezes para obter um aumento no ranking da pesquisa). Em vez de subir rankings, esses sites vai cair no ranking, ou, em alguns motores de busca, vai ser expulso do motor de busca completamente.

Índice de um site - O ato de rastrear o seu site e coleta de informações.

padrões correspondentes diretórios têm a última caractere '/' anexado, caso contrário todos os arquivos com nomes que começam com essa substring irá corresponder, ao invés de apenas os no diretório pretendido.

Meta Tag - Tag do Meta são usados para fornecer dados estruturados sobre dados.

No início de 2000, os motores de busca se afastou da dependência de meta tags, como muitos sites utilizados palavras inadequadas ou palavra-chave foram enchendo de obter todo e qualquer tráfego possível.

Alguns motores de busca, no entanto, continuam a meta tags em alguma consideração quando a produzir resultados. Nos últimos anos, os motores de busca tornaram-se mais inteligente, penalizando os sites que estão enganando (repetindo a mesma palavra-chave várias vezes para obter um aumento no ranking da pesquisa). Em vez de subir rankings, esses sites vai cair no ranking, ou, em alguns motores de busca, vai ser expulso do motor de busca completamente.

Índice de um site - O ato de rastrear o seu site e coleta de informações.

Como pode o arquivo robots.txt e meta tag ajudá-lo?

No robots.txt você pode dizer 'crawlers' os efeitos nocivos para deixar seu site sozinho, e dar dicas úteis para aqueles que você deseja rastrear seu site. Aqui está um exemplo de como desabilitar um web crawler para pesquisar no seu site:

# Identifica a Wayback Machine
User-agent: ia_archiver
Disallow: /

ia_archiver é o nome do rastreador para o Wayback Machine, que você pode ter ouvido falar, e / depois de desautorizar ai_archiver diz não indexar qualquer do seu site. O # permite que você escreva comentários para si mesmo para que você possa acompanhar o que você digitou.

st de um site invisível para o resto do mundo. No entanto, o arquivo é necessariamente acessível ao público e é facilmente verificado por qualquer pessoa com um navegador web.

Os padrões robots.txt são combinados por meio de comparações substring simples, por isso o cuidado deve ser tomado para se certificar de que os padrões de correspondência de diretórios tem o final '/' personagem anexado, caso contrário todos os arquivos com nomes que começam com essa substring irá corresponder, e não apenas aqueles em o diretório se destina.

Meta Tag - Tag do Meta são usados para fornecer dados estruturados sobre dados.

No início de 2000, os motores de busca se afastou da dependência de meta tags, como muitos sites utilizados palavras inadequadas ou palavra-chave foram enchendo de obter todo e qualquer tráfego possível.

Alguns motores de busca, no entanto, continuam a meta tags em alguma consideração quando a produzir resultados. Nos últimos anos, os motores de busca tornaram-se mais inteligente, penalizando os sites que estão enganando (repetindo a mesma palavra-chave várias vezes para obter um aumento no ranking da pesquisa). Em vez de subir rankings, esses sites vai cair no ranking, ou, em alguns motores de busca, vai ser expulso do motor de busca completamente.

Índice de um site - O ato de rastrear o seu site e coleta de informações.

Como pode o arquivo robots.txt e meta tag ajudá-lo?

No robots.txt você pode dizer 'crawlers' os efeitos nocivos para deixar seu site sozinho, e dar dicas úteis para aqueles que você deseja rastrear seu site. Aqui está um exemplo de como desabilitar um web crawler para pesquisar no seu site:

# Identifica a Wayback Machine
User-agent: ia_archiver
Disallow: /

ia_archiver é o nome do rastreador para o Wayback Machine, que você pode ter ouvido falar, e / depois de desautorizar ai_archiver diz não indexar qualquer do seu site. O # permite que você escreva comentários para si mesmo para que você possa acompanhar o que você digitou.

No comments:

Post a Comment