Google-Bots

¿Alguna vez te has preguntado como Google lográ indexar esa gran cantidad de páginas a su buscador?






Para lograr esta ardua e importante tarea cada buscador utiliza un crawler o robot (Scooter es el robot de Altavista, Slurp el de Yahoo!, MSNBot el de Microsoft y Googlebot el de Google), el cual es un software que recorre el entremado de páginas web de forma automática y sistemática.

El comportamiento que tendrá el Googlebot para indexar un sitio web, depende de varios factores por ejemplo:

-Uno de los primeros criterios que toma el robot de Google son los enlaces, de manera que si el sitio web no cuenta con enlaces es casi seguro que no sea indexado.

A medida que Googlebot visita cada uno de las páginas, detecta los enlaces (SRC y HREF) y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

-La relevancia o importancia del sitio, es decir, si el sitio se encuentra en una posición alta dentro del PageRank entonces será visitado de manera frecuente.

Este aspecto es importante ya que cuando se realiza una búsqueda no se accede directamente a la página web sino al cache de Google, por tanto entre más seguido sea visitada la página por el Googlebot, la búsqueda mostrará el contenido más actual.

-La configuración en el archivo «robots.txt», el cual indica que robots están permitidos, que páginas y/o ficheros no deberán ser indexados e incluso regular los tiempos flujo de acceso de los robots a tu servidor.

Es de mencionar que este archivo puede ser visto por cualquier persona, ya que solo es necesario agregar «robots.txt» al final de la página de inicio (por ejemplo http://es.wikipedia.org/robots.txt) por lo cual no nos servirá para ocultar información.

Por útlimo cabe destacar que no solo indexa páginas web (HTML), sino que también extrae información de archivos PDF, PS, XLS, DOC y algunos otros más.

El éxito del buscador de google no solo radica en como lo hace, sino en el tiempo en que lo hace!

2 pensamientos en “Google-Bots

  1. Pingback: Articulo Indexado en la Blogosfera de Sysmaya

¿Que te ha parecido?