Cómo bloquear la indexación de un sitio en robots.txt: instrucciones y recomendaciones

Tabla de contenido:

Cómo bloquear la indexación de un sitio en robots.txt: instrucciones y recomendaciones
Cómo bloquear la indexación de un sitio en robots.txt: instrucciones y recomendaciones
Anonim

El trabajo de un optimizador SEO es a gran escala. Se recomienda a los principiantes que escriban el algoritmo de optimización para no perder ningún paso. De lo contrario, la promoción difícilmente se considerará exitosa, ya que el sitio experimentará fallas y errores constantemente que deberán corregirse durante mucho tiempo.

Uno de los pasos de optimización es trabajar con el archivo robots.txt. Todo recurso debe tener este documento, porque sin él será más difícil hacer frente a la optimización. Realiza muchas funciones que tendrás que entender.

Asistente de robot

El archivo robots.txt es un documento de texto sin formato que se puede ver en el Bloc de notas estándar del sistema. Al crearlo, debe establecer la codificación en UTF-8 para que pueda leerse correctamente. El archivo funciona con los protocolos http, https y FTP.

Este documento es un asistente para los robots de búsqueda. En caso de que no lo sepa, todos los sistemas utilizan "arañas" que rastrean rápidamente la World Wide Web para devolver sitios relevantes para consultas.usuarios Estos robots deben tener acceso a los datos de recursos, robots.txt funciona para esto.

Para que las arañas encuentren su camino, debe enviar el archivo robots.txt al directorio raíz. Para verificar si el sitio tiene este archivo, ingrese "https://site.com.ua/robots.txt" en la barra de direcciones del navegador. En lugar de "site.com.ua", debe ingresar el recurso que necesita.

Trabajando con robots.txt
Trabajando con robots.txt

Funciones del documento

El archivo robots.txt proporciona a los rastreadores varios tipos de información. Puede dar acceso parcial para que la "araña" escanee elementos específicos del recurso. El acceso completo le permite consultar todas las páginas disponibles. Una prohibición completa evita que los robots comiencen a verificar y abandonen el sitio.

Después de visitar el recurso, las "arañas" reciben una respuesta adecuada a la solicitud. Puede haber varios de ellos, todo depende de la información en robots.txt. Por ejemplo, si el escaneo fue exitoso, el robot recibirá el código 2xx.

Quizás el sitio ha sido redirigido de una página a otra. En este caso, el robot recibe el código 3xx. Si este código ocurre varias veces, la araña lo seguirá hasta que reciba otra respuesta. Aunque, por regla general, usa solo 5 intentos. De lo contrario, aparece el popular error 404.

Si la respuesta es 4xx, entonces el robot puede rastrear todo el contenido del sitio. Pero en el caso del código 5xx, la verificación puede detenerse por completo, ya que esto suele indicar errores temporales del servidor.

Robots de búsqueda
Robots de búsqueda

Para qué¿Necesita robots.txt?

Como habrás adivinado, este archivo es la guía de los robots a la raíz del sitio. Ahora se usa para restringir parcialmente el acceso a contenido inapropiado:

  • páginas con información personal de los usuarios;
  • sitios espejo;
  • resultados de búsqueda;
  • formularios de envío de datos, etc.

Si no hay un archivo robots.txt en la raíz del sitio, el robot rastreará absolutamente todo el contenido. En consecuencia, pueden aparecer datos no deseados en los resultados de búsqueda, lo que significa que tanto usted como el sitio sufrirán. Si hay instrucciones especiales en el documento robots.txt, la "araña" las seguirá y dará la información deseada por el propietario del recurso.

Trabajar con un archivo

Para usar robots.txt para bloquear la indexación del sitio, debe descubrir cómo crear este archivo. Para ello, sigue las instrucciones:

  1. Cree un documento en Notepad o Notepad++.
  2. Establece la extensión del archivo ".txt".
  3. Ingrese los datos y comandos requeridos.
  4. Guarde el documento y cárguelo en la raíz del sitio.

Como puede ver, en una de las etapas es necesario establecer comandos para los robots. Son de dos tipos: permitir (Allow) y prohibir (Disallow). Además, algunos optimizadores pueden especificar la velocidad de rastreo, el host y el enlace al mapa de la página del recurso.

Cómo cerrar un sitio de la indexación
Cómo cerrar un sitio de la indexación

Para comenzar a trabajar con robots.txt y bloquear completamente la indexación del sitio, también debe comprender los símbolos utilizados. Por ejemplo, en un documentoutilice "/", que indica que se ha seleccionado todo el sitio. Si se utiliza "", se requiere una secuencia de caracteres. De esta forma, será posible especificar una carpeta específica que puede escanearse o no.

Característica de los bots

Las "arañas" para los motores de búsqueda son diferentes, por lo que si trabaja para varios motores de búsqueda a la vez, deberá tener en cuenta este momento. Sus nombres son diferentes, lo que significa que si desea ponerse en contacto con un robot específico, deberá especificar su nombre: "Agente de usuario: Yandex" (sin comillas).

Si desea establecer directivas para todos los motores de búsqueda, debe usar el comando: "Agente de usuario: " (sin comillas). Para bloquear correctamente la indexación del sitio mediante robots.txt, debe conocer las especificaciones de los motores de búsqueda populares.

El hecho es que los motores de búsqueda más populares, Yandex y Google, tienen varios bots. Cada uno de ellos tiene sus propias tareas. Por ejemplo, Yandex Bot y Googlebot son las principales "arañas" que rastrean el sitio. Conociendo todos los bots, será más fácil afinar la indexación de su recurso.

Cómo funciona el archivo robots.txt
Cómo funciona el archivo robots.txt

Ejemplos

Entonces, con la ayuda de robots.txt, puede cerrar el sitio para que no se indexe con comandos simples, lo principal es comprender lo que necesita específicamente. Por ejemplo, si desea que Googlebot no se acerque a su recurso, debe darle el comando apropiado. Se verá así: "User-agent: Googlebot Disallow: /" (sin comillas).

Ahora necesitamos entender qué hay en este comando y cómo funciona. Entonces "agente de usuario"se usa para usar una llamada directa a uno de los bots. A continuación, indicamos a cuál, en nuestro caso es Google. El comando "Deshabilitar" debe comenzar en una nueva línea y prohibir que el robot ingrese al sitio. El símbolo de barra en este caso indica que todas las páginas del recurso están seleccionadas para la ejecución del comando.

¿Para qué sirve robots.txt?
¿Para qué sirve robots.txt?

En robots.txt, puede deshabilitar la indexación para todos los motores de búsqueda con un simple comando: "User-agent:Disallow: /" (sin comillas). El carácter de asterisco en este caso denota todos los robots de búsqueda. Por lo general, se necesita un comando de este tipo para pausar la indexación del sitio y comenzar el trabajo fundamental en él, que de lo contrario podría afectar la optimización.

Si el recurso es grande y tiene muchas páginas, a menudo contiene información patentada que no es deseable divulgar o que puede afectar negativamente a la promoción. En este caso, debe comprender cómo cerrar la página para que no se indexe en robots.txt.

Puede ocultar una carpeta o un archivo. En el primer caso, debe comenzar de nuevo contactando a un bot específico o a todos, por lo que usamos el comando "User-agent" y, a continuación, especificamos el comando "Disallow" para una carpeta específica. Se verá así: "No permitir: /carpeta/" (sin comillas). De esta forma ocultas toda la carpeta. Si contiene algún archivo importante que le gustaría mostrar, debe escribir el siguiente comando: "Permitir: /carpeta/archivo.php" (sin comillas).

Comprobar archivo

Si usa robots.txt para cerrar el sitio desdeTuviste éxito en la indexación, pero no sabes si todas tus directivas funcionaron correctamente, puedes verificar la corrección del trabajo.

Primero, debe verificar nuevamente la ubicación del documento. Recuerda que debe estar exclusivamente en la carpeta raíz. Si está en la carpeta raíz, entonces no funcionará. A continuación, abra el navegador e ingrese allí la siguiente dirección: “https://yoursite. com/robots.txt (sin comillas). Si obtiene un error en su navegador web, entonces el archivo no está donde debería estar.

Cómo cerrar una carpeta de la indexación
Cómo cerrar una carpeta de la indexación

Las directivas se pueden consultar en herramientas especiales que utilizan casi todos los webmasters. Estamos hablando de los productos de Google y Yandex. Por ejemplo, en Google Search Console hay una barra de herramientas donde debe abrir "Rastrear" y luego ejecutar la "Herramienta de inspección de archivos Robots.txt". Debe copiar todos los datos del documento en la ventana y comenzar a escanear. Se puede hacer exactamente la misma verificación en Yandex. Webmaster.

Recomendado: