¿Cómo configurar correctamente Robots.txt?

Tabla de contenido:

¿Cómo configurar correctamente Robots.txt?
¿Cómo configurar correctamente Robots.txt?
Anonim

El texto de Robots correcto para el sitio html crea modelos de acción para los robots de los motores de búsqueda, diciéndoles lo que pueden verificar. Este archivo a menudo se denomina Protocolo de exclusión de robots. Lo primero que buscan los bots antes de rastrear un sitio web es robots.txt. Puede señalar o indicarle al Sitemap que no verifique ciertos subdominios. Cuando desee que los motores de búsqueda busquen lo que se encuentra con más frecuencia, no se requiere robots.txt. Es muy importante en este proceso que el archivo esté formateado correctamente y no indexe la página del usuario con los datos personales del usuario.

Principio de escaneo del robot

El principio del escaneo robotizado
El principio del escaneo robotizado

Cuando un motor de búsqueda encuentra un archivo y ve una URL prohibida, no lo rastrea, pero puede indexarlo. Esto se debe a que incluso si los robots no pueden ver el contenido, pueden recordar los vínculos de retroceso que apuntan a la URL prohibida. Debido al acceso bloqueado al enlace, la URL aparecerá en los motores de búsqueda, pero sin fragmentos. si unpara la estrategia de marketing entrante, se requiere el texto de Robots correcto para bitrix (Bitrix), proporcionan verificación del sitio a pedido del usuario mediante escáneres.

Por otro lado, si el archivo no tiene el formato adecuado, esto puede provocar que el sitio no aparezca en los resultados de búsqueda y no se encuentre. Los motores de búsqueda no pueden pasar por alto este archivo. Un programador puede ver el archivo robots.txt de cualquier sitio yendo a su dominio y siguiéndolo con robots.txt, por ejemplo, www.domain.com/robots.txt. Usando una herramienta como la sección de optimización SEO de Unamo, donde puede ingresar cualquier dominio, y el servicio mostrará información sobre la existencia del archivo.

Restricciones para escanear:

  1. El usuario tiene contenido desactualizado o confidencial.
  2. Las imágenes del sitio no se incluirán en los resultados de búsqueda de imágenes.
  3. El sitio aún no está listo para que el robot indexe la demostración.

Recuerde que la información que un usuario desea recibir de un motor de búsqueda está disponible para cualquiera que ingrese la URL. No utilice este archivo de texto para ocultar datos confidenciales. Si el dominio tiene un error 404 (no encontrado) o 410 (aprobado), el motor de búsqueda comprueba el sitio a pesar de la presencia de robots.txt, en cuyo caso considera que f alta el archivo. Otros errores como 500 (Error interno del servidor), 403 (Prohibido), tiempo de espera agotado o "no disponible" respetan las instrucciones de robots.txt; sin embargo, la omisión puede retrasarse hasta que el archivo esté disponible.

Crear un archivo de búsqueda

Creación de un archivo de búsqueda
Creación de un archivo de búsqueda

MuchosLos programas CMS como WordPress ya tienen un archivo robots.txt. Antes de configurar correctamente Robots txt WordPress, el usuario debe familiarizarse con sus capacidades para descubrir cómo acceder a él. Si el programador crea el archivo él mismo, debe cumplir las siguientes condiciones:

  1. Debe estar en minúsculas.
  2. Utilice la codificación UTF-8.
  3. Guardar en un editor de texto como archivo (.txt).

Cuando un usuario no sabe dónde colocarlo, se comunica con el proveedor del software del servidor web para averiguar cómo acceder a la raíz de un dominio o ir a la consola de Google y descargarlo. Con esta función, Google también puede verificar si el bot está funcionando correctamente y la lista de sitios que han sido bloqueados usando el archivo.

El formato principal del txt de Robots correcto para bitrix (Bitrix):

  1. Robots legendarios.txt.
  2. , agrega comentarios que se usan solo como notas.
  3. Los escáneres ignorarán estos comentarios junto con cualquier error tipográfico del usuario.
  4. User-agent: indica en qué motor de búsqueda se enumeran las instrucciones para el archivo.
  5. Agregar un asterisco () les dice a los escáneres que las instrucciones son para todos.

Indica un bot específico, por ejemplo, Googlebot, Baiduspider, Applebot. Disallow les dice a los rastreadores qué partes del sitio web no deben rastrearse. Tiene este aspecto: Agente de usuario:. El asterisco significa "todos los bots". Sin embargo, puede especificar páginas para determinadosrobots Para ello, debe conocer el nombre del bot para el que se establecen las recomendaciones.

El texto de robots correcto para Yandex podría verse así:

Corregir robots txt para Yandex
Corregir robots txt para Yandex

Si el bot no debe rastrear el sitio, puede especificarlo y, para encontrar los nombres de los agentes de usuario, se recomienda familiarizarse con las capacidades en línea de useragentstring.com.

Optimización de página

Optimización de página
Optimización de página

Las siguientes dos líneas se consideran un archivo robots.txt completo, y un solo archivo robots puede contener varias líneas de agentes de usuario y directivas que habilitan o deshabilitan el rastreo. El formato principal de los Robots correctos txt:

  1. Agente de usuario: [nombre de usuario del agente].
  2. Rechazar: [Cadena de URL que no se rastrea].

En el archivo, cada bloque de directivas se muestra como discreto, separado por una línea. En el archivo junto al directorio de usuarios del agente, cada regla se aplica a un conjunto específico de líneas separadas por secciones. Si un archivo tiene una regla multiagente, el robot solo considerará el grupo de instrucciones más específico.

Sintaxis técnica

Sintaxis técnica
Sintaxis técnica

Puede considerarse como el "lenguaje" de los archivos robots.txt. Hay cinco términos que pueden existir en este formato, los principales incluyen:

  1. User-agent: rastreador web con instrucciones de rastreo, generalmente un motor de búsqueda.
  2. Disallow es un comando que se usa para decirle al agente de usuario que omita(omisión) de una URL específica. Solo hay una condición prohibida para cada uno.
  3. Permitir. Para el robot de Google que obtiene acceso, incluso se deniega la página de usuario.
  4. Crawl-delay: especifica cuántos segundos necesitará el rastreador antes de rastrear. Cuando el bot no lo confirma, la velocidad se establece en la consola de Google.
  5. Mapa del sitio: se utiliza para ubicar cualquier mapa XML asociado con una URL.

Coincidencias de patrones

Cuando se trata de bloquear URL o permitir txt de Robots válidos, las operaciones pueden ser bastante complicadas, ya que le permiten utilizar la coincidencia de patrones para cubrir una serie de posibles parámetros de URL. Google y Bing usan dos caracteres que identifican páginas o subcarpetas que el SEO quiere excluir. Los dos caracteres son el asterisco () y el signo de dólar ($), donde:es un comodín que representa cualquier secuencia de caracteres. $ - coincide con el final de la URL.

Google ofrece una gran lista de posibles sintaxis de plantillas que explican al usuario cómo configurar correctamente un archivo txt de Robots. Algunos casos de uso comunes incluyen:

  1. Evite que aparezca contenido duplicado en los resultados de búsqueda.
  2. Mantener privadas todas las secciones del sitio web.
  3. Guarde las páginas internas de los resultados de búsqueda basados en declaraciones abiertas.
  4. Indicar ubicación.
  5. Evitar que los motores de búsqueda indexen ciertosarchivos.
  6. Especificación de un retraso de rastreo para dejar de recargar al escanear varias áreas de contenido al mismo tiempo.

Comprobando la presencia de un archivo de robot

Si no hay áreas en el sitio que deban ser rastreadas, entonces robots.txt no es necesario en absoluto. Si el usuario no está seguro de que este archivo existe, debe ingresar el dominio raíz y escribirlo al final de la URL, algo como esto: moz.com/robots.txt. Varios robots de búsqueda ignoran estos archivos. Sin embargo, por regla general, estos rastreadores no pertenecen a motores de búsqueda de buena reputación. Son el tipo de spammers, agregadores de correo y otros tipos de bots automatizados que abundan en Internet.

Es muy importante recordar que el uso del estándar de exclusión de robots no es una medida de seguridad efectiva. De hecho, algunos bots pueden comenzar con páginas en las que el usuario las establece en modo de escaneo. Hay varias partes que van en el archivo de excepción estándar. Antes de decirle al robot en qué páginas no debería funcionar, debe especificar con qué robot hablar. En la mayoría de los casos, el usuario usará una declaración simple que significa "todos los bots".

Optimización SEO

optimización seo
optimización seo

Antes de optimizar, el usuario debe asegurarse de no bloquear ningún contenido o sección del sitio que deba omitirse. No se respetarán los enlaces a páginas bloqueadas por el txt de Robots correcto. Esto significa:

  1. Si no están vinculados a otras páginas disponibles para los motores de búsqueda, es decir. páginas,no está bloqueado por robots.txt o un meta robot, y los recursos relacionados no se rastrearán y, por lo tanto, no se pueden indexar.
  2. No se puede pasar ningún enlace desde una página bloqueada al destino del enlace. Si existe tal página, es mejor usar un mecanismo de bloqueo diferente al de robots.txt.

Debido a que otras páginas pueden enlazar directamente con una página que contiene información personal y desea bloquear esta página de los resultados de búsqueda, use un método diferente, como protección con contraseña o metadatos sin índice. Algunos motores de búsqueda tienen múltiples agentes de usuario. Por ejemplo, Google usa Googlebot para búsquedas orgánicas y Googlebot-Image para búsquedas de imágenes.

La mayoría de los agentes de usuario del mismo motor de búsqueda siguen las mismas reglas, por lo que no es necesario especificar directivas para cada uno de varios rastreadores, pero poder hacerlo puede ajustar el rastreo del contenido del sitio. El motor de búsqueda almacena en caché el contenido del archivo y, por lo general, actualiza el contenido almacenado en caché al menos una vez al día. Si el usuario cambia el archivo y desea actualizarlo más rápido de lo normal, puede enviar la URL de robots.txt a Google.

Motores de búsqueda

Comprobación de la existencia de un archivo de robot
Comprobación de la existencia de un archivo de robot

Para comprender cómo funciona correctamente Robots txt, debe conocer las capacidades de los motores de búsqueda. En definitiva, su capacidad radica en que envían "escáneres", que son programas quenavegar por Internet en busca de información. Luego almacenan parte de esta información para luego pasarla al usuario.

Para muchas personas, Google ya es Internet. De hecho, tienen razón, ya que este es quizás su invento más importante. Y aunque los motores de búsqueda han cambiado mucho desde su creación, los principios subyacentes siguen siendo los mismos. Los rastreadores, también conocidos como "bots" o "arañas", encuentran páginas de miles de millones de sitios web. Los motores de búsqueda les dan indicaciones sobre dónde ir, mientras que los sitios individuales también pueden comunicarse con los bots y decirles qué páginas específicas deben consultar.

Por lo general, los propietarios de sitios no quieren aparecer en los motores de búsqueda: páginas de administración, portales backend, categorías y etiquetas, y otras páginas de información. El archivo robots.txt también se puede usar para evitar que los motores de búsqueda revisen las páginas. En resumen, robots.txt les dice a los rastreadores web qué hacer.

Prohibir páginas

Esta es la parte principal del archivo de exclusión de robots. Con una simple declaración, el usuario le dice a un bot o grupo de bots que no rastreen ciertas páginas. La sintaxis es simple, por ejemplo, para denegar el acceso a todo en el directorio "admin" del sitio, escriba: Disallow: /admin. Esta línea evitará que los bots rastreen yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html y cualquier otra cosa bajo el directorio de administración.

Para prohibir una página, simplemente especifíquela en la línea de rechazo: Disallow: /public/exception.html. Ahora la página de "excepción"no migrará, pero todo lo demás en la carpeta "pública" lo hará.

Para incluir varias páginas, simplemente enumérelas:

directorios y paginas
directorios y paginas

Estas cuatro líneas del texto de Robots correcto para symphony se aplicarán a cualquier agente de usuario que aparezca en la parte superior de la secciónrobots.txt para

Prohibir páginas
Prohibir páginas

Mapa del sitio:

Otros comandos:live - no permitir que los rastreadores web indexen cpresources/ o proveedor/.

Agente de usuario:No permitir: /cpresources/.

Denegar: /proveedor / No permitir: /.env.

Estableciendo estándares

El usuario puede especificar páginas específicas para diferentes bots combinando los dos elementos anteriores, así es como se ve. A continuación se presenta un ejemplo del texto Robots correcto para todos los motores de búsqueda.

Establecen normas
Establecen normas

Las secciones "administrador" y "privado" serán invisibles para Google y Bing, pero Google seguirá viendo el directorio "secreto", mientras que Bing no. Puede especificar reglas generales para todos los bots utilizando el agente de usuario de asterisco y luego dar instrucciones específicas a los bots en las siguientes secciones. Con el conocimiento anterior, el usuario puede escribir un ejemplo del texto Robots correcto para todos los motores de búsqueda. Simplemente inicie su editor de texto favorito y dígales a los bots que no son bienvenidos en ciertas partes del sitio.

Consejos para mejorar el rendimiento del servidor

SublimeText esun editor de texto versátil y el estándar de oro para muchos programadores. Además, sus consejos de programación se basan en una codificación eficiente. los usuarios aprecian la presencia de accesos directos en el programa. Si el usuario desea ver un ejemplo de un archivo robots.txt, debe ir a cualquier sitio y agregar "/robots.txt" al final. Aquí hay parte del archivo robots.txt GiantBicycles.

El programa proporciona la creación de páginas que los usuarios no quieren mostrar en los motores de búsqueda. Y también tiene algunas cosas exclusivas que pocas personas conocen. Por ejemplo, mientras que el archivo robots.txt les dice a los bots dónde no deben ir, el archivo del mapa del sitio hace lo contrario y les ayuda a encontrar lo que están buscando, y aunque los motores de búsqueda probablemente ya sepan dónde se encuentra el mapa del sitio, no obtiene en el camino.

Hay dos tipos de archivos: página HTML o archivo XML. Una página HTML es aquella que muestra a los visitantes todas las páginas disponibles en un sitio web. En su propio archivo robots.txt, se ve así: Sitemap://www.makeuseof.com/sitemap_index.xml. Si el sitio no está indexado por los motores de búsqueda, aunque los robots web lo han rastreado varias veces, debe asegurarse de que el archivo esté presente y que sus permisos estén configurados correctamente.

Por defecto, esto sucederá con todas las instalaciones de SeoToaster, pero si es necesario, puede restablecerlo de esta manera: Archivo robots.txt - 644. Dependiendo del servidor PHP, si esto no funciona para el usuario, Se recomienda probar lo siguiente: Archivo robots.txt - 666.

Configurar el retraso de escaneo

La directiva de demora de derivación informa a ciertosmotores de búsqueda con qué frecuencia pueden indexar una página en el sitio. Se mide en segundos, aunque algunos motores de búsqueda lo interpretan de forma ligeramente diferente. Algunas personas ven el retraso de rastreo 5 cuando se les dice que esperen cinco segundos después de cada escaneo para iniciar el siguiente.

Otros interpretan esto como una instrucción para escanear solo una página cada cinco segundos. El robot no puede escanear más rápido para conservar el ancho de banda del servidor. Si el servidor necesita coincidir con el tráfico, puede establecer un retraso de omisión. En general, en la mayoría de los casos, los usuarios no necesitan preocuparse por esto. Así es como se configura el retardo de rastreo de ocho segundos - Crawl-delay: 8.

Pero no todos los motores de búsqueda obedecerán esta directiva, por lo que al rechazar páginas, puede establecer diferentes retrasos de rastreo para ciertos motores de búsqueda. Después de configurar todas las instrucciones en el archivo, puede cargarlo en el sitio, primero asegúrese de que sea un archivo de texto simple y tenga el nombre robots.txt y se pueda encontrar en yoursite.com/robots.txt.

El mejor bot de WordPress

Mejor robot de WordPress
Mejor robot de WordPress

Hay algunos archivos y directorios en un sitio de WordPress que deben bloquearse cada vez. Los directorios que los usuarios deben prohibir son el directorio cgi-bin y los directorios estándar de WP. Algunos servidores no permiten el acceso al directorio cgi-bin, pero los usuarios deben incluirlo en la directiva de rechazo antes de configurar correctamente Robots txt WordPress

Directorios estándar de WordPress,los que deberían bloquear son wp-admin, wp-content, wp-includes. Estos directorios no contienen datos que inicialmente sean útiles para los motores de búsqueda, pero hay una excepción, es decir, hay un subdirectorio llamado uploads en el directorio wp-content. Este subdirectorio debe estar permitido en el archivo robot.txt, ya que incluye todo lo que se carga mediante la función de carga de medios de WP. WordPress usa etiquetas o categorías para estructurar el contenido.

Si se utilizan categorías, entonces para crear el texto Robots correcto para Wordpress, según lo especificado por el fabricante del programa, es necesario bloquear los archivos de etiquetas de la búsqueda. Primero, verifican la base de datos yendo al panel "Administración"> "Configuración"> "Enlace permanente".

Por defecto, la base es la etiqueta, si el campo está vacío: No permitir: /etiqueta/. Si se utiliza una categoría, debe deshabilitar la categoría en el archivo robot.txt: Disallow: /category/. Por defecto, la base es la etiqueta, si el campo está vacío: Disallow: /tag/. Si se utiliza una categoría, debe deshabilitar la categoría en el archivo robot.txt: Disallow: /category /.

Archivos utilizados principalmente para mostrar contenido, serán bloqueados por el archivo txt de Robots correcto para Wordpress:

Texto de robots para wordpress
Texto de robots para wordpress

Configuración básica de Joomla

Una vez que el usuario haya instalado Joomla, debe ver la configuración correcta de txt de Joomla Robots en la configuración global, que se encuentra en el panel de control. Algunas configuraciones aquí son muy importantes para el SEO. Primero busque el nombre del sitio y asegúrese de quese utiliza el nombre abreviado del sitio. Luego encuentran un grupo de configuraciones a la derecha de la misma pantalla, que se llama configuración de SEO. El que definitivamente tendrá que cambiar es el segundo: use una URL de reescritura.

Esto suena complicado, pero básicamente ayuda a Joomla a crear URL más limpias. Más notable si elimina la línea index.php de las URL. Si lo cambia más tarde, las URL cambiarán y a Google no le gustará. Sin embargo, al cambiar esta configuración, se deben tomar varios pasos al mismo tiempo para crear el txt de robots correcto para Joomla:

  1. Encuentre el archivo htaccess.txt en la carpeta raíz de Joomla.
  2. Márcalo como.htaccess (sin extensión).
  3. Incluye el nombre del sitio en los títulos de las páginas.
  4. Encuentre la configuración de metadatos en la parte inferior de la pantalla de configuración global.

Robot en la nube MODX

Robot en la Nube MODX
Robot en la Nube MODX

Anteriormente, MODX Cloud brindaba a los usuarios la capacidad de controlar el comportamiento de permitir que se sirviera el archivo robots.txt en función de una palanca en el tablero. Si bien esto fue útil, fue posible permitir accidentalmente la indexación en sitios de prueba/desarrollo al alternar una opción en el Tablero. Del mismo modo, fue fácil deshabilitar la indexación en el sitio de producción.

Hoy, el servicio asume la presencia de archivos robots.txt en el sistema de archivos con la siguiente excepción: cualquier dominio que termine con modxcloud.com servirá como Disallow: /directive para todos los agentes de usuario, independientemente de la presencia o ausencia del expediente. Los sitios de producción que reciben tráfico real de visitantes deberán usar su propio dominio si el usuario desea indexar su sitio.

Algunas organizaciones usan el texto Robots correcto para modx para ejecutar múltiples sitios web desde una sola instalación usando Contextos. Un caso en el que esto podría aplicarse sería un sitio de marketing público combinado con micrositios de página de destino y posiblemente una intranet no pública.

Tradicionalmente, esto ha sido difícil de hacer para instalaciones multiusuario, ya que comparten la misma red raíz. Con MODX Cloud, esto es fácil. Simplemente cargue un archivo adicional en un sitio web llamado robots-intranet.example.com.txt con el siguiente contenido y bloqueará la indexación con robots que funcionen bien y todos los demás nombres de host volverán a los archivos estándar a menos que haya otros nodos de nombre específicos.

Robots.txt es un archivo importante que ayuda al usuario a vincular el sitio en Google, los principales motores de búsqueda y otros sitios web. Ubicado en la raíz de un servidor web, el archivo instruye a los robots web para rastrear un sitio, establecer qué carpetas debe o no indexar, utilizando un conjunto de instrucciones llamado Protocolo de exclusión de bots. Un ejemplo de Robots txt correcto para todos los motores de búsqueda obots.txt es especialmente fácil de hacer con SeoToaster. Se ha creado un menú especial para él en el panel de control, por lo que el bot nunca tendrá que trabajar demasiado para obtener acceso.

Recomendado: