¿Qué es la indexación de sitios web? ¿Cómo sucede? Puede encontrar respuestas a estas y otras preguntas en el artículo. La indexación web (indexación en motores de búsqueda) es el proceso de agregar información sobre un sitio a la base de datos por parte de un robot de motor de búsqueda, que posteriormente se utiliza para buscar información sobre proyectos web que se han sometido a dicho procedimiento.
Los datos sobre los recursos web suelen consistir en palabras clave, artículos, enlaces y documentos. También se pueden indexar audio, imágenes, etc. Se sabe que el algoritmo de detección de palabras clave depende del motor de búsqueda.
Hay alguna limitación en los tipos de información indexada (archivos flash, javascript).
Gestión de iniciación
La indexación de un sitio es un proceso complejo. Para administrarlo (por ejemplo, para prohibir el archivo adjunto de una página en particular), debe usar el archivo robots.txt e instrucciones como Permitir, No permitir, Retardo de rastreo, Agente de usuario y otros.
Además, las etiquetas y accesorios se usan para indexar, ocultando el contenido del recurso de los robots de Google y Yandex (Yahoo usa la etiqueta).
En el motor de búsqueda de Goglle, los sitios nuevos se indexan desde un par de días hasta una semana, y en Yandex, desde una hasta cuatro semanas.
¿Quiere que su sitio aparezca en las consultas de resultados de los motores de búsqueda? Luego debe ser procesado por Rambler, Yandex, Google, Yahoo, etc. Debe informar a los motores de búsqueda (arañas, sistemas) sobre la existencia de su sitio web, y luego lo rastrearán en su totalidad o en parte.
Muchos sitios no han sido indexados durante años. La información que contienen no la ve nadie excepto sus dueños.
Métodos de procesamiento
La indexación de un sitio se puede hacer de varias maneras:
- La primera opción es la adición manual. Debe ingresar los datos de su sitio a través de formularios especiales ofrecidos por los motores de búsqueda.
- En el segundo caso, el propio robot del motor de búsqueda encuentra su sitio web mediante enlaces y lo indexa. Puede encontrar su sitio mediante enlaces de otros recursos que conducen a su proyecto. Este método es el más eficiente. Si un motor de búsqueda encuentra un sitio de esta manera, lo considera significativo.
Tiempo
La indexación del sitio no es demasiado rápida. Los términos varían, de 1 a 2 semanas. Los enlaces de recursos autorizados (con excelentes relaciones públicas y Titz) aceleran significativamente la ubicación del sitio en la base de datos del motor de búsqueda. A día de hoy, Google es considerado el más lento, aunque hasta 2012 podía hacer este trabajo en una semana. ADesafortunadamente, las cosas cambian muy rápido. Se sabe que Mail.ru ha estado trabajando con sitios web en esta área durante unos seis meses.
No todos los especialistas pueden indexar un sitio en los motores de búsqueda. El momento de agregar nuevas páginas a la base de datos de un sitio ya procesado por los motores de búsqueda se ve afectado por la frecuencia de actualización de su contenido. Si constantemente aparece información fresca sobre un recurso, el sistema considera que se actualiza con frecuencia y es útil para las personas. En este caso, su trabajo se acelera.
Puede seguir el progreso de indexación de un sitio web en secciones especiales para webmasters o en motores de búsqueda.
Cambios
Entonces, ya hemos descubierto cómo se indexa el sitio. Cabe señalar que las bases de datos de los motores de búsqueda se actualizan con frecuencia. Por lo tanto, el número de páginas de su proyecto añadidas puede cambiar (tanto disminuir como aumentar) por las siguientes razones:
- sanciones del motor de búsqueda contra el sitio web;
- la presencia de errores en el sitio;
- cambiando los algoritmos del motor de búsqueda;
- hosting repugnante (inaccesibilidad del servidor donde se encuentra el proyecto) y así sucesivamente.
Yandex responde a preguntas comunes
"Yandex" es un motor de búsqueda utilizado por muchos usuarios. Ocupa el quinto lugar entre los sistemas de búsqueda del mundo en términos del número de solicitudes de investigación procesadas. Si le agregó un sitio, es posible que tarde demasiado en agregarse a la base de datos.
Agregar una URL no garantiza su indexación. Este es solo uno de los métodos por los cuales se le dice al robot del sistemasobre un nuevo recurso. Si hay pocos o ningún enlace a un sitio desde otros sitios web, agregarlo lo ayudará a encontrarlo más rápido.
Si no se realizó la indexación, debe verificar si hubo fallas en el servidor al momento de crear una aplicación para él desde el robot Yandex. Si el servidor informa un error, el robot terminará su trabajo e intentará completarlo en una orden de ida y vuelta. Los empleados de Yandex no pueden aumentar la velocidad de agregar páginas a la base de datos del motor de búsqueda.
Indizar un sitio en Yandex es una tarea bastante difícil. ¿No sabes cómo agregar un recurso a un motor de búsqueda? Si hay enlaces a él desde otros sitios web, entonces no necesita agregar un sitio especial: el robot lo encontrará automáticamente y lo indexará. Si no tiene tales enlaces, puede usar el formulario "Agregar URL" para decirle al motor de búsqueda que el sitio existe.
Recuerde que agregar una URL no garantiza que su creación sea indexada (o indexada).
Muchas personas se preguntan cuánto tiempo lleva indexar un sitio en Yandex. Los empleados de esta empresa no dan garantías y no prevén plazos. Como regla general, desde que el robot descubrió el sitio, sus páginas en la búsqueda aparecen en dos días, a veces en un par de semanas.
Proceso
"Yandex" es un motor de búsqueda que requiere precisión y atención. La indexación del sitio consta de tres partes:
- El robot de búsqueda rastrea las páginas de recursos.
- Contenido(contenido) del sitio se registra en la base de datos (índice) del sistema de búsqueda.
- En 2 a 4 semanas, después de actualizar la base de datos, puede ver los resultados. Su sitio aparecerá (o no aparecerá) en los resultados de búsqueda.
Comprobación de indexación
¿Cómo verificar la indexación del sitio web? Hay tres formas de hacerlo:
- Ingrese el nombre de su negocio en la barra de búsqueda (por ejemplo, "Yandex") y verifique cada enlace en la primera y segunda página. Si encuentra allí la URL de su creación, entonces el robot ha completado su tarea.
- Puede ingresar la URL de su sitio web en la barra de búsqueda. Podrá ver cuántas hojas de Internet se muestran, es decir, indexadas.
- Regístrese en las páginas de webmasters en Mail.ru, Google, Yandex. Después de pasar la verificación del sitio, podrá ver los resultados de indexación y otros servicios de motor de búsqueda creados para mejorar el rendimiento de su recurso.
¿Por qué falla Yandex?
La indexación de un sitio en Google se realiza de la siguiente manera: el robot ingresa en la base de datos todas las páginas del sitio, de baja y alta calidad, sin seleccionar. Pero solo los documentos útiles se incluyen en la clasificación. Y "Yandex" excluye inmediatamente toda la basura web. Puede indexar cualquier página, pero el motor de búsqueda eventualmente eliminará toda la basura.
Ambos sistemas tienen un índice incremental. Ambas páginas de baja calidad afectan la clasificación del sitio web en su conjunto. Hay una filosofía simple en el trabajo aquí. Recursos favoritos de un particularel usuario ocupará posiciones superiores en su emisión. Pero esta misma persona tendrá dificultades para encontrar un sitio que no le haya gustado la última vez.
Por eso, en primer lugar, es necesario evitar que las copias de los documentos web se indexen, comprobar si hay páginas vacías y evitar que se indexe el contenido de baja calidad.
Acelerar Yandex
¿Cómo puedo acelerar la indexación de sitios en Yandex? Sigue estos pasos:
- Instala el navegador Yandex en tu computadora y úsalo para navegar por las páginas del sitio.
- Confirme los derechos para administrar el recurso en Yandex. Webmaster.
- Publica un enlace al artículo en Twitter. Se sabe que Yandex coopera con esta empresa desde 2012.
- Agregar búsqueda de Yandex para el sitio. En la sección "Indización", puede ingresar sus propias URL.
- Ingrese el código "Yandex. Metrica" sin marcar "Prohibido enviar páginas para indexación".
- Produzca un Sitemap que exista solo para el robot y no sea visible para la audiencia. La verificación comenzará con él. La dirección del mapa del sitio se ingresa en robots.txt o en la forma apropiada en "Webmaster" - "Configuración de indexación" - "Archivos del mapa del sitio".
Acciones intermedias
¿Qué se debe hacer hasta que Yandex indexe la página web? El motor de búsqueda nacional debe considerar el sitio como la fuente principal. Por eso, incluso antes de la publicación del artículo, es imperativo agregar su contenido en forma de "Textos específicos". De lo contrariolos plagiadores copiarán el registro a su recurso y serán los primeros en la base de datos. Como resultado, serán reconocidos como autores.
Base de datos de Google
Para Google, las mismas recomendaciones que describimos anteriormente son adecuadas, solo que los servicios serán diferentes:
- Google+ (en sustitución de Twitter);
- Google Chrome;
- Herramientas de Google para programadores - "Escanear" - "Parece Googlebot" - opción "Escanear" - opción "Índice";
- buscar dentro de un recurso de Google;
- Google Analytics (en lugar de Yandex. Metrics).
Prohibición
¿Qué es una prohibición de indexación de sitios? Puede superponerlo tanto en la página completa como en una parte separada de ella (enlace o fragmento de texto). De hecho, existe una prohibición de indexación global y una local. ¿Cómo se implementa?
Consideremos la prohibición de agregar un sitio web a la base de datos del motor de búsqueda en Robots.txt. Usando el archivo robots.txt, puede excluir la indexación de una página o un encabezado de recurso completo como este:
- Usuario-agente:
- Rechazar: /kolobok.html
- Rechazar: /foto/
El primer punto dice que las instrucciones están definidas para todos los PS, el segundo indica que está prohibida la indexación del archivo kolobok.html y el tercero no permite agregar todo el relleno de la carpeta de fotos a la base de datos. Si necesita excluir varias páginas o carpetas, especifíquelas todas en Robots.
Para evitar la indexación de una hoja de Internet en particular, puede usar la metaetiqueta robots. Es diferente de robots.txtel hecho de que da instrucciones a todos los PS a la vez. Esta metaetiqueta sigue los principios generales del formato html. Debe colocarse en el título de la página entre las etiquetas. Una entrada para una prohibición, por ejemplo, podría escribirse así:.
Ajax
¿Cómo indexa Yandex los sitios Ajax? Hoy en día, muchos desarrolladores de sitios web utilizan la tecnología Ajax. Por supuesto, ella tiene un gran potencial. Con él, puede crear páginas web interactivas rápidas y productivas.
Sin embargo, el robot del motor de búsqueda "ve" la lista web de forma diferente al usuario y al navegador. Por ejemplo, una persona mira una interfaz cómoda con hojas de Internet cargadas de forma móvil. Para un rastreador, el contenido de la misma página puede estar vacío o presentarse como el resto del contenido HTML estático, para el cual los scripts no funcionan.
Puede usar una URL conpara crear sitios Ajax, pero el motor de búsqueda no la usa. Por lo general, la parte de la URL después deestá separada. Esto debe tenerse en cuenta. Por lo tanto, en lugar de una URL como https://site.ru/example, realiza una solicitud a la página principal del recurso ubicado en https://site.ru. Esto significa que es posible que el contenido de la hoja de Internet no entre en la base de datos. Como resultado, no aparecerá en los resultados de búsqueda.
Para mejorar la indexación de los sitios Ajax, Yandex admitió cambios en el robot de búsqueda y las reglas para procesar las URL de dichos sitios web. Hoy, los webmasters pueden indicar al motor de búsqueda Yandex la necesidad de indexación creando un esquema apropiado en la estructura de recursos. Para esto necesitas:
- Reemplaza el símboloen la URL de las páginassobre el !. Ahora el robot comprenderá que puede solicitar la versión HTML del contenido de esta hoja de Internet.
- La versión HTML del contenido de dicha página debe colocarse en una URL donde ! reemplazado con ?_escaped_fragment_=.