Se me ha dado el caso de necesitar desindexar un subdominio de desarrollo que era un clón del dominio de producció. El subdominio ha llegado a indexar más pàginas que las propias de producción, y teniendo en cuenta que replica contenidos, esto es un problema, si tenemos en cuenta que los buscadores, en especial Google, lo pueden considerar contenido duplicado, lo que puede implicar sanciones en el posicionamiento.
Parece ser que una opción pasa por añadir redirecciones 301 al subdominio de forma que todas las URLs sean redirigidas a su equivalente en el dominio de producción, pero este proceso es lento. Hablamos de semanas o incluso meses en el caso de cantidades considerables de URLs.
La alternativa es dar de alta el dominio en las Webmaster Tools, verificarlo y realizar una petición de eliminación de contenido desde la propia herramienta. En concreto lo podemos hacer desde el menú Google Index > Remove URLs
En esta sección nos encontraremos con un botón para crear una nueva petición de borrado de URLS. Nos pedirá que introduzcamos la URL a eliminar. Ya que deseamos eliminar todas las páginas del subdominio, hay que dejar el campo en blanco. En este punto seguramente notemos un pequeño ataque de ansiedad al imaginar que este proceso desindexe, no sólo el subdominio, sino también el dominio de producción, con lo catastrófico que puede ser para el SEO de la página principal. No pasará, así que coge aire y se valiente 😉
Lo siguiente que habrá que responder es si queremos eliminar la indexación únicamente o también la caché de las páginas. En nuestro caso, evidentemente, deseamos borrarlo todo.
Una vez enviada la petición, por mi propia experiencia, Google viene a tardar apenas 3 horas en desindexar el subdominio por completo. Algo que es de agradecer porqué nos permite corregir errores en URLs de forma rápida.
Como rezan en las propias páginas de soporte de Webmaster Tools, el proceso de eliminado por petición tiene una durabilidad, después de la cual Google vuelve a indexar aquello que sea indexable por lo que recomiendan que indiquemos por las vías habituales que URLs deben de ser indexadas y cuales no.
Si deseamos evitar que un subdominio se indexe por completo, una buena opción es la configuración del fichero robots.txt, situado en la raíz del subdominio, y que debería de contener lo siguiente:
User-agent: *
Disallow: /
Con esto le decimos a todos los bots que no indexen nada de lo que cuelga del directorio raíz y cerramos el proceso.
Rene says
Muchas gracias por la ayuda, Vicent!!!
Estuve dando unas cuantas vueltas antes de encontrar tu artículo y DEJAR EN BLANCO el campo correspondiente en Google Webmasters Tools.
Compartido en G+ y Twitter. Muchas gracias de nuevo. Saludos.
René
admin says
Me alegro que te haya servido. Para eso estamos.
Abrazo
Fabiro Mifune says
Hola.
Tengo una pregunta; el archivo robot.txt debe contener sólo y únicamente el texto:
User-agent: *
Disallow: /
?
Gracias de antemano. Buen artículo!
admin says
Hola Fabiro,
en principio sí. De lo que se trata es de decirle a los robots que dejen de indexar el subdominio y esa configuración lo permite.
Abrazo
Albert says
Buenas, tengo una duda. Sabrías decirme como puedo saber las páginas que tiene indexadas en subdominios una determinada página web?
Quiero hacerlo utilizando los comandos de búsqueda de Google. Por ejemplo:
site:marca.com
inurl:marca.com
Tengo la duda de si en mi pregunta debería utiliar el ‘inurl:…’
gracias!
admin says
Hola Albert,
entiendo que una opción es ir subdominio a subdominio con la query ‘site:subdominio.marca.com’. No obstante puede que haya algo más óptimo. Si lo encuentras te pido que lo compartas por aquí.
Jesus says
Muchas gracias, funcionó perfectamente.
Enrique Martínez says
Gracias por la publicación!! tiene varios años pero sigue siendo así, no conocía tu blog, estaré más atento para más trucos de PHP,
gracias!!
Pierre says
Hola, con la nueva version de search console, di de alta el subdominio como si fuera una web aparte. Para borrar el subdominio tengo que poner el nombre completo para que elimine todas las url? no quiero que el dominio principal sufra una desindexación, solo lo que contiene el subdominio, que me genera contenido duplicado. Gracias