Se me ha dado el caso de necesitar desindexar un subdominio de desarrollo que era un clón del dominio de producció. El subdominio ha llegado a indexar más pàginas que las propias de producción, y teniendo en cuenta que replica contenidos, esto es un problema, si tenemos en cuenta que los buscadores, en especial Google, lo pueden considerar contenido duplicado, lo que puede implicar sanciones en el posicionamiento.
Parece ser que una opción pasa por añadir redirecciones 301 al subdominio de forma que todas las URLs sean redirigidas a su equivalente en el dominio de producción, pero este proceso es lento. Hablamos de semanas o incluso meses en el caso de cantidades considerables de URLs.
La alternativa es dar de alta el dominio en las Webmaster Tools, verificarlo y realizar una petición de eliminación de contenido desde la propia herramienta. En concreto lo podemos hacer desde el menú Google Index > Remove URLs
En esta sección nos encontraremos con un botón para crear una nueva petición de borrado de URLS. Nos pedirá que introduzcamos la URL a eliminar. Ya que deseamos eliminar todas las páginas del subdominio, hay que dejar el campo en blanco. En este punto seguramente notemos un pequeño ataque de ansiedad al imaginar que este proceso desindexe, no sólo el subdominio, sino también el dominio de producción, con lo catastrófico que puede ser para el SEO de la página principal. No pasará, así que coge aire y se valiente 😉
Lo siguiente que habrá que responder es si queremos eliminar la indexación únicamente o también la caché de las páginas. En nuestro caso, evidentemente, deseamos borrarlo todo.
Una vez enviada la petición, por mi propia experiencia, Google viene a tardar apenas 3 horas en desindexar el subdominio por completo. Algo que es de agradecer porqué nos permite corregir errores en URLs de forma rápida.
Como rezan en las propias páginas de soporte de Webmaster Tools, el proceso de eliminado por petición tiene una durabilidad, después de la cual Google vuelve a indexar aquello que sea indexable por lo que recomiendan que indiquemos por las vías habituales que URLs deben de ser indexadas y cuales no.
Si deseamos evitar que un subdominio se indexe por completo, una buena opción es la configuración del fichero robots.txt, situado en la raíz del subdominio, y que debería de contener lo siguiente:
User-agent: *
Disallow: /
Con esto le decimos a todos los bots que no indexen nada de lo que cuelga del directorio raíz y cerramos el proceso.