Indexación: crawl budget, noindex y canonical sin romper nada

Cómo funciona la indexación y sus tres palancas: gestionar el crawl budget, usar noindex con seguridad y canonicals coherentes que consolidan señales.

Antes de posicionar hay que existir: la indexación es la admisión de tus páginas en la base de datos de Google, y su gestión (qué entra, qué no, y cómo se reparte la atención del robot) es el corazón del SEO técnico. Crawl budget, noindex y canonical: las tres palancas, explicadas para usarlas sin romper nada.

Cómo funciona: rastreo → indexación → ranking

Googlebot rastrea tus URLs (las descubre y descarga), Google decide cuáles indexa (cuáles merecen entrar en el índice) y solo lo indexado compite por posicionar. Cada fase puede fallar: páginas no descubiertas (huérfanas), descubiertas pero no indexadas (calidad o señales contradictorias), e indexadas que no deberían (basura diluyendo el sitio).

Crawl budget: la atención limitada del robot

Google dedica a cada sitio un presupuesto de rastreo proporcional a su autoridad y salud. En webs pequeñas sobra; en sitios con miles de URLs (fichas, filtros, archivos) se desperdicia en basura: parámetros, paginaciones infinitas, duplicados. La higiene: arquitectura limpia, enlazado que prioriza lo importante, sitemap solo con URLs indexables y bloqueo en robots.txt de las zonas sin valor de búsqueda (carritos, filtros combinatorios, resultados internos).

Noindex: la puerta de salida controlada

La metaetiqueta noindex saca (o mantiene fuera) una página del índice sin borrarla: para legales, páginas de gracias, archivos pobres y todo lo que debe existir para usuarios pero no competir en Google. Dos reglas de seguridad: no bloquees en robots.txt lo que lleva noindex (si el robot no entra, no lee la orden) y revisa tras cada cambio de tema o plugin: los noindex accidentales en contenido valioso son el clásico desplome inexplicable.

Canonical: el portavoz de los duplicados

Cuando varias URLs sirven contenido igual o casi (parámetros, versiones imprimibles, productos en varias categorías), la etiqueta canonical declara cuál es la oficial: las señales se consolidan en ella. Es una sugerencia que Google suele respetar si es coherente: canonicals que apuntan a redirecciones, a páginas distintas o en cadena son las incoherencias que el informe de indexación de Search Console destapa.

Preguntas frecuentes

¿Por qué Google no indexa una página correcta?
Las causas habituales por orden: contenido que Google juzga insuficiente o duplicado, página huérfana o mal enlazada, señales contradictorias (canonical o noindex heredados) y, en sitios nuevos, simple cola de confianza. El inspector de URLs de Search Console dice en cuál estás.
¿Debo preocuparme por el crawl budget en un blog?
Con cientos de URLs, no: Google sobra. La gestión activa empieza en los miles (directorios, e-commerce, archivos masivos), donde la basura rastreable compite por la atención con tu contenido real.
¿Cuál es la diferencia práctica entre noindex y robots.txt?
Robots.txt prohíbe entrar (ahorra rastreo, pero la URL puede indexarse sin contenido si la enlazan); noindex deja entrar y prohíbe indexar (la saca del índice de verdad). Para excluir del índice: noindex. Para ahorrar rastreo masivo: robots.txt. Nunca ambos sobre la misma URL.

Por dónde seguir

La indexación es la fase 1 de la auditoría SEO y vive dentro del SEO técnico paso a paso. Su herramienta de control diaria: Search Console a fondo.