La mayoría de tutoriales sobre la guía SEO técnica de Screaming Frog se limitan a mostrar cómo instalar el programa, lanzar un crawl y revisar títulos duplicados. Eso no es auditar un sitio, es darle un vistazo superficial. Tras diez años auditando webs complejas, la diferencia entre un análisis útil y uno vacío está en seis pilares técnicos que el 90% de las guías ignora.
En este artículo voy a desarrollar un framework operativo para usar el SEO Spider como lo que es en realidad: un motor de análisis configurable capaz de procesar millones de URLs, renderizar JavaScript como Chrome, extraer datos arbitrarios con XPath, conectarse a APIs externas y comparar crawls para detectar regresiones. Todo enfocado al contexto 2026, con AI Overviews ya asentadas en las SERPs.
Indice
- 1 Fundamentos de la arquitectura del crawler en 2026
- 2 Pilar 1: configuración de memoria y modo de almacenamiento para crawls masivos
- 3 Pilar 2: JavaScript rendering y ajustes para webs modernas
- 4 Pilar 3: extracción custom con XPath, CSS Path y regex
- 5 Pilar 4: integración con APIs (GSC, GA4, PageSpeed y Ahrefs)
- 6 Pilar 5: análisis comparativo de crawls y detección de cambios
- 7 Pilar 6: Log File Analyser como complemento para entender a Googlebot
- 8 Integración del framework: auditoría técnica completa en siete fases
- 9 Aplicación práctica: casos de uso avanzados en sitios con AI Overviews
- 10 Preguntas frecuentes
Fundamentos de la arquitectura del crawler en 2026
Screaming Frog SEO Spider es un crawler de escritorio que recorre un sitio web emulando a un robot de buscador, recopilando datos técnicos de cada URL (códigos de respuesta, metadatos, enlaces, recursos, estructura) y permitiendo su análisis en tabla. En 2026, su versión vigente es la v.23.3 y sigue siendo la referencia para auditorías técnicas serias.
La arquitectura interna del spider cambió de forma relevante hace tres años cuando introdujeron el modo Database Storage. Antes, la única opción era Memory Storage, lo que limitaba los crawls al tamaño de la RAM disponible. Con un portátil de 16 GB se podía rastrear en torno a 250.000 URLs en condiciones razonables. Hoy, con Database Storage y un SSD decente, he rastreado sitios de 8 millones de URLs sin problemas críticos.
¿Por qué importa entender la arquitectura antes de tocar un botón? Porque el 60% de los problemas que la gente atribuye a la herramienta («se queda colgado», «se cierra solo», «tarda horas») son errores de configuración. El crawler no está mal dimensionado: está mal configurado para el caso concreto.
Versión gratuita vs licencia: qué cambia realmente
La versión gratuita rastrea hasta 500 URLs por crawl y desactiva funciones críticas como configuración de robots personalizada, JavaScript rendering, extracción custom, conexión a APIs, comparación de crawls y scheduled crawls. Para tutoriales y sitios muy pequeños sirve, pero cualquier auditoría profesional requiere licencia de pago, que ronda los 259 USD anuales según el histórico público de precios.
Total, que el debate «gratis vs pago» no tiene sentido en entornos profesionales. Lo relevante es qué funciones de la licencia usa cada auditor y cuáles ignora por desconocimiento.
Pilar 1: configuración de memoria y modo de almacenamiento para crawls masivos
Este es el primer punto donde los auditores sin experiencia se estrellan. El crawler ofrece dos modos de almacenamiento: Memory Storage (RAM) y Database Storage (disco). La diferencia no es estética, es estructural.
Memory Storage procesa todo en memoria volátil. Es más rápido pero limita el crawl al tamaño de la RAM asignada. Database Storage escribe los datos en un SSD y permite crawls teóricamente ilimitados, aunque con una penalización de velocidad del 15-25% según mis pruebas comparativas con sitios idénticos.
Cuándo usar cada modo
Hace dos años audité un ecommerce con 380.000 URLs activas más variantes. Lo intenté con Memory Storage y 32 GB de RAM asignados. Resultado: el crawl se congeló al llegar al 62%. Cambié a Database Storage, reinicié el proceso y terminó en 14 horas sin un solo fallo. Desde entonces, mi regla es simple: por debajo de 100.000 URLs, Memory Storage; por encima, Database Storage sin discusión.
¿Y los sitios medios, entre 100.000 y 300.000 URLs? Depende de la RAM disponible y de si vas a ejecutar otras aplicaciones en paralelo. Si el equipo se dedica exclusivamente al crawl, Memory Storage con 24-32 GB asignados rinde mejor. Si el equipo tiene otros procesos activos, Database Storage evita el colapso.
Procedimiento para configurar Database Storage
- Abrir Configuration → System → Storage Mode
- Seleccionar «Database Storage»
- Elegir ubicación en SSD con mínimo 50 GB libres (no HDD)
- En Memory Allocation, asignar 60-70% de la RAM total del equipo
- Reiniciar el SEO Spider antes del crawl masivo
- Verificar velocidad de escritura del SSD con una prueba de 10.000 URLs
El error más común que cuesta horas
No reiniciar el programa tras cambiar el modo de almacenamiento. El spider no aplica el cambio hasta el reinicio completo. He visto auditores perder crawls de 6 horas por este detalle que la documentación oficial menciona de pasada.
Pilar 2: JavaScript rendering y ajustes para webs modernas
En 2026, una web sin JavaScript es una excepción. Frameworks como React, Vue, Next.js o Angular dominan el ecosistema, y rastrear estos sitios sin renderizar el JS es recoger un 40-70% del contenido real, como he comprobado en al menos 30 auditorías durante los últimos cuatro años.

Text Only vs JavaScript: la decisión clave
El Spider Rendering Tab ofrece dos modos principales: Text Only y JavaScript. En Text Only, el crawler descarga el HTML original y lo analiza tal cual llega del servidor. En modo JavaScript, utiliza un Chromium headless integrado para ejecutar el JS y analizar el DOM renderizado, igual que lo hace Googlebot en la fase de rendering.
La pregunta correcta no es «¿cuál es mejor?», sino «¿qué diferencias hay entre ambos modos en este sitio concreto?». Esa comparación es exactamente lo que hay que auditar. Si el Text Only devuelve 120 enlaces internos por página y el modo JavaScript devuelve 340, tienes un problema de accesibilidad de contenido que afecta al crawl budget.
Configuración técnica recomendada
- Configuration → Spider → Rendering → seleccionar «JavaScript»
- Ajustar AJAX Timeout a 5 segundos (valor por defecto) o 8 si el sitio es lento
- Window Size: Googlebot Smartphone (para alinear con indexación mobile-first)
- Activar «Enable Rendered Page Screenshots» para documentar el rendering
- Flatten Shadow DOM: activar si el sitio usa Web Components
- Activar «Store HTML» y «Store Rendered HTML» para comparar ambos
El caso de los sitios con hidratación parcial
Next.js y Nuxt usan técnicas de hidratación donde parte del HTML viene pre-renderizado del servidor y otra parte se monta en cliente. Auditar este tipo de sitios solo con Text Only genera falsos positivos de contenido faltante. Mi recomendación es ejecutar siempre dos crawls paralelos y usar la comparación de crawls (Pilar 5) para medir el delta entre ambos.
Pilar 3: extracción custom con XPath, CSS Path y regex
Aquí es donde el SEO Spider deja de ser un crawler y se convierte en una herramienta de scraping dirigido. La función Custom Extraction permite extraer cualquier dato de las páginas rastreadas usando tres motores: XPath, CSS Path y regex. En auditorías serias, esta función sustituye a scripts Python para el 80% de los casos de uso.
Diez ejemplos reales de extracción custom que uso en cada auditoría
- Detección de Schema JSON-LD por tipo (Product, Article, FAQ, HowTo)
- Extracción del precio y disponibilidad en ecommerce para validar consistencia
- Conteo de palabras del contenido principal excluyendo menús y footer
- Detección de presencia de tags de analítica o Tag Manager
- Extracción del autor, fecha de publicación y categoría en blogs
- Validación de atributos hreflang en el head
- Identificación de imágenes lazy-loaded y su atributo loading
- Extracción de microdata y breadcrumbs
- Detección de enlaces con rel=»sponsored» o rel=»ugc»
- Validación de la presencia de Core Web Vitals reporting scripts
Procedimiento paso a paso: configurar XPath para extraer autor de blog
- Abrir la URL de ejemplo en Chrome y activar Inspector (F12)
- Localizar el elemento del autor y hacer clic derecho → Copy → Copy XPath
- En Screaming Frog: Configuration → Custom → Custom Extraction
- Añadir nueva extracción, tipo XPath, pegar la expresión copiada
- Seleccionar «Extract Text» para obtener el contenido textual
- Probar con 10-20 URLs antes de lanzar el crawl completo
Regex para los casos que XPath no cubre
Cuando el dato está incrustado en un bloque JSON dentro de una variable JavaScript, XPath no llega. Para esos casos, regex es la solución. He usado regex para extraer IDs de producto de variables JavaScript, parámetros de eventos GA4 dentro de dataLayer push, y configuraciones de A/B testing que afectaban al contenido servido.
Pilar 4: integración con APIs (GSC, GA4, PageSpeed y Ahrefs)
Una de las funciones más infrautilizadas del SEO Spider es el API Access. Permite enriquecer cada URL rastreada con datos externos de Google Search Console, Google Analytics 4, PageSpeed Insights y Ahrefs (entre otras), creando un único tablero donde cada URL tiene datos técnicos, de rendimiento, de tráfico y de autoridad.
Configuración de Google Search Console API
- Configuration → API Access → Google Search Console
- Autorizar la cuenta de Google con permisos sobre la propiedad
- Seleccionar la propiedad correcta (importante: URL-prefix o Domain property)
- Configurar rango de fechas (mínimo 3 meses para datos estables)
- Seleccionar métricas: clics, impresiones, CTR y posición media
- Activar «Match Search Console data with URLs crawled»
Tras el crawl, cada URL muestra los datos de GSC como columnas adicionales. Ordenando por impresiones descendentes y filtrando por códigos 4xx o 5xx, detectas en minutos páginas con visibilidad que están rotas. Ese ejercicio me ha recuperado tráfico en proyectos reales sin tocar una sola línea de contenido.
PageSpeed Insights API para Core Web Vitals
La conexión con PageSpeed Insights permite recoger LCP, CLS, INP y otras métricas de cada URL rastreada, aunque según señala la documentación técnica la integración está limitada por la cuota gratuita de la API de Google (25.000 peticiones diarias). Para auditar un sitio de 50.000 URLs, hay que segmentar el crawl en dos días o usar muestreo representativo.
GA4 e integración con Ahrefs
La integración con GA4 recoge sesiones, engagement rate, usuarios activos y conversiones. Combinado con datos técnicos, permite detectar páginas con tráfico alto pero engagement bajo, que normalmente apuntan a problemas de rendering o contenido no visible. Ahrefs añade referring domains y UR por URL, útil para priorizar qué páginas rotas merecen redirección 301 prioritaria.
Pilar 5: análisis comparativo de crawls y detección de cambios
La función Crawl Comparison es el diferencial silencioso del SEO Spider. Permite comparar dos crawls del mismo sitio (antes y después de un despliegue, por ejemplo) y detectar automáticamente qué URLs han cambiado, cuáles son nuevas, cuáles han desaparecido y qué metadatos se han modificado.
Regression testing tras despliegues de desarrollo
El flujo estándar que aplico con clientes con despliegues frecuentes es el siguiente: se ejecuta un crawl base antes del despliegue (el «snapshot»), se despliega la nueva versión, se ejecuta un segundo crawl idéntico en configuración, y se comparan ambos en Mode → Compare.
En uno de los últimos proyectos que auditamos el equipo de desarrollo introdujo un cambio en el template del blog que añadió un meta robots noindex accidentalmente a 4.700 URLs. La comparación lo detectó en 12 minutos. Sin esa herramienta, el error habría pasado días sin ser visto y la caída de tráfico habría llegado antes que la detección.
Configuración de la comparación
- Lanzar crawl inicial y guardarlo (File → Save)
- Tras el cambio, lanzar crawl idéntico y guardarlo también
- Mode → Compare
- Cargar ambos crawls en orden (Current Crawl y Previous Crawl)
- Configuration → Crawl Comparison → definir qué elementos comparar
- Revisar pestañas: Added, Removed, Missing, Changes
Para equipos con despliegues semanales, este pilar sustituye a auditorías manuales post-despliegue y reduce el tiempo de detección de regresiones de semanas a horas.
Pilar 6: Log File Analyser como complemento para entender a Googlebot
El SEO Spider tiene una segunda herramienta hermana, el Log File Analyser, que la mayoría de auditores ignora. Procesa archivos de log del servidor (access logs) e identifica qué URLs ha visitado Googlebot, con qué frecuencia, qué códigos de respuesta ha recibido y cómo ha distribuido su crawl budget a lo largo del tiempo.
El cruce crítico: logs + crawl
Lo realmente útil no es el análisis aislado de los logs, sino cruzarlos con el crawl del spider. Ahí aparecen cuatro segmentos de URLs que cambian cómo se prioriza el trabajo técnico:
- URLs rastreadas por Googlebot pero no por el spider (contenido generado dinámicamente o por enlazado externo)
- URLs rastreadas por el spider pero no por Googlebot (páginas huérfanas desde el punto de vista del buscador)
- URLs con alta frecuencia de crawl por Googlebot pero bajo tráfico orgánico (candidatas a optimización o consolidación)
- URLs con tráfico pero baja frecuencia de crawl (candidatas a refuerzo interno de enlazado)

Detección de crawl waste
El mayor ahorro de crawl budget que he conseguido en un proyecto fue en un ecommerce donde los logs mostraban que Googlebot dedicaba el 34% de sus peticiones a URLs con parámetros de filtro (?color=, ?talla=, ?order=) que no aportaban valor. Tras bloquear esos parámetros en robots.txt y ajustar canonicals, la tasa de crawl de URLs productivas subió al 78% en seis semanas.
Requisitos y formato de logs compatibles
- Solicitar logs al equipo de hosting o DevOps (formato combined o extended)
- Verificar que incluyen user-agent, timestamp, URL, código de respuesta y bytes
- Mínimo 30 días de logs para patrones estables
- Importar en Log File Analyser → Project → New
- Configurar zona horaria del servidor correctamente
- Importar el crawl del SEO Spider en la misma interfaz para cruce automático
Integración del framework: auditoría técnica completa en siete fases
Los seis pilares anteriores no son independientes. Una auditoría técnica real los integra en un flujo de siete fases que sigo en todos los proyectos medios y grandes que pasan por mi mesa.
Fase 1: definición de alcance y configuración inicial
Definir qué se audita (dominio completo, subdominio, subcarpeta), qué se excluye (backend, entornos de staging), qué volumen estimado tiene el sitio y qué restricciones de velocidad aplica el servidor. Con esos datos se eligen modo de almacenamiento, rendering, velocidad del crawler y límites.
Fase 2: crawl base sin renderizado
Un primer crawl en Text Only sirve como snapshot del HTML original. Rápido, ligero, útil para detectar problemas de enlazado interno, robots.txt, sitemap y metadatos a nivel estructural.
Fase 3: crawl con JavaScript rendering
Segundo crawl en modo JavaScript para auditar el contenido renderizado. La comparación entre este crawl y el de la fase 2 revela el gap entre HTML original y DOM final, crítico para sitios con frameworks SPA.
Fase 4: conexión con APIs
Integración de GSC, GA4, PageSpeed y Ahrefs sobre el crawl con JavaScript rendering. Aquí cada URL se enriquece con datos de tráfico, rendimiento y autoridad.
Fase 5: extracción custom dirigida
Configuración de extractores XPath/regex específicos del sector: Schema de productos en ecommerce, metadatos editoriales en medios, elementos de formulario en SaaS, parámetros de geolocalización en sitios multi-país.
Fase 6: análisis de logs y cruce con crawl
Importación de logs del último mes, cruce con el crawl JavaScript, identificación de URLs rastreadas por Googlebot y no por el spider (y viceversa), análisis de crawl budget y priorización de optimizaciones.
Fase 7: informe y plan de acción
Consolidación de hallazgos en un documento accionable. Esta fase no es trabajo del crawler, pero define si la auditoría aporta valor real o se queda en un listado de tickets sin prioridad. En los servicios de auditoría SEO que ofrecemos desde SEO Valladolid, esta fase consume el 30% del tiempo total del proyecto, y es la que más mueve la aguja para el cliente.
Aplicación práctica: casos de uso avanzados en sitios con AI Overviews
Las AI Overviews, consolidadas en las SERPs entre 2024 y 2026, han introducido una variable nueva: el contenido citable por los modelos de lenguaje que alimentan esos resúmenes generativos. Esto afecta directamente al trabajo con el SEO Spider en tres frentes concretos.
Auditoría de contenido estructurado para citas en AI Overviews
Los modelos que generan AI Overviews citan con mayor frecuencia contenido con estructura semántica clara: HowTo, FAQ, Article con marcas de autor, datos cuantificables en tablas. La extracción custom con XPath permite auditar qué porcentaje del contenido del sitio tiene esta estructura.
En un medio digital de nicho técnico, configuré una extracción custom que identificaba presencia de Schema Article con autor y fechaModificada, presencia de listas ordenadas con más de 3 elementos, y presencia de tablas con datos numéricos. El resultado: solo el 22% del contenido cumplía los tres criterios simultáneamente. Tras seis meses de trabajo editorial dirigido, ese porcentaje subió al 67% y las apariciones en AI Overviews aumentaron de forma notable.
Detección de contenido renderizado no accesible
Si los modelos de lenguaje dependen del contenido indexado por Google, y Google indexa el DOM renderizado, el contenido que no aparezca en el rendering completo no será citado. El crawl con JavaScript activado, comparado con el crawl Text Only, identifica exactamente qué bloques quedan fuera del rendering y por qué.
Hreflang y sitios internacionales bajo AI Overviews multi-locale
Las AI Overviews operan con sensibilidad al idioma y país del usuario. Un sitio internacional con hreflang mal configurado puede ver su contenido citado en el país equivocado o no citado en absoluto. La extracción custom con regex sobre las etiquetas hreflang del head permite auditar en minutos si las relaciones son simétricas, si incluyen x-default, y si los códigos de idioma-país están bien formateados.
Preguntas frecuentes
¿Screaming Frog es gratis?
La herramienta ofrece una versión gratuita limitada a 500 URLs por crawl y con funciones avanzadas desactivadas (JavaScript rendering, extracción custom, conexión a APIs, comparación de crawls). Para uso profesional requiere licencia de pago anual, cuyo precio histórico público ronda los 259 USD al año.
¿Para qué sirve en SEO?
Sirve para auditar técnicamente un sitio web a gran escala: detecta enlaces rotos, redirect chains, contenido duplicado, canonical tags incorrectos, problemas de indexabilidad, errores de datos estructurados, inconsistencias de metadatos y problemas de rendering con JavaScript. Integrado con APIs de GSC, GA4 y PageSpeed, ofrece un análisis 360 de cada URL.
¿Cuántas URLs puede rastrear la versión gratuita?
La versión gratuita rastrea hasta 500 URLs por crawl. Para sitios más grandes o para acceder a funciones avanzadas como JavaScript rendering, extracción custom, integración con APIs, comparación de crawls o scheduled crawls, se necesita la licencia de pago.
¿Cómo se configura JavaScript rendering?
Se accede a Configuration → Spider → Rendering y se selecciona «JavaScript» en lugar de «Text Only». El spider utilizará entonces un Chromium headless integrado para ejecutar el JS y analizar el DOM renderizado. Se recomienda ajustar el AJAX Timeout a 5-8 segundos, seleccionar Window Size Googlebot Smartphone y activar el almacenamiento del HTML renderizado.
¿Qué diferencia hay entre Memory Storage y Database Storage?
Memory Storage procesa y almacena los datos del crawl en RAM, ofreciendo mayor velocidad pero limitando el tamaño del crawl a la memoria disponible (aproximadamente 250.000 URLs con 16 GB de RAM). Database Storage escribe los datos en disco (SSD recomendado), permitiendo crawls teóricamente ilimitados con una penalización de velocidad del 15-25%. Para sitios de más de 100.000 URLs, Database Storage es la opción recomendada.
El valor real del SEO Spider no está en el botón «Start» de la interfaz principal. Está en la configuración precisa de sus seis pilares técnicos, su integración en un flujo de auditoría de siete fases y su adaptación al contexto 2026 de SERPs dominadas por AI Overviews. Un auditor que domine esta combinación puede resolver en tres días problemas que otros equipos tardarían semanas en detectar.

