Attira l’attenzione di Google sfruttando l’ottimizzazione del Crawl Budget

Oggi ricevere le giuste attenzioni da parte di Google sul nostro sito non è così semplice. È anche vero però che molto spesso siamo noi stessi i primi ad ostacolare il motore di ricerca. Per questo motivo, soprattutto ultimamente, ho voluto condividere attraverso speech, articoli e altri interventi il concetto di Crawl Budget, focalizzando l’attenzione su alcuni punti che possono agevolare soprattutto i grossi portali ad avere dei margini di crescita ancora più ampi. Colgo l’occasione per ringraziare Stefano per aver richiesto il mio intervento anche qui sul Wild SEO Magazine, per me è un grande onore. Andiamo per ordine, dunque, cercando di semplificare il più possibile questo argomento così tecnico.

Ogni motore di ricerca, Google in primis, per poter memorizzare sul suo database gli URL del nostro sito e i suoi contenuti, deve effettuare una scansione.

Questo passaggio lo effettua attraverso un Crawler, ossia una sorta di “programmino”, uno script (BOT), che ha il compito di recuperare tutti gli URL che trova sul sito per poi far seguire un processo di schedulazione. Prosegue poi con la scansione, il recupero e l’interpretazione dei dati, sino ad arrivare all’indicizzazione. Possiamo in qualche modo dire quindi che Google “si sposta di link in link”. Quindi questo ci fa dedurre da subito che, molto banalmente, se non abbiamo una buona rete di link interni lui non potrà mai raggiungere tutte le nostre pagine, indicizzarle e soprattutto attribuire un ranking.

Nel 2017 Google ha definito, con un comunicato ufficiale nel suo blog, il concetto di Crawl Budget:

“Taking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot can and wants to crawl”

In particolare voglio focalizzare l’attenzione su quest’ultima frase: “[…] il numero di URL che Googlebot può e desidera sottoporre a scansione”. Esprimendo questo concetto a modo mio, Google ci dedica del tempo e delle risorse, perciò noi dobbiamo essere bravi a sfruttare al meglio quel poco tempo che Google ci dedica ogni giorno. Dobbiamo quindi puntare, da buoni SEO, ad ottimizzare il Budget di attenzione incrementandolo il più possibile ma soprattutto evitando di disperdere le sue attenzioni.

Non su tutti i siti però è così efficace lavorare sul Crawl Budget, perché ad esempio su piccoli siti di poche pagine ha poco senso preoccuparsi di questo parametro. Dobbiamo più che altro prestare attenzione soprattutto su siti molto ramificati, con un numero elevato di URL accessibili e scansionabili. Un esempio possono essere i grossi e-commerce, i siti redazionali, le testate giornalistiche e così via.

Sarà quindi importante tener ben presente che gli URL che compongono il mio sito non sono solo quelli linkati dal menù principale, ma tutti quegli URL presenti sul codice sorgente del portale che siano potenzialmente “crawlabili”, ossia dove il crawler possa raggiungere quel link e recuperarne il contenuto. Non sempre però è semplice capire questo quando si tratta di portali con un numero elevato di risorse. Per fortuna esistono dei simulatori di crawling come DeepCrawl, SEMrush, ScreamingFrog ecc., che se settati correttamente permettono di raggiungere un numero molto elevato di URL e simulare Google BOT.

Definito l’elenco di URL accessibili, possiamo richiamare l’attenzione del Crawler con 2 principali metodi: metodo PULL e metodo PUSH. Con il metodo PULL, il crawler schedula le scansioni, che possono essere influenzate attraverso l’aggiornamento dei contenuti, variando i tipi di contenuti, aumentando i link interni, fornendo una sitemap, Feed RSS, backlink. Mentre con il metodo PUSH, posso forzare la scansione, attraverso la nuova Search Console (URL submission), il PING su Sitemap e/o Feed RSS e attraverso la richiesta tramite API.

Una volta che Google inizierà ad incuriosirsi del nostro sito, sarà importante capire se riesce ad accedere con facilità e buona frequenza a tutte le risorse. Per fare questo consiglio 2 strumenti di monitoraggio molto semplici ma di grandissima importanza: il LOG del server e la Search Console (nuova e vecchia versione). Con il LOG del server riusciamo ad avere un listato di tutti i BOT che visitano il sito (spesso anche falsi Google BOT che possiamo facilmente scoprire con una doppia verifica DNS). Una delle operazioni per capire quante volte Google ci visita e con quale frequenza, è sicuramente quella di filtrare tutte le visite avvenute da Google BOT su ogni singolo URL, scoprire lo status code di risposta, la data e l’ora di accesso e tanto altro. Mentre con la vecchia Search Console possiamo addirittura scoprire (e modificare) l’impostazione di default di scansione che Google ha impostato per il nostro sito. In particolare riusciamo a risalire al numero massimo di richieste al secondo e all’intervallo di tempo tra queste. Sempre su questa piattaforma è interessante monitorare e analizzare i grafici relativi alle pagine sottoposte a scansione giornalmente, i Kilobyte scaricati giornalmente e il tempo trascorso per il download di una pagina.

Ecco perché da buoni SEO sarà dunque importante ottimizzare il Crawl Budget in modo che Google ci dedichi più tempo e soprattutto lo sfrutti al meglio. A mio parere i 10 punti più importanti su cui focalizzare il lavoro sono:

  1. txtPosso far risparmiare Crawl Budget evitando scansioni in cartelle inutili, URL che generano lo stesso contenuto, ecc.
  2. ServerPuntare su un buon server significa spesso avere migliori prestazioni e una risposta più veloce che faciliterà anche le scansioni dei BOT (oltre che agevolare gli utenti che ci navigheranno).
  3. Struttura del sitoPuntiamo ad una struttura snella e ordinata, evitando troppi annidamenti, evitando pagine orfane da link, in modo che anche le pagine foglia (spesso le più importanti anche per il nostro fatturato) non siano in qualche modo limitate.
  4. Link interni ed esterniÈ importante che ogni pagina riceva link interni e li riceva in modo intelligente, creando una buona ragnatela. Non sottovalutiamo i link esterni, che possono attribuire valore al sito e contribuire indirettamente al Crawl Budget.
  5. LOG del Server Monitorare il LOG con frequenza è la migliore analisi che un SEO possa fare per mantenere in buono stato di salute il sito.
  6. Status Code Correggere i link rotti e gli status code 3xx è molto importante perché evita “perdite di tempo” al BOT. Cerchiamo di fornire il più possibile dei link sempre con status code 200.
  7. Canonical Non aiuta a risparmiare Crawl Budget, ma aiuta Google a dare più peso alla risorsa principale, dedicandogli potenzialmente più attenzione. Quindi è buona norma configurarlo correttamente su ogni pagina.
  8. Link nofollow Il nofollow comunica al BOT di non seguire quel link. Utilizziamo questo attributo dopo un’attenta analisi, perché potrebbe risultare strategico per evitare percorsi inutili.
  9. I contenuti Aggiornare i contenuti aiuta ad incrementare la curiosità da parte di Google e quindi a dedicarci più risorse.
  10. Sfoltitura Spesso, soprattutto in passato quando funzionava molto bene, si tendeva a creare tantissimi contenuti molto simili tra loro. Per evitare dispersione, dopo un’attenta analisi, potrebbe essere strategico far convogliare tutta la forza su un unico contenuto obiettivo.

A questo punto non ti resta che testare e capire come ogni singolo punto possa incidere sull’attenzione che Google ripone sul tuo sito e come il Crawl Budget sia un elemento da tenere sotto costante osservazione quando si tratta di siti in continua espansione.

Share This Post
Ti è piaciuto l'articolo?
0 0

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>