Actualizat la: iunie 28, 2023

Introducere – pagini cu erori in Google Search Console

În acest articol mi-am propus să analizez modalitățile de rezolvare ale paginilor cu erori din Google Search Console. Nu am pretenția că am acoperit toate cazurile posibile însă consider că este un start în abordarea acestui tip de problemă. Dacă aveți și alte idei sau propuneri nu ezitați să îmi scrieți și o să completez secțiunile respective. Aceste fiind spuse, să trecem la treabă.

Verificare sitemap

Primul pas este o verificare a sitemap-ului. Este important să vă asigurați ca post-urile, categoriile, produsele etc. sunt indexate corect. Dacă lucrurile nu arată bine puteți genera și submite din nou sitemap-ul.

Sitemap

În scenariul în care folosiți RankMath și trimiteți în sitemap pagini de genul favorite, compară etc., acestea trebuie excluse manual din RankMath sitemap pe bază de post id, pentru a nu genera erori precum noindex page.

Excluderi RankMath

Taxonomia erorilor

Odată ce ați intrat în Google Search Console, zona în care găsiți paginile cu erori în este Pages, așa cum puteți vedea în imaginea de mai jos.

Pagini cu erori in Google Search Console

În principiu, categoriile de erori la care trebuie să fiți atenți sunt următoarele:

  • Page with redirect |pagini cu redirect-uri
  • Not found (404) | pagini cu erori 404
  • Crawled – currently not indexex | pagini descoperite de motorul de căutare dar care nu au fost încă indexate
  • Excluded by no index | excluse de la indexare
  • Server Error (5xx) | erori de server
  • Soft 404

Să le luăm în ordine pentru a vedea ce abordare puteți avea pentru fiecare categorie în parte.

Categoriile de erori Google Search Console

Pagini cu redirect-uri (Page with redirect)

Aici veți găsi paginile care au deja redirecționări în site dar din anumite motive nu au fost indexate. Recomandarea mea în acest caz este să exportați un fișier cu aceste pagini și să verificați fiecare link în parte, pentru a determina dacă el este valid sau nu.

Acest lucru se poate dovedi destul de facil dacă aveți câteva zeci de pagini însă poate deveni obositor în cazul în care vorbim despre sute sau mii de link-uri. Eu am automatizat acest proces printr-un script foarte simplu în Python care are următoare secvență:

  1. Deschide un fișier denumit ‚links.xlsx’ dintr-un folder predefinit
  2. Iterează prin fiecare link din coloana A și verifica dacă link-ul e valid sau nu
  3. În coloana B, în dreptul fiecărui link va insera fie ‚404 error’ fie ‚Valid Link’

În acest fel veți ști foarte rapid care link e OK și care nu. Script-ul este disponibil la finalul articolului.

Atenție, în fișierul pe care îl încărcați (cel exportat din Google Search Console) trebuie să faceți modificările de mai jos:

  1. Ștergeți primul sheet (Chart)
  2. Ștergeți linia 1
  3. Ștergeți coloana B

Modificare fisier GSC

Vedeți mai jos rezultatul:

Page with redirects

Chiar dacă paginile apar ca având redirect-uri, în cazul de față 38 dintre ele sunt de fapt pagini cu erori 404. Pe scurt, un procent de 26% dintre paginile care apar că ar avea redirecționări în regulă sunt de fapt pagini cu erori 404.

Următorul pas este să rezolvați în site aceste redirecționări prin intermediul unui modul dedicat SEO sau a unui modul de redirecționări. Personal recomand RankMath, care se ocupa destul de OK de această problema. În plus, are și un modul de monitorizare a erorilor 404.

Redirectionari RankMath

Pagini cu erori 404 | Not found (404)

Strategia este similară cu cea din cazul anterior. Descărcați fișierul Excel din Google Search Console și validați manual sau prin intermediul script-ului Python fiecare link în parte. Este posibil ca multe pagini să fie valide.

Export GSC

În cazul particular pe care îl tratam în acest articol doar 55 de link-uri din cele 97 prezente în categoria Not found (404) erau de fapt eronate.

Pagini descoperite de motorul de căutare dar care nu au fost încă | Crawled – currently not indexex

După ce rulați procedura de validare pentru a vă asigura ca nu sunt pagini cu erori 404 între cele prezente în această categorie puteți trece la pasul cel mai important, indexarea rapidă (fast index).

Fast Index este o procedură pe care cei de la RankMath o pun la dispoziție, prin intermediul unui modul care asigură indexarea instantanee a paginilor. RankMath vine în varianta standard cu opțiunea de fast index doar pentru Bing. Pentru Google, trebuie instalat un modul separat, pe care îl găsiți aici. Ulterior, acest plugin se foloseste de Google Indexing API pentru a oferi această capabilitate de indexare instantanee.

Tutorialul complet este disponibil aici.

Menționez că această indexare permite să:

  • trimiteți link-uri manual (după cum puteți vedea în imaginea de mai jos)
  • trimiteți batch-uri ( nu mai mult de 200 pe zi). Se poate dovedi o limitare dacă vorbim de zeci de mii de produse dar pentru site-uri mici în 2-3 zile maxim ați rezolvat problema.

 

Instant Index Google

Dacă păstrați acest modul activ acesta va trimite zilnic spre Google paginile noi sau cele pe care s-au făcut modificări. Global, procentul de succes este în jur de 85%, deoarece există cazuri în care anumite elemente nu sunt interpretate pozitiv de către crawlere iar indexarea nu este realizată.

Erori de server | Server error (5xx)

Erorile de tip-ul 5xx sunt de obicei tehnice și țin, așa cum le spune și numele, de anumite probleme la server. Categoric, și conținutul poate influența apariția acestor erori. În exemplul de mai jos puteți vedea 4264 de erori de tip 500, a căror problemă pregnantă nu a fost numărul lor ci eterogenitatea.

Una dintre marile probleme tehnice cu care ne-am confruntat în acest caz era că partea de cache de pe server (platforma Magento) avea 42 GB. Serverul nu mai avea capacitate de stocare ceea ce îl punea în imposibilitatea de a rula funcții de bază.

Erori server 2.png

Erori soft 404

O eroare soft 404 apare atunci când o pagină inexistentă (o pagină care a fost ștearsă/eliminată) afișează un mesaj de tip „pagina nu a fost găsită” pentru oricine încearcă să o acceseze, dar nu returnează o eroare 404. Acest lucru se poate întâmpla și atunci când pagina ștearsă redirecționează utilizatorii către o pagină irelevantă (landing spre exemplu).

În cazul de față vorbim exact de pagini care au fost șterse (specific imobile vândute care nu mai erau prezente pe site). Recomandarea a fost ca acestea să nu fie șterse, ci modificate cu status vândut si ascunse publicului, putând fi accesate doar direct pe URL.

O alta abordare sunt redirecționările cu reguli automate (regex) însă dificultatea intervine în momentul în care rămân câteva sute sau mii de URL-uri care nu pot fi grupate. Acelea trebuie adresate manual, ceea ce presupune mult efort. În mod clar, abordarea trebuie să fie una graduală.

Erori server 1

Concluzii – pagini cu erori in Google Search Console

Așa cum spuneam și la începutul articolului, am încercat să adresez cele mai comune tipuri de erori pe care le puteți întâlni în Google Search Console. Desigur, s-ar putea să aveți neșansa să vă loviți de anumite probleme extrem de specifice la care să nu găsiți rezolvare. In acest caz, trebuie să investigați în detaliu problemele și să mergeți pe soluția de validare propusa de  Google.

Fix Errors

Validarea propusă de platformă este o soluție recomandată și în multe cazuri poate să vă scoată din impas. Însă, atunci când discutăm de probleme sistemice nu veți putea să scăpați de erori decât printr-o abordare tehnică aplicată.

Script Python

import requests
import openpyxl
# schimbati calea de mai jos si numele fisierului
workbook = openpyxl.load_workbook(r'C:\Users\nume_user\Downloads\links.xlsx')
sheet = workbook.worksheets[0]
results_workbook = openpyxl.Workbook()
results_sheet = results_workbook.active
results_sheet.cell(row=1, column=1, value='Link')
results_sheet.cell(row=1, column=2, value='Status')
row_number = 2
for row in sheet.iter_rows(min_row=1, max_col=1):
for cell in row:
response = requests.get(cell.value)
if response.status_code == 404:
results_sheet.cell(row=row_number, column=1, value=cell.value)
results_sheet.cell(row=row_number, column=2, value='404 error')
else:
results_sheet.cell(row=row_number, column=1, value=cell.value)
results_sheet.cell(row=row_number, column=2, value='Valid link')
row_number += 1
# calea spre noul fisier
results_workbook.save(r'C:\Users\nume_user\Downloads\final.xlsx')

Vizitați categoria Automation pentru mai multe detalii.

Cum instalez Python și VS Code? Nimic mai simplu! Vezi ghidul meu pas cu pas.