A Google indexelés ellenőrzése egy nagyon fontos Technikai SEO pont az auditok során. Azzal ugye mindenki tisztában van, hogy csak az az oldal jelenik meg keresőben, ami be van indexelve. Egy teljes portál indexelését többféle módon ellenőrizhetjük. Van aki API scriptet ír, és van aki egy sima táblázatot használ. Ebben a posztban bemutatom, hogyan ellenőrizhetsz egy, vagy akár több ezer URL-t egyszerre, kódolási tudás nélkül.
Miért fontos indexeltségi állapotot ellenőrizni?
Ha az URL nem található meg a Google indexben, akkor az az oldal nem fog megjelenni találatként egyetlen egy lekérdezésre sem a keresőben. Magyarul, ha nincs indexben az oldal, akkor a Google nem jeleníti meg!
De miért ne lenne indexelve egy oldal, ha benne van a sitemap-ben, 200-as headert dob vissza és járt is rajta a Googlebot?
Fontos azzal tisztában lenni, hogy egy oldal indexeléséről a Google algoritmusai fognak dönteni. Attól, hogy minden rendben van egy oldallal, még simán dönthet úgy a keresőmotor algoritmus, hogy valamiért nem szeretné betenni az indexbe. Az egyik ilyen gyakori ok, hogy a tartalmat duplikációnak ítéli, és mi hiába kezeljük self-canonical taggel egyediként a tartalmat, ő úgy dönt, hogy akkor sem indexeli be.
Használjunk Google parancsot
Ha csak egy-két weboldal indexelését szeretnénk ellenőrizni, akkor erre a legegyszerűbb megoldás a site:[URL] Google parancs használata. Egyszerűen csak írjuk be a keresőbe a megfelelő URL-re keresve, és ha az oldal megtalálható indexben, akkor ki fogja dobni találatként. Ezt az operátort már többször is bemutattam a blogomban. Volt róla szó a Google parancsok felsorolásánál, de nagy hasznát vettük például a Negatív SEO cikkben, vagy a Linképítés cikkben.
A Search Console korlátai
Egy weboldal indexeltségi állapotáról a legpontosabb információt az oldal Search Console fiókjából tudhatjuk meg. Az URL inspection fülön egyszerűen csak megadjuk az URL-t, amit le szeretnénk kérdezni, és a Search Console kiad minden fontos információt, amit tud a weboldalról. Számunkra a Coverage rész érdekes, itt láthatjuk, hogy az oldal bent van-e az indexben, de még azt is, hogy mikor járt rajta utoljára a Googlebot.
Indexelési állapot ellenőrzése Google Search Console-ban.
És itt el is érkeztük az egyik korlátjához a Search Console-nak: egyszerre csak egy URL-t tudunk lekérdezni. De mi van akkor, ha több ezer oldalunk van, és tudni szeretnénk, hogy mik nincsenek indexben?
Ilyenkor a Coverage riportban tudunk körülnézni, ami pontosan megadja az indexben lévő oldalak számát. Sajnos az 1000 soros letöltési korlát miatt, ezeket nem tudjuk egyben leszedni, így használhatatlanná is vált ez a riport számunkra ebben a feladatban.
Webcache, tárolt változat ellenőrzése
Egy egyszerű PHP kóddal megtehetjük azt is, hogy megnézzük az oldalnak van-e tárolt változata az indexben. A Googlebot a legtöbb esetben készít egy másolatot az indexelt weboldalról arra az esetre, ha a beindexelt weboldal valamiért elérhetetlen.
Erre szintén van egy Google parancs: cache:[URL]. Ha nem 404-es oldalt kapunk vissza, akkor a vizsgált URL biztos, hogy be van indexelve. A gond ezzel csak az, hogy nem minden indexelt oldalról készül webcache!
A weboldal tárolt változatának megtekintése Google keresőben (Sok oldalról nem készül webcache, habár be vannak indexelve)
Tömeges indexálás ellenőrzés Google Sheet-tel
Igen, jól olvasod! Egy sima Google táblázatra lesz szükséged ahhoz, hogy akár több ezer URL-t leellenőrizz a Google indexben. Mutatom hogyan:
- Hozz létre egy üres táblázatot, nevezd el valaminek.
- Ezután kattints a Tools / Script Editor gombra.
Script Editor megnyitása Google Sheet-ben
Másold be ezt a scriptet és mentsd el:
function checkIfPageIsIndexed(url)
{
url = "https://www.google.com/search?q=site:"+url;
var options = {
'muteHttpExceptions': true,
'followRedirects': false
};
var response = UrlFetchApp.fetch(url, options);
var html = response.getContentText();
if ( html.match(/Your search -.*- did not match any documents./) )
return "URL is Not Indexed";
return "URL is Indexed";
}
Most menj vissza a táblázatodhoz és az első oszlopba másold be az ellenőrizendő weboldalakat, mellé a második oszlopba pedig írd ezt a képletet: =checkIfPageIsIndexed([cella])
Google index ellenőrzése Google Sheets-ben.
Figyelem ez a módszer sem 100%-os, mert a teszt során érdekes dolgokat tapasztaltam, míg ugyanabban a táblázatban dolgoztam. Ezért azt javaslom, hogy egy ilyen ellenőrzés előtt mindig nyiss egy új táblázatot, és úgy futtasd az ellenőrzést.
Tömeges Search Console adat lekérdezés Screaming Froggal
A fenti módszerek ugye akkor működnek, ha már rendelkezésünkre áll egy URL lista, amit le akarunk kérdezni. SEO szakértőként ne elégedjünk meg annyival, hogy kapunk valahonnan egy listát. Eresszük az oldalra például a Screaming Frogot, ami nem csak azt mondja meg, hogy az oldal be van-e indexelve, vagy sem, hanem az URL mellé kigyűjti a fontosabb Search Console adatokat is. Persze mindezt csak akkor, ha a Screming Frogban beállítjuk az API elérést Search Console-hoz:
Screaming Frog és Search Console összekötése API-n keresztül.
A crawl futtatása végén olyan plusz adatokat fogunk látni az URL-ek mellett, mint a kattintás, megjelenés, CTR és pozíció.
Search Console adatok megjelenése Screaming Frogban.