hu Most ingyen auditot kérhetsz!
Email hello@ad-ops.hu Hívj minket! +36-70-784-6000

 Milyen oldalakat nem kell indexelni?

AdOps Digital > Blog >  Milyen oldalakat nem kell indexelni?

A weblap oldalak indexelése az a folyamat, amivel a keresőoptimalizálás kezdődik. Ha lehetőséget biztosítasz a keresőmotor botok számára, hogy hozzáférjenek a tartalomhoz, azzal jelzed, hogy az oldalaid készen állnak a látogatók fogadására, nincsenek technikai hibák, és szeretnéd, ha megjelennének a keresési találatok között (SERP-ben). Első pillantásra az átfogó indexelés hatalmas előnynek tűnik.

Azonban bizonyos típusú oldalakat érdemes távol tartani a keresési találatoktól, hogy megőrizd a rangsorolásodat. Ez azt jelenti, hogy el kell rejtened őket az keresőmotor elől.

Oldalak, amelyeket el kell rejteni a keresők elől

Lássunk is hozzá! Itt találod azoknak az oldalaknak a listáját, amelyeket érdemes elrejteni a keresőmotorok elől, hogy ne jelenjenek meg a keresési találatokban.

Oldalak személyes adatokkal

A tartalom védelme a közvetlen keresési forgalomtól elengedhetetlen, ha egy oldal személyes adatokat tartalmaz. Ezek lehetnek vállalati információk, termékekkel kapcsolatos részletek, felhasználói profilok adatai, privát levelezés, fizetési adatok stb. 

Mivel ezek az információk nem publikusak, és csak az adat tulajdonosához tartoznak, a Google (vagy bármely más keresőmotor) nem teheti láthatóvá ezeket az oldalakat a szélesebb közönség számára.

Bejelentkezési oldalak

Ha a bejelentkezési űrlap nem a főoldalon található, hanem egy külön oldalon, akkor nincs szükség arra, hogy ez az oldal megjelenjen a keresési találatokban. Az ilyen oldalak nem hordoznak hozzáadott értéket a felhasználók számára, és vékony tartalomnak minősülhetnek.

Köszönő oldalak

Ezek azok az oldalak, amelyeket a felhasználók egy sikeres művelet után látnak, legyen az vásárlás, regisztráció vagy bármi más. Ezek az oldalak valószínűleg vékony tartalommal rendelkeznek, és kevés vagy semmilyen hozzáadott értéket nem nyújtanak a keresők számára.

Nyomtatható vagy olvasóbarát oldalak

Az ilyen típusú oldalak tartalma megduplázza az oldal tartalmát, ami azt jelenti, hogy ha feltérképezik és indexelik őket, akkor teljes tartalmi duplikációként kezelik őket.

Hasonló termékoldalak

Ez gyakori probléma a nagy e-kereskedelmi weboldalaknál, amelyek sok termékkel rendelkeznek, amelyek csak méretben vagy színben különböznek egymástól. A Google nem mindig tudja megkülönböztetni ezeket, és tartalmi duplikátumként kezelheti őket.

Belső keresési találatok

Amikor a felhasználók a keresési találatokból érkeznek a weboldalra, azt várják, hogy a linkre kattintva választ találjanak kérdésükre. Nem pedig egy másik belső keresési találati oldalra, ahol sok link található. 

Ha a belső keresési oldalaidat indexelik, valószínűleg csak alacsony oldalmegtekintési időt és magas visszafordulási arányt eredményeznek.

Egyetlen szerző blogjának bemutatkozó oldala

Ha a blogodon minden bejegyzést egyetlen szerző ír, akkor a szerző bemutatkozó oldala teljesen duplikálja a blog főoldalát.

Feliratkozási űrlap oldalak

A bejelentkezési oldalakhoz hasonlóan a feliratkozási űrlapok is általában csak az adatbevitelhez szükséges űrlapot tartalmazzák. Így az oldal 

  • Üres
  • Nem nyújt értéket a felhasználók számára

Ezért korlátoznod kell a keresőmotorokat, hogy ne jelenítsék meg ezeket az oldalakat a találatok között.

Fejlesztés alatt álló oldalak

Aranyszabály: Azok az oldalak, amelyek még fejlesztés alatt állnak, távol kell tartani a keresőmotor feltérképezéstől, amíg teljesen készen nem állnak a látogatók fogadására.

Tükör oldalak

Az oldalad azonos másolatai egy különálló szerveren vagy helyen. Ha feltérképezik és indexelik őket, technikai duplikátumoknak minősülnek.

Különleges ajánlatok és hirdetési céloldalak

A különleges ajánlatok és hirdetési oldalak csak akkor jelennek meg a felhasználók számára, ha speciális műveleteket hajtottak végre, vagy egy bizonyos időszakban (pl. akciók, események) érhetők el. 

Amikor az esemény véget ér, ezeknek az oldalaknak nincs szükségük arra, hogy bárki számára láthatóak legyenek, beleértve a keresőmotorokat is.

Hogyan lehet elrejteni egy oldalt a keresők elől

Hogyan rejtheted el a fent említett oldalakat a keresőmotorok elől, miközben a webhelyed többi része továbbra is látható marad, ahogyan kell?

Amikor utasításokat állítasz be a keresőmotorok számára, két lehetőséged van. 

  • Korlátozhatod a feltérképezés
  • Korlátozhatod egy oldal indexelését.

A feltérképezés korlátozása robots.txt fájlokkal

Valószínűleg a legegyszerűbb és legközvetlenebb módja annak, hogy megakadályozd a keresőmotorok feltérképezőit abban, hogy hozzáférjenek az oldalaidhoz, a robots.txt fájl létrehozása. 

Ezek a fájlok lehetővé teszik, hogy proaktívan tartsd távol az összes nem kívánt tartalmat a keresési találatoktól.

Robots.txt fájl létrehozása

Az eljárás meglehetősen egyszerű. Csak létre kell hoznod egy .txt fájlt, amely a következő mezőket tartalmazza:

  • User-agent: – ebben a sorban azonosítod a kérdéses feltérképezőt;
  • Disallow: – 2 vagy több sor, amely utasítja a meghatározott feltérképezőket, hogy ne férjenek hozzá az oldal bizonyos részeihez.

Néhány feltérképező (például a Google) támogat egy további mezőt is, amit Allow-nak neveznek. Ahogy a név is sugallja, az Allow lehetővé teszi, hogy kifejezetten megadd azokat a fájlokat/mappákat, amelyeket feltérképezhetnek.

A * karakter a User-agent sorban azt jelenti, hogy az összes keresőmotor bot számára utasítást adsz, hogy ne térképezzenek fel egyetlen oldalt sem a webhelyeden, amit a / jelöl. Valószínűleg ezt szeretnéd elkerülni, de most már érted a lényeget.

További útmutatást találhatsz az ilyen fájlok manuális írásához a Google Fejlesztői útmutatójában.

A robots.txt fájl létrehozása azonban teljesen automatizálható – számos eszköz képes ilyen fájlok készítésére. Például a WebSite Auditor könnyedén összeállíthat egy robots.txt fájlt a webhelyed számára.

Miután elindítottad az eszközt, és létrehoztál egy projektet a webhelyedhez, menj a Webhely struktúra > Oldalak részhez, kattints a csavarkulcs ikonra, és válaszd a Robots.txt opciót.

Ezután kattints az Szabály hozzáadása gombra, és add meg az utasításokat. Válassz ki egy keresőmotort és egy könyvtárat vagy oldalt, amelyet korlátozni szeretnél a feltérképezéstől.

Miután befejezted az összes beállítást, kattints a Tovább gombra, hogy az eszköz létrehozhassa a robots.txt fájlt, amelyet aztán feltölthetsz a weboldaladra.

Ahhoz, hogy megnézd a feltérképezésből kizárt erőforrásokat, és megbizonyosodj arról, hogy nem tiltottál le semmit, amit fel kellene térképezni, menj a Webhely struktúra > Webhelyaudit részhez, és ellenőrizd az Indexelésből kizárt erőforrások szekciót.

Bár a robots.txt korlátozza a keresőmotorokat bizonyos oldalak feltérképezésében, ezeknek az oldalaknak az URL-jei továbbra is indexelhetők, ha más oldalak hivatkoznak rájuk leíró szöveggel. Ebben az esetben a korlátozott URL megjelenhet a keresési találatok között leírás nélkül, mivel a tartalmat nem térképezték fel és nem indexelték.

Gyakori hibák

Íme a leggyakoribb hibák, amelyeket az emberek elkövetnek a robots.txt fájl létrehozásakor. Olvasd el figyelmesen ezt a részt.

  1. Nagybetűk használata a fájlnévben. A fájl neve robots.txt. Nem Robots.txt, és nem ROBOTS.txt.
  2. A robots.txt fájl nem a főkönyvtárba helyezése.

Rossz példa: https://ad-ops.hu/organikus/robots.txt

Jó példa: https://ad-ops.hu/robots.txt

  1. A teljes weboldalad letiltása (hacsak nem ez a célod) az alábbi Disallow utasítás meghagyásával történik: Disallow: /
  2. Hibásan megadott user-agent.

Rossz példa: Disallow: Googlebot

Jó példa: User-agent: Googlebot
    Disallow: /pelda

    5. Több könyvtár megemlítése egy Disallow sorban. Minden oldalnak vagy könyvtárnak külön sort kell szentelni.

6. A user-agent sor üresen hagyása.

7. Minden fájl felsorolása egy könyvtárban. Ha az egész könyvtárat szeretnéd elrejteni, nem kell minden egyes fájlt felsorolni.

Rossz példa: User-agent: *
Disallow: /polok/piros.html
Disallow: /polok/kek.htm
l

Jó példa: User-agent: *
Disallow: /polok

8. A Disallow utasítások sorának teljes kihagyása.

Rossz példa: User-agent: Googlebot
Host: www.ad-ops.hu

Jó példa: User-agent: Googlebot
Disallow: 

9. A sitemap nem feltüntetése a robots.txt fájl alján.  

Jó példa: User-agent: *
Disallow: /admin
Sitemap: https://ad-ops.hu/sitemap.xml

10. Noindex utasítások hozzáadása a fájlhoz (ami helytelen, mert a robots.txt nem támogatja a noindex utasításokat).

Az indexelés korlátozása robots meta tag és X-Robots-tag segítségével

A robots noindex meta tag vagy az X-Robots-tag lehetővé teszi a keresőmotor botok számára, hogy feltérképezzék és hozzáférjenek az oldaladhoz, de megakadályozza, hogy az oldal bekerüljön az indexbe, azaz megjelenjen a keresési eredményekben.

Most nézzük meg közelebbről mindkét lehetőséget.

Robots noindex meta tag

A robots noindex meta tag az oldalad HTML forráskódjában, a <head> szekcióban található. Az ilyen tag-ek létrehozása minimális technikai tudást igényel, és könnyedén megoldható akár egy junior SEO szakember által is.

Hogyan működik

Amikor a Google bot feltérképezi az oldalt, észleli a noindex meta taget, és nem tartalmazza az oldalt a web indexben. 

Az oldal továbbra is feltérképezhető és létezik az adott URL-en, de nem fog megjelenni a keresési eredményekben, függetlenül attól, hányszor hivatkoznak rá más oldalakról.

Példák robots meta tag-ekre:

  • <meta name=”robots” content=”index, follow”>

Ennek a meta tagnak a hozzáadása az oldal HTML forráskódjához azt mondja a keresőmotor botnak, hogy indexelje az oldalt, és kövesse az oldalról induló összes linket.

  • <meta name=”robots” content=”index, nofollow”>

A “follow” “nofollow”-ra történő cseréjével módosítod a keresőmotor bot viselkedését. Ez a tag konfiguráció arra utasítja a keresőmotort, hogy indexelje az oldalt, de ne kövesse a rajta elhelyezett linkeket.

  • <meta name=”robots” content=”noindex, follow”>

Ez a meta tag azt mondja a keresőmotor botnak, hogy hagyja figyelmen kívül azt az oldalt, amelyen elhelyezték, de kövesse az összes rajta található linket.

  • <meta name=”robots” content=”noindex, nofollow”>

Ez a tag azt jelenti, hogy sem az oldalt, sem az azon található linkeket nem fogják indexelni vagy követni.

X-Robots-tag

A robots noindex meta tag mellett egy oldal elrejthető úgy is, hogy egy HTTP fejléc válaszban beállítasz egy X-Robots-Tag-et noindex vagy none értékkel.

Az X-Robots-Tag lehetővé teszi, hogy ne csak oldalak és HTML elemek esetén használd a noindex utasítást, hanem különálló PDF fájlokat, videókat, képeket vagy bármely más nem-HTML fájlt is elrejts, ahol a robots meta tag-ek használata nem lehetséges.

Hogyan működik

A mechanizmus hasonló a noindex tag-hez. Amikor egy keresőmotor bot meglátogat egy oldalt, a HTTP válasz egy X-Robots-Tag fejlécet küld vissza noindex utasítással. Az oldalt vagy fájlt továbbra is feltérképezik, de nem fog megjelenni a keresési eredményekben.

Példák X-Robots-Tag használatára

Ez a leggyakoribb példa egy HTTP válaszra, amely tartalmazza az utasítást, hogy ne indexeljék az oldalt:

HTTP/1.1 200 OK

X-Robots-Tag: noindex

Megadhatod a keresőmotor bot típusát is, ha bizonyos botoktól szeretnéd elrejteni az oldaladat. Az alábbi példa azt mutatja, hogyan rejthetsz el egy oldalt minden keresőmotor elől, kivéve a Google-t, és hogyan korlátozhatod az összes botot abban, hogy kövessék a rajta található linkeket:

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

Ha nem adod meg a robot típusát, az utasítások mindenféle feltérképezőre érvényesek lesznek.

Ha az egész webhelyen korlátozni szeretnéd bizonyos fájltípusok indexelését, hozzáadhatod az X-Robots-Tag válasz utasításokat a webhelyed webszerver szoftverének konfigurációs fájljaihoz.

Így korlátozhatod az összes PDF fájl indexelését egy Apache-alapú szerveren:

<Files ~ “\.pdf$”>

  Header set X-Robots-Tag “noindex, nofollow”

</Files>

Az NGINX szerverhez ugyanezek az utasítások így néznek ki:

location ~* \.pdf$ {

  add_header X-Robots-Tag “noindex, nofollow”;

}

Egyetlen elem indexelésének korlátozása Apache szerveren:

<Files “ad-ops.pdf”>

  Header set X-Robots-Tag “noindex, nofollow”

</Files>

És így korlátozhatod egyetlen elem indexelését NGINX-en:

location = /secrets/unicorn.pdf {

  add_header X-Robots-Tag “noindex, nofollow”;

}

Robots noindex tag vs. X-Robots-Tag

Bár a robots noindex tag könnyebb megoldásnak tűnhet az oldalak indexelésének megakadályozására, vannak olyan esetek, amikor az X-Robots-Tag használata előnyösebb lehet:

  • Egy teljes aldomain vagy kategória noindexelése: Az X-Robots-Tag lehetővé teszi, hogy ezt egyszerre, tömegesen tedd meg, így elkerülheted, hogy minden oldalt külön-külön meg kelljen címkézned.
  • Nem HTML fájlok noindexelése: Ebben az esetben az X-Robots-Tag nemcsak a legjobb, hanem az egyetlen megoldás.

Fontos azonban megjegyezni, hogy csak a Google követi biztosan az X-Robots-Tag utasításait. A többi keresőmotor esetében nincs garancia arra, hogy helyesen értelmezik ezt a tag-et. Például a Seznam egyáltalán nem támogatja az x-robots-tageket. 

Tehát, ha azt tervezed, hogy weboldalad többféle keresőmotorban is megjelenjen, a robots noindex tag használata HTML elemekben megbízhatóbb lehet.

Gyakori hibák

  1. Noindexelt oldal vagy elem hozzáadása a robots.txt fájlhoz. A robots.txt fájl a feltérképezést korlátozza, így a keresőmotor botjai nem látogatják meg az oldalt, és nem látják a noindex utasításokat.
    Ezért az oldal tartalom nélkül is indexelve lesz, és megjelenhet a keresési találatok között.

Ha meg akarod nézni, hogy van-e noindex taggel ellátott oldal a robots.txt fájlban, ellenőrizd a Robots utasítások oszlopot a Webhely struktúra > Oldalak részben a WebSite Auditor eszközben.

  1. Nagybetűk használata a tag utasításokban. A Google szerint minden utasítás kis- és nagybetű érzékeny, ezért ügyelj a pontos szintaxisra.

Különleges esetek

Most, hogy nagyjából tisztáztuk a főbb tartalom indexelési kérdéseket, nézzünk meg néhány nem szokványos esetet, amelyek külön említést érdemelnek:

  1. Győződj meg róla, hogy a nem indexelni kívánt oldalak nincsenek benne a sitemap-ben. A sitemap segítségével mondod meg a keresőmotoroknak, hogy hova menjenek először, amikor feltérképezik a webhelyedet.
  2. Ha deindexálni akarsz egy már a sitemap-ben lévő oldalt, ne távolítsd el az oldalt a sitemap-ből, amíg azt a keresőrobotok újra nem térképezték és deindexelték. Ellenkező esetben a deindexelés több időt vehet igénybe, mint amire számítottál.
  3. Jelszóval védd azokat az oldalakat, amelyek privát adatokat tartalmaznak. A jelszóvédelem a legmegbízhatóbb módja annak, hogy érzékeny tartalmakat rejts el, még azok elől a botok elől is, amelyek nem követik a robots.txt utasításait. A keresőmotorok nem ismerik a jelszavaidat, így nem férnek hozzá az oldalhoz, nem látják az érzékeny tartalmat, és nem jelenítik meg az oldalt a keresési találatok között. 

Ahhoz, hogy a keresőrobotok ne indexeljék az oldalt, de kövessék az oldal linkjeit és indexeljék a linkek tartalmát, állítsd be a következő utasítást:

<meta name=”robots” content=”noindex, follow”>

  1. Az indexelési korlátozásokat egy adott robotra is megadhatod. Például letilthatod az oldalad a hírobotok, képi botok stb. elől. A botok nevei megadhatók bármilyen típusú utasításhoz, legyen az robots.txt fájl, robots meta tag, vagy X-Robots-Tag.

Példa: Az oldalaid elrejtése robots.txt fájl segítségével.

Mióta a ChatGPT pluginok és a GPT-4 megjelentek, a webhelytulajdonosok aggódnak tartalmuk felhasználása miatt. A hivatkozás, a plágium és a szerzői jogi kérdések egyre élesebbé váltak sok weboldal számára.

Az SEO világ most megosztott: egyesek azt mondják, hogy blokkolnunk kell a GPTBot hozzáférését, mások az ellenkezőjét állítják, és egy harmadik csoport szerint várnunk kell, amíg valami tisztázódik.
Ha úgy döntesz, hogy blokkolni akarod a GPTBotot, íme, hogyan teheted meg:

User-agent: GPTBot

Disallow: /

Ha csak a webhelyed egy adott részét szeretnéd letiltani a GPTBot elől, az alábbi utasításokat használhatod:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

  1. Ne használj noindex taget A/B tesztek során, amikor a felhasználók egy része az A oldalról a B oldalra van átirányítva. Ha ugyanis a noindex tag 301-es (állandó) átirányítással van kombinálva, a keresőmotorok a következő jeleket kapják:
  • Az A oldal már nem létezik, mert véglegesen a B oldalra került át.
  • A B oldalt nem szabad indexelni, mert noindex taggel van ellátva.

Ennek eredményeképp mind az A, mind a B oldal eltűnik az indexből.

Az A/B teszt helyes beállításához használj 302-es (ideiglenes) átirányítást a 301-es helyett. Ez lehetővé teszi, hogy a keresőmotorok megtartsák az eredeti oldalt az indexben, és visszahozzák azt a teszt befejezése után. Ha több oldalt tesztelsz, akkor használj rel=canonical taget, hogy megjelöld a keresési találatokba kerülő kanonikus verziót.

  1. Használj noindex taget az ideiglenes landoló oldalak elrejtéséhez. Ha különleges ajánlatokat, hirdetési oldalakat, kedvezményeket vagy bármilyen olyan tartalmat szeretnél elrejteni, amelynek nem szabadna kiszivárognia, a robots.txt fájllal való tiltás nem a legjobb megoldás. Kíváncsi felhasználók még mindig megnézhetik ezeket az oldalakat a robots.txt fájlban. 

A noindex használata jobb ebben az esetben, hogy véletlenül se kompromittáld a „titkos” URL-t nyilvánosan.

Összegzés

Most már ismered az alapokat, hogyan találhatod meg és rejtheted el a weboldalad bizonyos oldalait a keresőmotorok botjai elől. Ahogy látható, a folyamat valójában egyszerű. 

Csak arra figyelj, hogy ne keverj többféle utasítást egyetlen oldalon, és ne rejtsd el azokat az oldalakat, amelyeknek meg kell jelenniük a keresésben.

A szerzőről

Az elmúlt 20 évben az online marketing minden területén megfordultam, minden hárombetűs területet kipróbáltam, végül a keresőmarketing szakértője lettem. Kövess LinkedIn-en.