Hoe gebruik je een XML Sitemap?

Hoe gebruik je een XML Sitemap?

Auteur: Erwan Vrignaud
Leestijd: 23 minuten

Naarmate het web evolueert, evolueert ook Google en de daarbij behorende SEO richtlijnen. Wat gisteren gold als de beste tactiek, kan vandaag de dag alweer achterhaald zijn. Dit geldt vooral voor sitemaps, die bijna net zo oud zijn als SEO zelf.

Ik denk dat alle experts het er inmiddels over eens zijn dat het indienen van een sitemap cruciaal is uit SEO oogpunt. Maar hoe je deze het beste in kan dienen zodat ze jouw KPI’s (Key Performance Indicators) het beste dienen, dat is toch echt next level. In dit artikel vertel ik je er alles over.

Wat is een XML-sitemap?

In eenvoudige bewoordingen is een XML-sitemap een lijst met de URL’s van jouw website. Het fungeert als een routekaart om zoekmachines te vertellen welke content beschikbaar is en hoe deze te bereiken.

In onderstaand voorbeeld vindt een zoekmachine al mijn pagina’s met één bezoek aan het XML-sitemapbestand.

Door aan de url ‘sitemap_index.xml’ toe te voegen zie je de sitemap van iedere website

Op sommige websites zal een zoekmachine door meerdere interne links moeten springen om een bepaalde pagina te bereiken. Door het gebruik van een XML-Sitemap help je zoekmachines sneller de website te indexeren. Dit is vooral belangrijk voor websites die:

• Duizenden pagina’s en/of een diepe website-architectuur hebben
• Er regelmatig nieuwe pagina’s worden toegevoegd
• Regelmatig de bestaande content wordt gewijzigd
• Interne links niet altijd 100% werken of pagina’s (al dan niet tijdelijk) soms ontbreken
• Een gedegen extern linkprofiel ontbreekt

In een Sitmap kan je ook aangeven bepaalde pagina’s juist niet beschikbaar te stellen voor indexatie. Hierdoor kunnen zoekmachines sneller en efficiënter crawlen. Denk aan pagina’s als inlogpagina’s, bedankpagina’s en pagina’s louter voor intern gebruik. Het gebruik van een Sitemap zorgt er voor dat zoekmachines alleen de relevante pagina’s van jouw website indexeert. Ook al kunnen zoekmachines technisch gezien al jouw URL’s vinden zonder de Sitemap, door hier wel gebruik van te maken geef je duidelijk aan welke pagina’s worden beschouwd als hoogwaardige bestemmingspagina’s.

Hoewel er geen garantie is dat het gebruik van een XML-sitemap er voor zorgt dat jouw pagina’s gecrawld, geïndexeerd of gerangschikt worden, vergroot het zeker wel de kans.

XML Sitemap Formaat

Een XML Sitmap is opgebouwd uit meerdere tags en dan ben je natuurlijk nieuwsgierig naar welke tags dan belangrijk zijn. Welke moet je gebruiken en welke metadata is belangrijk?

Loc (ook bekend als Locatie) Tag: deze verplichte tag bevat de absolute, canonieke versie van de URL-locatie. Voor internationale websites is dit ook waar je de hreflang kan weergeven. Door het kenmerk xhtml:link te gebruiken om de taal en regio aan te geven voor elke URL, verminder je de laadtijd van deze pagina
Lastmod (ook bekend als Laatst gewijzigd) Tag: een optionele, maar sterk aanbevolen tag die wordt gebruikt om de datum en tijd van het bestand weer te geven wanneer deze voor het laatst is gewijzigd. Deze Lastmod is vooral van cruciaal belang voor content websites, omdat deze helpt Google te begrijpen dat jij de oorspronkelijke uitgever bent. Stel dat iemand anders jouw tekst kopieert en op een andere website plaatst, dan herkend Google dit en weet dat jij het origineel hebt geplaatst. Jij zal dan altijd boven degene gepositioneerd worden in hun resultaten.
Changefreq (ook bekend als Change Frequency) Tag: In het verleden gaf deze optionele tag aan hoe vaak content in een URL zou naar verwachting zou veranderen in zoekmachines. Tegenwoordig een achterhaalde tag en biedt niet veel meerwaarde als de Lastmod goed wordt gebruikt.
Priority Tag: Deze optionele tag verteld zoekmachines hoe belangrijk de pagina is ten opzichte van jouw andere URL’s op een schaal tussen 0,0 en 1,0. Echter is ook deze wat achterhaald en ziet Google dit louter als hint en biedt dit ook niet echt meerwaarde.

Soorten sitemaps

Er zijn veel verschillende soorten sitemaps. Welke zijn nou de belangrijkste?

XML-sitemapindex. De meest gebruikte, echter kent deze een aantal beperkingen:
– Maximaal 50.000 URL’s
– Maximale bestandsgrootte van 50 MB
Wanneer je een van beide limieten overschrijdt, moet je jouw URL’s splitsen in meerdere XML-sitemaps. Die sitemaps kunnen op hun beurt weer worden gecombineerd tot één XML-sitemap
indexbestand, vaak sitemap-index genoemd (.xml). Dus een sitemap voor sitemaps. Voor uitzonderlijk grote websites kun je meerdere sitemapindexbestanden maken.

Bijvoorbeeld:
sitemap-index-categorieën.xml
sitemap-index-artikelen.xml
sitemap-index-specificaties.xml

Om het zoekmachines makkelijk te maken jouw sitemaps te indexeren moet je ze periodiek indienen. Bij Google dien je dit te koppelen via Google Search Console en bij Bing via hun Webmaster hulpprogramma. Geef de URL(‘s) van jouw sitemapindex op in het robots.txt bestand. Hierna zijn ze beschikbaar voor indexatie voor deze twee grote zoekmachines.

XML-afbeeldingssitemap. Deze zijn ontworpen om de indexering van afbeeldingen te verbeteren. In hedendaagse SEO zijn afbeeldingen echter ingebed in de content van de pagina en worden deze samen met de pagina-URL gecrawld. Bovendien is het de beste manier om JSON-LD-schema.org/ te gebruiken om afbeeldingseigenschappen door te geven aan zoekmachines omdat het meer kenmerken biedt dan alleen een XML-sitemap voor afbeeldingen. Hierdoor is een XML-afbeeldingsitemap voor de meeste websites niet nodig. Het dan toch opnemen van een afbeeldingssitemap verspilt alleen jouw crawlbudget. Het moet wel gebruikt worden voor websites die afbeeldingen als voornaamste element hebben voor hun bedrijfsmodel, zoals stockfoto- of grote e-commerce websites. Dit maakt dat deze foto’s beter zichtbaar zullen zijn in Google Afbeeldingen.

XML-videositemap. Hier geldt hetzelfde als voor afbeeldingen, alleen gebruiken als video’s van cruciaal belang zijn voor jouw bedrijf. Zo niet, dan is een videositemap overbodig.

Google Nieuws-sitemap. Alleen websites die zijn geregistreerd bij Google Nieuws mogen deze sitemap gebruiken. Als dat het geval is, neem dan de artikelen op die in de afgelopen twee dagen zijn gepubliceerd, tot een limiet van 1.000 URL’s per sitemap. Update deze sitemap met nieuwe artikelen zodra ze zijn gepubliceerd.
• Mobiele sitemap. Dit is voor de meeste websites niet nodig. In het verleden had dit wel nut voor “telefoonpagina’s” en dat zijn nog compactere webpagina’s dan de indeling voor Smartphones. Het is nu achterhaald, tenzij je unieke URL’s hebt die speciaal hiervoor zijn ontworpen. Voor hedendaagse telefoons zal een mobiele sitemap zal geen voordeel hebben.

HTML-sitemap. XML sitemaps zorgen voor de behoeften van zoekmachines. HTML-sitemaps
zijn ontworpen om menselijke gebruikers te helpen bij het vinden van content. De vraag is alleen; als je een correcte site hiërarchie hebt met logische interne links, heb je dan wel een HTML-sitemap nodig? Controleer de paginaweergaven van jouw HTML-sitemap in Google Analytics. De kans is groot dat deze erg laag is. Zo niet, dan is het een goede indicatie om jouw websitenavigatie te verbeteren.

In Google Search Console kun je controleren of de sitemap is ingediend

Dynamische XML-sitemap

Statische sitemaps zijn eenvoudig te maken met behulp van online software zoals Screaming Frog. Het probleem is dat zodra je een pagina maakt of verwijdert, jouw sitemap alweer is verouderd. Zodra je de content van een pagina wijzigt, wordt de sitemap niet automatisch bijgewerkt. Dus tenzij je een grondige reden hebt dit handmatig iedere keer te doen, dient het sterk de aanbeveling dynamische XML-sitemaps te gebruiken. De server houdt alle wijzigingen in de website bij en past dit aan in de sitemap.

Een dynamische XML-sitemap kun je op twee manieren maken:
1. Vraag jouw developer om een aangepast script te coderen die de wijzigingen doorzet
2. Installer een PlugIn zoals Yoast SEO die dit automatisch voor je doet. Dit kan alleen met WordPress websites.

Dynamische XML-sitemaps zijn tegenwoordig de meest gangbare sitemaps en deze zijn zeer gebruiksvriendelijk. Eigenlijk heb je er geen omkijken naar. Wel af en toe in Google Search Console controleren of ze daadwerkelijk worden geüpload, zo ja, dan is alles in orde. Mobiele en HTML-sitemaps worden nagenoeg niet meer gebruikt. Gebruik afbeeldings-, video- en Google Nieuws-sitemaps alleen als deze noodzakelijk zijn omdat ze de essentie van jouw website zijn.

XML Sitemap Indexatie

En dan rest de vraag natuurlijk; hoe gebruik je een XML-sitemap optimaal voor de beste SEO resultaten? Het meest voor de hand liggende antwoord is: neem alleen SEO-relevante pagina’s op in XML-sitemaps. Want een XML-sitemap is simpelweg een lijst met pagina’s die je aanbeveelt om te worden gecrawld, wat niet noodzakelijkerwijs betekent dat iedere pagina belangrijk is. Doordat Google werkt met een “crawlbudget” zullen mogelijk niet alle pagina’s bezocht worden. En om te voorkomen dat Google de meest belangrijke pagina’s mogelijk overslaat, dien je aan te geven welke pagina’s het belangrijkst zijn.

De XML-sitemap geeft aan dat de opgenomen URL’s beschouwt moeten worden als belangrijk en hiermee vertel je zoekmachines; “Ik zou het erg op prijs stellen als je bij het indexeren deze pagina’s voorrang geeft. Je helpt zo zoekmachines hun crawlbudget effectief te gebruiken. Dus door alleen SEO-relevante pagina’s op te nemen, help je zoekmachines jouw website sneller en efficiënter te indexeren.

Ook is het van belang sommige pagina’s uitdrukkelijk uit te sluiten van indexering:

• Niet-canonieke pagina’s
• Dubbele pagina’s
• Gepagineerde pagina’s
• URL’s op basis van parameters of sessie-id’s
• Pagina’s met zoekresultaten voor sites
• Pagina’s met reacties van bezoekers
• Deel via e-mail-URL’s
• URL’s gegenereerd door filters bij bijvoorbeeld webshops
• Pagina’s met archivering
• Eventuele omleidingen (bijvoorbeeld de 301 en 308)
• Ontbrekende pagina’s (4xx) of serverfoutpagina’s
• Andere foutmeldingen (5xx)
• Pagina’s die zijn geblokkeerd door robots.txt
• Pagina’s met no-index
• Resourcepagina’s die toegankelijk zijn via een lead gen-formulier (bijv. white paper
PDF’s)
• Hulpprogramma’s uitsluitend voor gebruikers zoals; inlogpagina, neem contact met ons op, privacybeleid, account, etc.

Wanneer jouw website 1.000 pagina’s heeft en 400 van die pagina’s zijn voor zoekmachines irrelevant, dan markeer je die 400 pagina’s in een XML-sitemap en daarmee geef je aan dat zoekmachines zich vooral op de overige 600 pagina’s moeten richten. Wanneer Google die 600 pagina’s crawlt worden deze algoritmisch gelabeld. Dan krijgen er bijvoorbeeld 200 het A-label, 200 het B-label en 200 het C-label. Wanneer je geen pagina’s gaat prioriteren heb je kans dat er 600 pagina’s het D- of E-label krijgen en dat moet je zien te voorkomen. Google ziet liever een website met minder maar meer relevante pagina’s dan een website met veel en irrelevante pagina’s. De laatste optie zal zorgen voor lagere positionering in de SERP’s (Search Engine Result Page).

Onthoud dat Google een .xml sitemap ziet als aanbeveling en niet noodzakelijkerwijs dit opvolgt. Pagina’s die in de sitemap ontbreken kunnen toch wel degelijk geïndexeerd worden. Als het om SEO gaat is de algehele kwaliteit van jouw website een belangrijke factor. In Search Console geeft Google de technische kant van de website aan. Foutmeldingen dienen te worden opgevolgd.

In Search Console is met betrekking tot de sitemap niet zo heel veel terug te vinden. Voornaamste is dat je kunt zien wanneer de laatste keer de indexering is geweest. Dat op zichzelf is natuurlijk een belangrijk gegeven. Ook kun je terug vinden welke pagina’s niet zijn geïndexeerd. Wanneer een foutmelding hiervan de oorzaak is, dient de fout te worden hersteld. Zorg er in ieder geval voor dat de pagina niet per ongeluk wordt geblokkeerd door een robot.txt bestand. Dan is er vaak in de PlugIn van Yoast het vakje met ‘Disallow’ aangevinkt. Dan geef je dus specifiek zoekmachines de opdracht deze pagina niet te indexeren. Als er geen foutmelding is kan Google er zelf voor hebben gekozen deze pagina’s niet te indexeren. Hier zijn verschillende redenen voor:

Serverfout (5xx)
Jouw server geeft een foutcode op die begint met een 5. Dit kan van alles zijn en moet vanaf de bron (server) worden gecontroleerd.

Omleidingsfout
Google trof tijdens de indexering een fout in de omleiding:
• Een omleiding die te lang was
• Omleidingen die naar elkaar verwijzen (lus)
• Een omleidings-URL die de maximale URL-lengte heeft overschreden
• Een omleiding met een onjuiste of lege URL
Met Chrome DevTools (F12) kun je vaak zien waar de fout zit.

URL geblokkeerd door robots.txt
Deze pagina is geblokkeerd door het robots.txt-bestand op jouw website. Ook dit wordt weergegeven in Search Console bij Paginafunctionaliteit. Wanneer een pagina is geblokkeerd door een robot.txt bestand kan mogelijk Google nog steeds de pagina indexeren. De beste manier om te voorkomen dat Google te pagina crawlt is door het gebruik van een noindex.

URL gemarkeerd als ‘noindex’
Dit is dus de correcte manier om te voorkomen dat Google deze pagina indexeert. Tenzij je natuurlijk wilt dat deze geïndexeerd wordt. Dan dien je deze status te verwijderen.

404 foutmelding
Een 404 melding wil zeggen dat de server doorgeeft dat er iets fout gaat en deze pagina niet geladen kan worden. Dit kan een verkeerd ingestelde link zijn, verwijderde pagina of verhuisde pagina zonder doorverwijzing.

Soft 404
Een soft 404 is niet echt een 404 maar een “mogelijke” 404. Google vermoed dit dus. De server geeft door dat alles OK is maar Google vermoed dat er toch iets fout gaat. Dit kan door meerdere redenen komen zoals het ontbreken van content (bijna lege pagina) of een sterk afwijkende pagina.

401 code (geblokkeerd wegens ongeautoriseerd verzoek)
Deze pagina wordt geblokkeerd omdat autorisatie vereist is om deze pagina te bezoeken. Je kunt de autorisatie verwijderen of zo instellen dat Google wel toestemming heeft deze te bezoeken maar “gewone” bezoekers niet.

Gecrawld – momenteel niet geïndexeerd
De pagina is recent door Google gecrawld maar niet geïndexeerd. De pagina zal mogelijk in de toekomst wel geïndexeerd worden. Reden voor website eigenaren onbekend. Geen actie vereist.

Ontdekt – momenteel niet geïndexeerd
De pagina is gevonden door Google, maar bewust nog niet gecrawld. Dit kan zijn omdat Google signalen oppikte dat de site overbelast zou raken. Google zal binnenkort opnieuw een poging wagen. Geen actie vereist.

Alternatieve pagina met de juiste canonieke tag
Een canonieke tag verwijst een pagina door naar de canonieke pagina, oftewel de pagina die als meest relevant gezien moet worden wanneer er een of meerdere pagina’s content bevatten die veel op elkaar lijken.

Dupliceren zonder door de gebruiker geselecteerde canoniek
Deze pagina is nagenoeg een kopie van een andere pagina en daarom heeft Google besloten deze niet meer de indexeren. Ook is er geen canonieke tag ingesteld. Google zal deze pagina niet meer vertonen in de zoekresultaten. Dit is bewust zo gedaan om er voor te zorgen dat Google niet meerdere url’s vertoond met nagenoeg dezelfde content.

Dupliceren, Google heeft een andere canoniek gekozen dan de gebruiker
Op deze pagina is een canonieke tag geplaatst, echter denkt Google dat een andere pagina meer geschikt is.

Pagina met omleiding
Deze pagina wordt doorverwezen naar een andere pagina, zodoende heeft het geen zin deze te indexeren. De bestemmingspagina kan wel worden geïndexeerd.

Geïndexeerd, hoewel geblokkeerd door robots.txt
Ondanks dat deze pagina is geblokkeerd door een robot.txt bestand is deze toch geïndexeerd. In sommige gevallen kan Google deze blokkade negeren. Dit gebeurt met name wanneer deze pagina (vaak) bezocht wordt door derden. Dan wil Google wel weten wat de inhoud van deze pagina is. Door het robot.txt bestand zal in de zoekresultaten geen of beperkte informatie worden vertoond.

Pagina geïndexeerd zonder inhoud
Deze pagina wordt geïndexeerd door Google maar Google herkend om wat voor reden dan ook de content niet. Er kan sprake zijn van camouflage of een format die Google niet herkend. Het is belangrijk dat er een gezonde verhouding is tussen de goedgekeurde pagina’s en pagina’s met een foutmelding. De regel is dat niet meer dan 20% van de pagina’s een foutmelding mogen hebben. Websites met nul foutmeldingen kom ik zelden tegen.

De gratis PlugIn van Yoast genereerd automatisch jouw sitemap

Sitemap Checklist

Loop zo nu en dan deze checklist na om zeker te weten dat de sitemap in orde is:

  • Een sitemapindexbestand gebruiken
  • Comprimeer sitemapbestanden met gzip
  • Gebruik afbeeldings-, video- en Google-nieuwssitemaps alleen als indexatie
  • Controleer dat jouw belangrijkste pagina’s geïndexeerd worden
  • Zorg ervoor dat de XML-sitemaps dynamisch gegenereerd worden
  • Zorg er voor dat alle URL’s in één sitemap worden opgenomen
  • Verzoek tot indexering zowel naar Google als Bing versturen
  • Google Search Console gebruiken om fouten op te lossen
  • Alle fouten en waarschuwingen oplossen
  • Bereken het indexatiepercentage van ingediende pagina’s (min. 80% goedgekeurd)
  • Oorzaken van uitsluiting voor ingediende pagina’s aanpakken

 

Door deze checklist zo nu en dan na te lopen ben je verzekerd van een correct ingediende en werkende .xml sitemap. Heb je hier vragen over? Neem contact op!