1 van de 3 hoofdtaken van een zoekmachine is website indexatie, in dit artikel leer je daar alles over. Na crawling en voor ranking komt website indexatie.
Je website kan enkel gevonden worden als de webpaginas geïndexeerd zijn door de zoekmachines. Als je webpaginas niet geïndexeerd zijn kan die geen
Je moet daarom wel weten welke paginas Google en andere zoekmachines niet indexeren. Als dat probleem is opgelost gaat je SEO-positie weer een boost krijgen.
De 3 hoofdfuncties van een zoekmachine
Zoekmachines zoals Google doen 3 grote taken:
Crawling
Indexing
Ranking
Dat betekent dat de zoekmachine in 3 fases werkt:
Online web-content zoeken op het internet (=crawling ofwel fase 1)
De gevonden web-info catalogiseren (=indexing ofwel fase 2)
Een zo goed mogelijk antwoord tonen in de zoekresultaten (=ranking ofwel fase 3)
Fase 1: Crawling
Crawling lijkt eigenlijk een beetje op een metro-netwerk, daarom gebruiken we dit als hulpmiddel.
Elke metrohalte is een unieke webpagina, video of afbeelding
De weg die de metro neemt is de link
Het metroplattegrond is het internet
Om alle stopplaatsen (webpaginas) te bekijken gebruikt de metro (zoekmachine) de meest geschikte weg (links)
Hyperlinks verbinden dus het world wide web en zo geraakt de zoekmachine aan de miljarden webcontent.
Google gebruikt spiders of Google-Bots om de content te doorzoeken. Websites worden enkel bezocht als ze gekend en te vertrouwen zijn. Als de bot een nieuwe URL vindt, wordt er op die pagina gecrawld.
Spiders en bots gaan van link naar link naar link en sturen de gevonden informatie door naar de datcenters. Als de webpagina niet verbonden staat met andere web-content kan het niet geindexeerd of gecrawld worden en dat noemen we een "wees" of "orphan page"
. Deze paginas zullen niet in de search results tevoorschijn komen.
. Grote websites met honderd duizenden URLs zullen niet volledig gecrawld worden door Google. Het is daarom ook belangrijk dat jij als grote site de voornaamste URLs laat crawlen.
De crawlbaarheid (of crawlability) kun je verhogen door:
De nieuwe of bijgewerkte webpaginas die de Google-bot heeft gevonden in de vorige stap worden allemaal in een enorme database geplaatst. Deze vormen een basis voor website indexatie. Het zoekproces start met een lijst van URLs van eerdere zoekprocessen en wordt aangevuld met de sitemap-data
Al deze sites en gevonden hyperlinks worden doorzocht door de Google-bot en daarna opgenomen in de lijst van te crawlen paginas. Om de index te actualiseren worden nieuwe website, bijgewerkte paginas en broken backlinks geanalyseerd.
Fase 3: Ranking
Na het vinden en indexeren van de webpaginas volgt stap 3, de ranking. Alle gecrawlde paginas worden verwerkt in een enorme index. In die index worden alle gevonden woorden, meta informatie en de locatie van de pagina opgeslaan. Als een surfer een zoekwoord intypt in een zoekmachine wordt heel de mega-index doorzocht en de meest relevante resultaten worden meteen in de zoekresultaten weergegeven.
Kort samengevat, als de URL is geïndexeerd is deze vindbaar en kan hij weergegeven worden in de zoekresultaten.
Het belang van een technische SEO-audit
Een zoekmachine werkt in 3 stappen zoal hierboven uitgelegd. Crawling, indexering en ranking. Het kan gebeuren dat een website niet gecrawld of geïndexeerd kan worden, het gevolg daarvan is dat de webpagina niet kan gerankt worden en de zoekresultaten. Dit gebeurt vaak onbewust.
Wat er ook kan gebeuren is dat een website wel word gecrawld en geïndexeerd maar dat de content niet wordt begrepen door de zoekmachine. Dit zal zorgen voor een lage ranking en weinig organisch zoekverkeer.
Om deze problemen te vermijden is het nodig om regelmatig een SEO-audit
uit te voeren. Een SEO-audit toont je welke webpaginas niet geïndexeerd kunnen worden door een crawl-probleem of een indexeringsprobleem. Eenmaal je weet waar het probleem zit kun je dit gerichter op lossen.
Website indexatie controle tools
Indexatie-ratio
Een URL kan enkel in de zoekresultaten komen als het geindexeerd is door de zoekmachines. Daarom moet je zeker weter hoeveel URLs van een website Google heeft opgenomen in haar index. Deze verhouding noemt de indexatie-ratio. Je kunt dit uitrekenen door het aantal geindexeerde URLs te delen door het totaal aantal URLs.
Dus:aantal geindexeerde URLs / totaal aantal URLs=Indexatie-ratio
In de onderstaande figuur kun je 3 mogelijke indexatie-ratio scenarios zien:
Het eerste scenario is perfect, alle URLs van de website zijn ook geïndexeerd door Google.
Het tweede scenario is normaal en daarom ook de meest voorkomende. Google heeft niet alle URLs geïndexeerd. Er zitten dus minder webpaginas in de index dan dat er in het totaal op de website zijn. Sommige goed geoptimaliseerde SEO-websites doen dit zelf via robots.txt file.
Als laatste heb je scenario 3. Er zitten meer paginas in de index dan het totaal aantal URLs op de website. De oorzaak hiervan is duplicate content
Wil je weten hoeveel URLs van je website in de index van Google zitten? Dit kun je doen om het te weten komen:
Site
De eerste mogelijkheid is via Google. Je typt in de zoekbalk site: en de naam van de website er meteen tegen. Bijvoorbeeld site:onlinemarketingmonkey.be. Je zult het aantal resultaten zien staan. Vertrouw deze manier nooit helemaal, deze resultaten durven wel eens te wijzigen.
Bij deze zoekopdracht op Google.be was het eerste resultaat 310, na even scrollen was het resultaat plots 298. Als we dezelfde zoekopdracht in Bing en Yahoo deden kregen we 548 resultaten. Met al deze resultaten krijg je wel een beeld hoeveel geïndexeerde paginas er ongeveer zijn. Bij deze zoekopdracht zal dit rond de 300 liggen.
Search Console
In Google Search Console kun je gaan kijken hoeveel webpaginas er nu echt zijn ingediend en geïndexeerd. Dat kun je zien bij dekking > Ingediend en geïndexeerd. We hebben gebruiken nog steeds hetzelfde voorbeeld als daarnet en hier kun je zien dat de score ongeveer overeenkomt met de site-opdracht. De score staat hier op 284 en via de de site-opdracht kwamen we op 300.
Sitemap
We blijven even in de Search Console en gaan kijken bij sitemaps. Hier zien we dat het resultaat op 298 paginas in de index staat. Dit is dus maar een klein verschil met de 284 hierboven. Wilt dit zeggen dat de sitemap-data in GSC niet correct is? Wij leggen het hieronder even uit:
De sitemap wordt verstuurd via de Google Search Console en dit helpt om de structuur van de website beter te begrijpen. Bij dit proces kan het gebeuren dat er nieuwe URLs worden gevonden die tijdens het normale crawlproces niet zijn opgepikt.
Sitemaps vertellen welke paginas er moeten gecrawld worden maar, het is dus mogelijk dat niet alle webpaginas zullen gecrawld of geïndexeerd worden door een search engine. Het is dus eerder een advies-tool.
, je kunt dit bekijken bij Rapporten > Acquisitie > Search Console > bestemmingspaginas. Je zult zien welke landingspaginas SEO-verkeer ontvangen. Het getal toont hoeveel unieke paginas minstens 1 bezoek hebben gekregen van de google-crawler. Deze keer staat er 340 maar dit getal kan elke keer stijgen. Als je dit getal maandelijks bekijkt kan het een inzicht geven of je webpaginas meer organsiche bezoekers krijgen.
Let op,dit cijfer is niet het exact aantal geïndexeerde webpaginas maar het toont je hoeveel URLs er al 1 bezoek hebben gekregen van de zoekmachine. Dat is eigenlijk veel interessanter en hier vertellen we waarom:
Indexcijfers vertellen enkel of het in de index is geraakt, dat is goed maar dat wilt niet zeggen dat je webverkeer hebt gehad.
Niet geïndexeerde URLs opsporen
Hoe kan je dan niet-geïndexeerde webpaginas opzoeken? Search Console en site pdracht vertellen daar namelijk niets over. Het is dan ook moeilijker dan gedacht.
De eerste oplossing is elke webpagina afzonderlijk opzoeken door de site:commando manier. Het vergt heel veel tijd zeker als je duizenden paginas moet controleren
De tweede optie is de opdracht inurl of info, Dit is even tijdrovend zoals de site:commando
De snelste optie is een combinatie van een (betalende) SEO-tool (bv: Screaming Frog,URL profiler) en Excel. Ik leg even uit hoe het werkt:
Scan eerst al je URLs van de website met Screaming-Frog.
Via URLProfiler kun je automatisch per pagina van je sitemap checken of die geïndexeerd is, dat kan met de functie indexed in Google.
Je opent Excel en gebruikt de functie =ALS.FOUT(VERT.ZOEKEN(A2;F:F;1;0);Niet geindexeerd). Excel zal zelf de paginas die niet in de index staan zoeken.
Zo heb je een beeld van de website indexatie. In het voorbeeld zijn dat er 9, waarvan het logisch is dat ze niet opgenomen zijn maar daar komen we nog op terug.
Het is beter om ervoor te zorgen dat elke pagina high-quality content en veel backlinkshebben, dan moet je niet alle individuele non-indexed pages overlopen. Google schenkt geen waarde aan de niet-geindexeerde paginas, dus de paginas die niet kunnen ranken of bezoekers kunnen aantrekken.
Waarom zijn bepaalde webpaginas niet geïndexeerd?
Nieuwe webpaginas worden niet enkel gevonden door links via andere sites maar ook via de ingediende XML-sitemaps in de search console.
Om te kijken of de pagina voldoende waarde heeft voor de surfers en hun zoekopdrachten crawlen de engins de paginas. Als de paginas relevant genoeg is komen ze in aanmerking voor de indexatie.
Sommige webpages zijn niet geindexeerd door verschillende redenen:
Tijdgebonden oorzaken
Als de pagina laag in de search results staat gerankt (bv: positie 725) kan het lijken dat ze geen index-status hebben.
Als de website nieuw is kan het even duren voor de Google-bot deze heeft gevonden. De oplossing hiervoor is een link van de nieuwe website plaatsen op de al geïndexeerde website. Zo zal de Google-bot sneller de nieuwe website opmerken
- Heb je net een sitemap ingediend of nieuwe URLs? Het duurt even voor alle paginas geïndexeerd zijn dus wees geduldig
Technische redenen
Soms kunnen zoekmachines niet aan paginas omdat ze te diep zitten weggestopt in de site. Dit kan opgelost worden door internal linking. Je houdt de naam zo dicht mogelijk bij de domeinnaam of je plaatst links naar verdere paginas op je homepage. .
Je kunt ook per ongeluk de bots verbieden door de pagina te crawlen met je robots.txt file. Dit hebben we al eerder aangehaald.
Nog een reden kan duplicate content zijn. Dit is het makkelijkste uit te leggen via een webwinkel. Stel je hebt 100 artikelen te koop en hebt een productpagina voor al deze verschillende producten. Als er heel weinig verschil is tussen deze paginas zoals de kleur of een technisch detail, kan het zijn dat de search engines denken dat dit dezelfde pagina is. Zorg dus altijd voor een verschil!
Is je website zowel toegankelijk met als zonder www. De index zal hem 2 keer tellen terwijl de sitemap hem maar 1 keer zal tellen.
Hetzelfde voor URLs met http & https
Als de content oud is zal die nog een soft 404s hebben, in plaats van 401 of 301.
Andere oorzaken
Google hanteert de sitemap als een soort website-platform om andere URLs te ontdekken, maar bepaalt niet wat er daarvan wordt geïndexeerd of juist niet wordt geïndexeerd
Het kan dus zijn dat de map URLs bevat die de surfers niet kunnen zien in de search results omdat de engines de webpagina niet kwalitatief genoeg vonden voor de relevante zoekopdracht.
Google indexeert niet alle URLs uit de sitemap omdat ze ervan uitgaat dat de geïndexeerde URLs als voldoende representatief worden beschouwt, met redenering dat met meer geïndexeerde URLs de search results niet beter zullen worden. Dit zijn Google hun eigen woorden:
"We indexeren miljarden webpaginas en proberen dit aantal voortdurend te verhogen. We kunnen echter niet garanderen dat we alle paginas van een site crawlen. Google crawlt niet alle paginas op internet en we indexeren niet alle paginas die we crawlen. Het is volstrekt normaal dat niet alle paginas op een site worden geïndexeerd".
Samenvatting
Je webpaginas niet laten onderzoeken door zoekmachines is nadelig. Je webpaginas zullen niet vindbaar zijn en je SEO-positie zal niet goed zijn. Het niet laten indexeren van je website kan verschillende oorzaken hebben. Verbeter je website door bovenstaande adviezen te volgen. In de onderstaande infographic leggen we het verband uit tussen SEO, crawling, indexering en ranking.
De voorbije jaren is gebleken dat sociale media een uitstekende tool is om het verkeer naar je website te verhogen. Uiteraard geldt dit enkel wanneer je voldoende tijd en energie steekt in het maken van je content. Wil jij ook meer verkeer naar je website? Houdt dan rekening met de volgende tips om je sociale media optimaal te benutten en zo de Click-Through-Rate naar je website te verhogen.
Doelen definiëren
Het is belangrijk om doelstellingen voor je content vast te stellen en deze te duidelijk te definiëren. Dit zal je helpen in de zoektocht naar de soort content die je wil creëren. In dit geval is je doel om meer verkeer naar je website te krijgen. De content moet dan ook opgemaakt worden op een wijze dat het mensen naar de site leidt. Hoe specifieker het doel, hoe beter je de content kan afstemmen op het doel.
Kwaliteit
Je kan mensen aantrekken, maar het is de kwaliteit van je content dat zal bepalen of ze blijven. Vergelijk het met een Restaurant. Elk restaurant kan je behoefte (honger stillen) bevredigen. Maar het is de kwaliteit van het eten en de service die bepalen of je zal terugkeren en of je het restaurant zou aanbevelen aan je vrienden.
Relevantie
Een belangrijke factor voor succesvolle content is relevantie. Deze wordt bepaald door de mate waarop je content afgestemd is op je doelgroep, op je merk en op het kanaal waarop je post. Ook het tijdstip waarop je post is hier van belang. Er bestaan verscheidene kwalitatieve bronnen op het internet die je leren hoe je deze afgestemde content het beste kan creëren.
Er bestaat een gezegde die als volgt luidt:
being relevant is not enough, you need to be disproportionately relevant.
Het komt erop neer dat je naast relevant ook voldoende onderscheidend, uniek moet zijn in vergelijking met je concurrentie.
Content sweet spot
Content mag niet enkel vanuit het perspectief van de onderneming gemaakt worden, want dit zorgt voor middelmatige content.
Stel wel wij-vragen om een beeld te krijgen van je eigen sterktes. Stel daarnaast wie-vragen om de klant en zijn verlangens te leren kennen. Op deze manier bereik je de content sweet spot, waar er een evenwicht is tussen de waarden van je onderneming en de waarden en behoeften van de doelgroep.
Content formats
Terugkerende vormen van content, ook wel content formats genoemd hebben verscheiden voordelen. Het is gemakkelijker om content te plannen, voor te bereiden, te verbeteren en het creëert herkenbaarheid bij het publiek.
Content kalender
Het plannen van content kan je doen aan de hand van een content kalender. Ondanks de voordelen van een planning, is het bij content toch belangrijk dat je soms ook spontane content post. Op deze manier sta je nog dichter bij de klant en kan je inspelen op gebeurtenissen die niet vastliggen.
Korte tips
Hou je posts zo kort mogelijk.
Maak altijd gebruik van beeldmateriaal.
Ga dialoog aan met het publiek.
Voeg een call-to-action toe aan je posts.
Zorg voor verschillende types content.
Verwijs niet te veel naar de site, maar neem ook effectief de link op in je post.
Deze tips zouden je al veel moeten helpen met het verhogen van het verkeer van je sociale media naar je website. Uiteraard zijn er nog veel meer tips en tricks, maar dit is zeker al een goed begin. Goede content zorgt ervoor dat er meer interesse is voor je onderneming binnen je doelgroep, met als gevolg dat meer mensen je website zullen bezoeken. Probeer ook zelf eens na te gaan wat voor jou het beste werkt. Voor sommige ondernemingen werkt de ene tip beter dan de andere.