Jeg har i et tidligere indlæg kort beskrevet, hvad robots.txt er for en størrelse, men i dette indlæg tager vi et nærmere kig på, hvad denne fil egentlig kan bidrage med til din hjemmeside.
Introduktion til robots.txt: Hvad Er Det og Hvorfor Er Det Vigtigt?
Robots.txt er helt grundlæggende en type fil, der fortæller søgemaskinerne, hvordan de skal crawle og indeksere din hjemmeside.
Med andre ord er filen med til at afgøre, hvorledes en hjemmeside tager sig ud i søgeresultaterne.
Dette giver dig som webstedsejer kontrollen over, hvordan din hjemmeside optræder i søgemaskinerne, således at det udelukkende er de mest relevante sider, der bliver præsenteret for brugerne.
Rent SEO-mæssigt er dette naturligivis vigtigt, da det har noget at sige i forhold til, hvordan du placerer dig i søgeresultaterne.
Sådan Styrer Du Søgemaskinecrawlere med robots.txt
Robots.txt’s fineste opgave er at lede søgemaskinecrawlere hen på relevante sider på dit website for at sikre, at disse i sidste ende fremgår i søgeresultaterne.
Dette gøres ved hjælp af en simpel ”tilladelse”, der står skrevet ind i robots.txt filen.
For de sider du IKKE ønsker skal indekseres vil der være tale om tilføjelsen af ”disallow” for filnavnet, mens for de sider du ønsker skal indekseres vil det være ”allow”, der skal tilføjes til filnavnet.
Forestil dig, at der er sider, der ikke er nødvendige for Google at crawle på din hjemmeside eller måske endda sider, der ikke pt er i brug endnu, og som derfor heller ikke bør tiltrække besøgende.
For de sider, er det en god idé at give Google eller de andre søgemaskiner beskeden om, at de ikke bør indekseres.
Det kan også være, at der er sider, der er ”under construction”, og som behøver længere tid, førend at de kan indekseres.
Her kan du ligeledes tilføje en såkaldt gennemgangshastighed, der indikerer for søgemaskinerne hvilken hastighed, der skal anvendes til dit website.
Grundlæggende om robots.txt Syntaks og Struktur
Der er flere ting at forholde sig til, når det kommer til selve syntaksen for en robots.txt fil.
Lad os tage det mest grundlæggende her:
User-agent angiver, hvilke søgemaskinebots du ønsker skal crawle din hjemmeside.
Hvis du ønsker, at det skal være alle søgemaskiner, der kan crawle din hjemmeside, skal syntaksen se ud på følgende måde:
User-agent: *
Hvis du tværtimod ønsker, at det specifikt skal være Googles crawlerbots, der skal indeksere din hjemmeside, skal syntaksen se ud på følgende måde:
User-agent: Googlebot
Efterfølgende har du, som nævnt, mulighed for at være specifik omkring, hvilke sider skal indekseres, og hvilke der ikke skal ved at bruge følgende syntakser:
User-agent: *
Disallow: /ikke-relevant-side/
Allow: /relevant-side/
Almindelige Fejl i robots.txt og Hvordan Man Undgår Dem
Når man snakker robots.txt er en af de mest almindelige fejl, at filen ikke opdateres eller ganske enkelt er skrevet forkert.
For eksempel er det ikke ualmindeligt, at der kan opstå situationer, hvor en relevant underside ikke bliver indekseret, fordi der fejlagtigt er skrevet ”disallow” i filnavnet.
Derudover er det vigtigt at holde robot.txt koderne opdaterede løbende, efterhånden som din hjemmeside vokser.
Google Search Console har i denne forbindelse en dedikeret robot.txt tester, der kan afklare, hvilke sider der er tilgængelige for søgemaskinens crawlers.
Robots.txt vs. Meta Tags: Forskellige Metoder til Indekseringskontrol
Måske du allerede har hørt om Meta Tags og netop nu overvejer, hvad forskellen egentlig er på disse og robots.txt?
Der er nemlig ganske rigtigt tale om to metoder til indekseringskontrol, men de fungerer på forskellige måder.
Meta tags
Meta tags fungerer som stykker af HTML kode, som du kan indsætte på specifikke sider af dit website.
Her kan du ved hjælp af kommandoerne ”no-follow” og ”no-index” give søgemaskinen besked på følgende:
- Ikke at følge linkene på din side.
Eller
- Ikke at indeksere din side og vise den i søgeresultaterne.
Ved hjælp af disse kommandoer kan du mere specifikt fravælge indeksering og på samme tid tilvælge, at crawlerne må følge de links, der måtte være til stede på siden.
Robots.txt
Robots.txt anvendes derimod typisk til blokering af større sektioner på et website fra at blive crawlet og siden indekseret.
Her snakker man altså ikke om eventuelle links, der gerne må følges af søgemaskinerne, men snarer en fuld blokering af sektionerne fra at blive indekseret.
Kombinationen af de to metoder kan give rigtig god mening, da det giver dig præcise muligheder for at finjustere, hvilket indhold der bliver synligt i søgeresultaterne.
Robots.txt og SEO: Bedste Praksisser
Som nævnt, spiller robots.txt en væsentlig rolle for effekten af dine SEO-stra tegier.
Disse koder vil nemlig være med til at optimere indekseringen af dit website, således at du er sikker på, at det kun er relevante sider, der er synlige i søgeresultaterne.
Foruden de specifikke koder for, hvilke sider der skal indekseres og hvilke der ikke skal (”disallow” og ”allow”), vil det også være en fordel at oprette et sitemap for din hjemmeside.
Ved hjælp af et sitemap, vil de enkelte søgemaskiner hurtigere og bedre opnå et overblik over strukturen på dit website og dermed også, hvilke sider der skal indekseres.
Sikkerhedsaspekter ved robots.txt: Potentielle Risici
Når det kommer til robots.txt, er der en række sikkerhedsaspekter at tage højde for, for at undgå at løbe inde i potentielle risici, der kan stille din hjemmeside i en sårbar situation.
Robots.txt er en offentlig tilgængelig fil, og bruges den således til at skjule specifikke sider på dit website, der har at gøre med følsomme oplysninger, kan det for hackere være muligt at tilgå disse filstier.
Her er det vigtigt at tage sig sine forholdsregler og undgå at benytte sig af en robots.txt fil til at skjule sider med følsomme oplysninger.
I stedet bør disse blokeres fuldkomment via andre metoder (fx IP-blokering).
Avancerede Teknikker og Tips til robots.txt
For at få endnu mere ud af robots.txt og effektivisere indekseringsprocesserne yderligere, er der en række teknikker, du med fordel kan tage i brug:
Kommando kombination
Har dit website flere sider under samme navn, som ikke er relevante at indeksere, kan du kombinere disse sider i din kommando på følgende måde:
Lad os sige, at du har en række undersider med blogindlæg, der alle er kategoriseret som ”blog”.
For at undgå at indeksere dem alle på én gang, kan du ved hjælp af Disallow: /blog*/ sørge for at alle URL’er fra dit website, der indeholder blog ikke bliver indekseret.
Det samme gælder for URL’er der slutter med en bestemt struktur, for eksempel hvis der er tale om en specifik filtype som PDF.
Ved hjælp af Disallow: /*.pdf$ kan du sørge for, at alle URL’er med tilhørende PDF’er ikke indekseres.
Inkludering af sitemaps
For at effektivisere indekseringen af din hjemmeside kan du med fordel inkludere linket til dit sitemap i robots.txt filnavnet.
På denne måde er du sikker på, at crawlerne har adgang til det nyeste indhold på dit website.
Specifikke regler afhængig af crawler
Hvis det er nødvendigt at give forskellige søgemaskinecrawlere forskellige regler, kan dette specificeres på følgende måde:
Lad os sige, at du ønsker forskellige instruktioner til henholdsvis Bing og Google:
User-agent: Googlebot
Disallow: /blog*/
User-agent: Bingbot
Disallow: /*.pdf$
På denne made kan du specificere, hvilke sider der er irrelevante for hvilke søgemaskiner.
Fremtidens Udsigter: robots.txt i en Ændrende Digital Verden
Robots.txt vil i mine øjne kunne stå over for en spændende udvikling for fremtiden.
I takt med at søgemaskinerne bliver mere avancerede i deres evne til at indeksere indhold på hjemmesider, vil man ligeledes kunne forvente en smartere og mere avanceret anvendelse af robots.txt.
Forestil dig for eksempel, at der vil være mulighed for endnu mere avancerede indekseringsmuligheder, hvor der, baseret på brugernes søgevaner og specifikke søgeord kan gives instrukser om prioriteringen af de mest relevante sider fra søgning til søgning.
Derudover vil fremtiden med garanti byde på endnu mere specifikke muligheder for crawlinger på selve websitet.
Forestil dig for eksempel, at du ønsker at dine blogindlæg crawles oftere, mens andre sider ikke behøver samme opmærksomhed.
Det vil alt i alt effektivisere crawlingprocessen og sørge for at relevant indhold får mest mulig opmærksomhed.
15 års tips og tricks?
På LinkedIn deler jeg hver uge tips og tricks med mere end 8.000 følgere. Det er gratis at følge med og du kan altid “unfollow” mig igen. Vil du være med?
Kommentarer