Som udgangspunkt kan søgemaskiner ikke lide “søgninger i søgninger” og med dette mener jeg at søgemaskiner ønsker ikke at vise en hjemmesides søgeresultater. De ønsker kun brugeren skal søge en gang og det skal selvfølge være hos søgemaskinen selv – resultatet af brugerens søgning skal lede dem direkte til den infomation de er på udkig efter og ikke til en ny søgning, Vi har derfor ikke brug for at søgemaskinerne også crawler de uendelige loops som der ofte kommer ud af de interne søgninger. Med dette i baghoved har WordPress (og de fleste ændre CMS/Webshop systemer) utrolig mange fald grupper.
Hvis vi tager udgangspunkt i WordPress bliver eksempelvis alle tags, arkiver, kategorier osv. til søgeresultater. De typiske løsninger når man arbejder med søgemaskineoptimering er en kombination af meta tags (follow, noindex) og robots.txt. Fordi hvis man lukker alt ude med robots.txt kan man smadre den interne linkbuilding totalt og skabe et tons af ophan sider som ingen forbindelse har mellem hinanden. Dermed mister man en del af den interne linkjuice.
Nedenstående skulle fjerne alle muligheder for at søgemaskinerne crawler en WordPress installations søgeresultater. Men den smadre også den interne linkbuilding, så jeg vil anbefale at bruge den sammen med et “related post” og et “sitemap” plugin
Som lidt ektra creme har jeg sikret at en lang række fil typer ikke bliver crawlet og fjernet blokeringen af Adsense botten for at sikre den som bruger Adsense stadig for relevante annoncer til brugernes interne søgninger. Ligeledes er hele admin delen og samtlige feeds udelukket.
Tegnforståelse:
- * Wildcard og betyder alt kan erstattes med dette
- $ Indikere at det er slutningen af en URL
- “User-agent:” bliver brugt til at styrer hvilken “robot” reglerne er gældende for.
- “Crawl-delay:” Har jeg ikke i nedenstående robots.txt, men den bruges til at fortælle “robotten” hvor lang tid det skal gå mellem den loader en ny side eksempelvis vil “Crawl-delay: 5″ sætte et delay på 5 sekunder. (virker ikke på Googles bot)
- Disallow: Angiv hvor “robotten skal blokeres
- Allow: Overskriver Disallow: og tillader adgang
Kopier nedenstående ind i notepad og gem filen som “robots.txt” upload den derefter til roden at dit domæne (eks. semoblog.com/robots.txt)
# robots.txt powered by Riisager from semoblog.com
#
# Notes:
# 1. slugs on post and pages shut not start whit “wp-”
# 2. combine this with a “related post” and “sitemap” plugin
User-agent: *
Disallow: /*?
Disallow: /cgi-bin
Disallow: /wp-*
Disallow: /feed
Disallow: /comments
Disallow: /comment-page*
Disallow: /page
Disallow: /author
Disallow: /tag
Disallow: /archives
Disallow: /category
Disallow: /date
Disallow: /trackback
Disallow: /readme.html
Allow: /images*
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.txt$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.flv$
Disallow: /*.wma$
Disallow: /*.mov$
Disallow: /*.mp3$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.xlsx$
Disallow: /*.xls$
Disallow: /*.doc$
Disallow: /*.docx$
Disallow: /*.pdf$
Disallow: /*.zip$
# Google ad bot
User-agent: Mediapartners-Google*
Disallow:
# Remove the “###” below if you have a sitemap.xml – remember to edit the domain “yourdomain.com”
###Sitemap: http://yourdomain.com/sitemap.xml.gz








oplysende og god guide, men en novise som mig leder efter oplysninger om hvordan robot.txt dannes i WordPress?
I roden hos min host kan jeg ikke se robot.txt. men bruger jeg google webmasterværktøj ser det ud som om google finder en robot.txt.
Jeg døjer med at mine adsense ikke er relevant og vil derfor give google adsense webcrawler bedre adgang og det er så her jeg strander
Har forsøgt at give google adgang via alm. login men ved test lander det på en fejlside
Har du evt. en god ide til hvor jeg finder løsningen til bedre adsense relevans?