Duplicate content. Der er ikke grænser for hvad der bliver skrevet om duplicate content på diverse SEO blogs, budskabet er enkelt “sæt dit site op så der ikke opstår flere URLer til det samme indhold”. Det klassiske eks. er printvenlige sider
Lad os tage et kig på hvordan søgemaskiner gør for at finde duplicate content. Jeg kan selvfølgelig ikke afsløre søgemaskinernes præcise algoritme her :p – men se her hvordan de muligvis finder duplicate content.
Et tænkt eksempel: En blå bil der kørte hurtigt forbi den gode bager havde ikke lys på.
Først fjerner vi de overflødige ord som: En, der, den, havde, ikke
Vi har nu følgende tilbage: blå bil kørte hurtigt forbi gode bager lys på.
Det deler vi op så vi laver en form for fingeraftryk:
blå bil kørte
bil kørte hurtigt
kørte hurtigt forbi
hurtigt forbi gode
forbi gode bager
gode bager lys
bager lys på
Nu kan vi sammenligne ovenstående “fingeraftryk” med alle andre sætninger all over the net.
Tænkt eksempel på en anden sætning: En dame stod ved bageren og så en blå bil kørte forbi uden lys på
Det giver følgende “fingeraftryk”
dame stod bageren
stod bageren blå
bageren blå bil
blå bil kørte
bil kørte forbi
kørte forbi uden
forbi uden lys
uden lys på
Hvis vi prøver at sammenligne de to aftryk er det tydeligt at det ikke er duplicate content, da kun “blå bil kørte” er ens mellem de to sætninger. Jeg ville narturligvis gerne fortælle jer præcis hvor meget der skal til for at det bliver betragtet som duplicate content – men det er kun Big G der ved det – desværre.








Endeligt nyt indhold, og så faktisk en super artikel samtidig. Så gør det ikke noget der går lidt måneder imellem.
Men er det virkelig måden de undersøger for duplicate content på. Jeg troede det skulle være helt identiske afsnit. Så det gør ikke at ændre rundt på i hvilken rækkefølge sætningerne står ?
Tak Brian
hvis alle fulgte retningslinjerne ville der ikke være brug for de avantgarde algoritmer … men som du jo allerede ved er vi et nogle stykker der altid prøver at komme uden om ….
Duplicate Content – ren copy/paste virker stadig på mange spam sider – det seneste eksempel jeg har er en kollega i branchen som lavede en kopi at wikipedia (med indhold) for et halv år siden – den har i dag ca. 4000 unikke besøgende om dagen
… hvor længe den holder? det tør jeg ikke spå om.
Det store spørgsmål er, hvor god Google er til at spotte dupe content i “niche sprog” som dansk.
Der er ingen tvivl om at den kan spotte sider, der er nøjagtigt ens. Noget jeg selv har haft lidt problemer med på min blog. Her er Webmaster Central et ganske glimrende værktøj til at rapportere problemer.
Men tag f.eks. VisitDanmark’s store katalog over attraktioner i Danmark (lidt underlig URL: http://www.visitdenmark.com/danmark/da-dk/menu/turist/kort/kort/thy.htm), det kan man finde utroligt mange steder enten direkte kopieret eller i lettere omskrevet form. Og det virker ikke som om Google er i stand til at spotte det.
Derfor kan det godt virke som om at Google overhovedet ikke har algoritmerne på plads på de mindre markeder.
Google har nu alt for tit de små markeder på plads, når det handler om duplicate content: http://www.blog.concept-i.dk/naar-duplicate-content-rammer/
Jeg har tidligere i år siddet med en case, hvor kundens danske hjemmeside ikke kunne komme højere end side 8 på deres absolutte nøgleord. De var ramt af duplicate content qva det faktum, at alt deres indhold på dansk også kunne kaldes via deres .com domæne. Det fik vi løst – og uden at gøre andet overhovedet røg de på side 1, plads 5. med det absolutte nøgleord. Lidt linkbuilding og de lå nr. 1.
Men at store G ikke er ufejlbarlig hvad det angår, kan jeg også nogle gode eksempler på
Rissager, hvorfor undrer det mig ikke at du kender personer som har kopieret hele Wikipedia
Duplicate content er absolut noget man skal være opmærksom på og hvis man bevæger sig på den forkerte side af grænsen (hvilken skal prøves… ellers ved man jo ikke hvor den er), så må man bare tage med at man indimellem bliver straffet.
Mine HyperVRE sites indeholder mellem 800-1,000 sider stykket, men har efter et år kun omkring 15-80 sider i Googles index. Ingen tvivl om at det er duplicate content effekten der slår igennem.
Rissager: Håber du vil svare på lidt spørgsmål fra en nybegynder i SEO
Jeg undrer mig bare lidt over at alle nævner print-venlige sider som problemer i forhold til duplicate content. Vil det ikke sige at samtlige wordpress-sider (faktisk alle blogs, næsten) laver denne kæmpe fejl?
På alle wordpress sider kan man jo finde det samme indhold på forsiden og på den side som omhandler de enkelte indlæg. F.eks. denne side
Giver det ikke kæmpe problemer med duplicate content, eller kan Google godt gennemskue hvad det er der er formålet med de to sider?
Hej Jacob
Selvfølgelig vil jeg svare
Det er godt set – wordpress er generelt vildt dårlig til det med dupe content og der skal laves nogle ændringer hvis man vil undgå det (der findes naturligvis allerede plugins til det)
Omvendt skal det siges at Google er hammerne god til at finde frem til hvad der skal med i SERP og kan også finder ud af det med WP – men en rigtig SEO mand overlader ikke noget til tilfældighederne
Et andet eksempel kunne være link-loops:
iv.jsp?side=1
iv.jsp?side=1&side=2
iv.jsp?side=1&side=2&side=1
iv.jsp?side=1&side=2&side=1&side=1
iv.jsp?side=1&side=2&side=1&side=1&side=1
iv.jsp?side=1&side=2&side=1&side=1&side=1&side=2
Hvilket google også godt kan se – men igen, det er SEOeren der bestemmer og intet er overladt til tilfældighederne.
Et tredje eksempel kunne være det som Rosenstand ofte nævner nem´lig: et udvikler team laver sitet på et demo domæne så kunden kan se inden han køber – når kunden så har købt glemmer udviklerne af fjerne demoen og indholdet er der med dupe
Riisager, hvad er din vurdering af effekten når man bruger tags i indlæggene på forsiden af en blog? Jacob nævner selv at en blog har det samme indhold på forsiden som på undersider, men ofte er det kun små udsnit af den fulde artikel man ser. Vurderer du at det også kan give problemer, eller er det ikke tilfældet fordi det er så mange små udsnit at det rent faktisk bliver unikt?
Den har jeg lidt svært ved at svare på – for hvis det var min egen side ville lade det ligge – men havde en kunde betalt mig for at lave en hjemmeside ville jeg fjerne det evt. med robots.txt – tjek Jeremy´s robots.txt http://www.shoemoney.com/robots.txt
Læser jeg rigtigt, at han ikke ønsker at få indexeret sin forside (index.php)? Hvad har det af effekt på hoveddomænet (i.e. shoemoney.com)? Det er måske underordnet da der kun er tale om selve index.php siden.
shoemoney.com og shoemoney.com/index.php er to Urler til samme indhold – han udelukker kun en af forsiderne
Men så forstår jeg ikke hvad du mener med at fjerne det duplicate content man normalt har på en forside af en blog. Det kan godt være at jeg er lidt tung i betrækket her til morgen, men kan du ikke forklare hvad det er du ville gøre hvis du lavede et site til en kunde?
WordPress laver to forsider… blog.dk/index.php og blog.dk/ … de har jo nøjagtig samme indhold, (duplicate
). Så fjerner han jo blog.dk/index.php…
Du får faktisk tre forsider, hvis du vælger at lave en statisk forside (vælger en af dine sider som forside)… så der skal også fjernes en ekstra mere der..
nogenlunde sådan http://www.shoemoney.com/robots.txt
Fjerne alle muligheder for 2 URLer til samme indhold
Er vi ikke kommet lidt at sporet her? Hvis der stadig er én forside der bliver indexeret og den benytter sniplets (eller fulde posts for den sags skyld), er der så ikke stadig en risiko for duplicate content i forholde til de individuelle posts?
duplicate JO
Jo men det er da meget hyggeligt ikke
Jo for at komme tilbage så har jeg muligvis givet dig formlen til hvordan G gør ovenfor – så er spg. bare hvor mange % der skal være ens og hvor mange ord G bruger (jeg brugte 3)
Riisager: Tak for svaret.
Hvad er din vurdering af hvad google gør man duplicate content? Hvis man siger at google altid kun vil have den ene version af noget indhold (forsiden/indlæg/print-venlig) hvordan vælger den så hvilken den vil have i indeks?
1. Den som google først er stødt på
2. Den med flest backlinks
3. Den med højst PR
4. Den med mest indhold (for ikke at have den med snipplet)
5. Andre faktorer?
Hej Jacob
Jeg ved ikke hvordan Google gør – men det er helt sikkert en kopination af rigtig mange faktorer.
Duplicate content kan vel også være hvis man selv (ved et uheld) generere flere forskellige URL’er til samme side? Især brugen af ÆØÅ og tegn som + i en URL giver en del fuckups i den retning:
http://www.hjv.dk/Org/HHV/TFRK/HHD%2BNORDSJ%C3%86LLAND/HVK%2BSSR/SSR/PTRKMP.htm
http://www.hjv.dk/Org/HHV/TFRK/HHD+NORDSJÆLLAND/HVK+SSR/SSR/PTRKMP.htm
Duplicate content opstår også, når virksomheder snupper hele tekster fra egen (måske nye) hjemmeside og udsender som pressemateriale. Det postes så på sites med højere trust – og voila: Der er dømt duplicate content!
Riisager: Du skriver da ikke så flittigt mere…?
Hej Rosenstand – Nej – jeg har alt for mange projekter kørende og nu hvor jeg er gået lidt væk fra BH verdenen så laver tingene jo ikke sig selv mere
Min Google alert fortæller mig, hvad du mener
heh .. det er bare et lille forsøg
De skal også passes – måske har du set, jeg leger med? Husk: Man skal dele ros og ri(i)s ligeligt. Cute, ikke?
Hej Riisager (og I andre bidragere)
Vil bare sige 1000 tak for nogle gode og vise artikler, som er til at forstå!
Jeg er kun et spædt kid i branchen, men det går fremad – også takket være dig ;O)