Seite 35 von 131

Verfasst: 19.05.2004 11:45
von Wuppi
m0bby hat geschrieben:
Das ist der normale Googledance.
Die Daten werden zwischen den einzelnen Google-Datenbanken abgeglichen. Dabei kommt es zu diesem Auf und Ab.
Neue Seiten scheinen zunächst relativ schnell im Suchergebniss. Beim Abgleich mit den anderen Google-Servern erscheinen diese Seiten dann plötzlich nicht mehr, wenn die anderen Server diese noch nicht kannten. Nun scheine die anderen Server die Seite aber nach einer Weile ebenfalls zu checken und dann sind sie wieder im Suchergebnis.

Google-Dance hab ich schonmal gehört - aber das das so extrem ausfällt - ok ;)
Wuppi hat geschrieben: Nur was mit sorgen macht: warum kommen wir nicht über 2480 indizierte Seiten bei google - google kommt min. 1mal in der Woche mit ner ganzen horde vorbei! am Nächsten Tag sieht man das bei den seiten in google das diese am Vortag indiziert wurden - aber keine Seite dazu - immer noch 2480 ... manchmal gehts 20 höher, dann aber wieder runter .... bei der alten Domain stieg es regelmässig ...
Ich habe auch beobachtet, dass Googel Seiten die er schon kennt, häufiger wieder besucht und offensichtlich auf Änderungen überprüft. Findet er die Seite verändert vor, wird der Abstand bis zum nächsten Besuch kürzer. Diese bereits bekannten Seiten tauchen dann auch recht zeitnah im Google Suchergebnis mit den aktuellen Inhalten auf.
Findet der Bot eine Link auf neue Seiten scheint dieser an einen anderen Bot-Server weitergegeben zu werden. Denn es dauert etliche Tage, bis mal ein Googlebot diese neue Seite besucht. Anschliessend dauert es noch mal ein paar Tage, bis die Seite auch in der Googlesuche gelistet wird.
Nun geht das Spiel von vorne los: Besuche in immer kürzeren Abständen und zeitnahe Aktualisierung der Inhalte im Suchergebnis.

Schönen Gruß
mObbY
Mhhh das macht er aber erst seit der neuen Domain - bei der alten kam google zum schluß fast täglich .... Hier kommt er jetzt auch mehrfach in der Woche - teils mit nem Aufenthalt von ner knappen stunde! Es schaut so aus als ob er das ganze forum spidert - und dann am nächsten Tag nur die 2480 Seiten aktualliesiert - und paar Tage später immer noch nichts neues dabei ...

Bis denne
Wuppi

Verfasst: 19.05.2004 12:19
von Destruktor
Wie siehst du denn wie lange google in deinem forum war ?
mein counter (phpee.com) läßt sich irgendwi nichts ins forum einbauen, so seh ich nur wer die startseite aufruft und dann zum Forum wechselt..

Google Bot´s seh ich in meinem counter auch selten, aber trotzdem aktuelle ergebnisse..

Verfasst: 19.05.2004 12:24
von m0bby
Wuppi hat geschrieben:Mhhh das macht er aber erst seit der neuen Domain - bei der alten kam google zum schluß fast täglich .... Hier kommt er jetzt auch mehrfach in der Woche - teils mit nem Aufenthalt von ner knappen stunde!
Bei mir kommt der Googlebot auch täglich vorbei. Besucht jedoch (noch) nur die bereits bekannten Seiten. Aber ich habe die Rewrite-MOD ja auch gerade erst eingebaut...

Ich spekulier mal: Vielleicht sind deine "neuen" Seiten Googel auch irgendwie "suspekt", da sie identisch mit bereits indizierten sind?! Soweit ich weiß versucht Google Spiegel-Server auszublenden. Eine wirkliche Idee woran die zögerliche Indizierung liegt habe ich aber auch nicht. :roll:

Schönen Gruß
Thomas

Verfasst: 19.05.2004 23:08
von m0bby
Hallo,

schon seit ein paar Tagen sucht mich der MSN-Bot (msnbot/0.11) heim. ;)
Seitdem ich die Rewrite-MOD installiert habe, hat er sich richtig festgebissen und grast nun das ganze Forum ab. Im Suchergebnis bei MSN findet sich aber bei der Suche nach meinem Sitenamen kein einziger Treffer von meiner Site.

Habt ihr schon mal Bekantschaft mit dem MSN-Bot gemacht?


Schönen Gruß
mObbY

Verfasst: 20.05.2004 09:43
von larsneo
afaik benutzt msn derzeit noch inktomi als backend. der 'neue' spider ist derzeit wohl experimentell und bereitet vielleicht den umstieg auf eine eigene suchmaschine vor.

Verfasst: 20.05.2004 16:37
von Wuppi
Hi

erstmal nen Bug: Auf der Seite 33 wurde es von Ballong und mir schon gemeldet: Wenn ich einen Beitrag lese, wird noch ein andere Beitrag als gelesen markiert - der aber nicht gelesen wurde. Es blieb die Frage auf ob das wirklich mit ShortURLs zusammenhängt und ob das auch HIER im Forum passiert (da ShortURLs hier ja auch läuft). Soeben hab ich es endlich festgestellt: Es passiert auch hier! Es hat also definitiv mit Short URLS zu tun (bei Ballong ist das Problem erst seit den ShortURLs) - oder da ist sogar nen bug in phpbb2 2.0.6-8 drinne! Hab derzeit kein Short-Freies Board mit vielen Beiträgen zum testen ;)

Ich habs z.b. gerade in "Administration und Benutzung" probiert ... die ganze Seite ist ungelesen. Hab einen Beitrag angeklickt und dann wieder auf "Administration und Benutzung" geklickt. Nach dem 3. Versuch hatte ich plötzlich 4 Beiträge (statt 3!) als gelesen markiert. Es kommt also nicht permanent - daher fällt es auch nicht so schnell auf (bei mir im Forum rennen sie mir deshalb allerdings mein eMail-Postfach ein!).

---

Zu google und der visit-time: Naja ich hab meinen 2. Wohnsitz hier im Internet ;) Schaue also ins Forum - ups mehr User als normal - Admin - ah google - 20min später, nochmal rein - oh immer noch google - diesmal mit dem ganzen Clan usw.

phpee.com nutz ich auch ;) Google wird als User dort rausgefiltert - schlüpft aber wohl manchmal doch durch ;) (nen weniger inteligenten Counter [schnell gebastelt; wollte wissen wie oft viewtopic.php aufgerufen wird] hat google in ner knappen halben stunde auf über 7000 hochgedrückt ;) (hab den counter zu dem Zeitpunkt reingesetzt, also google gerade da war ;) )

Heute nochmal nen Site:Check gemacht - ENDLICH der Eintrag wächst - bin jetzt auf über 3500 ...

@m0bby: deine spekulation teilen ich ;) ... die alte Domain hat z.b. heute 1000+ Einträge verloren, hab dafür über 1000 für die neue dazugewonnen. Somit denkt google höchstwahrscheinlich das eine der beiden domains nen mirror ist und indiziert nur neue sachen - somit wären die wirklichen indizierten Seiten = alte + neue Domain ;)

MSN war bisher noch nicht da - nur dieses dämliche inktomi-Teil .... (kurios: paar Stunden nach inktomi kommt google - schon oft beobachtet) Nur bei Inktomi bekommt man für nömmes nur ein Eintrag in die Suchmaschine, das teil hält sich aber sehr lange auf => Spidert sich also durch das Forum und kostet meinen Traffic OHNE jeglichen Mehrwert! *verärgertsei* ... abhilfen?

Bis denne
Wuppi

Verfasst: 20.05.2004 17:03
von larsneo
Spidert sich also durch das Forum und kostet meinen Traffic OHNE jeglichen Mehrwert! *verärgertsei* ... abhilfen?
einfach den USER_AGENT als unerwünschten bot aussperren - siehe unerwünschte Bots bzw. E-Mail-Spider aushebeln

Verfasst: 20.05.2004 19:37
von Wuppi
Hi

thx ;) Das Probiere ich mal aus - seit 1 Monat werden wir auch ständig von irgendeinen T-Online-User gesucht der das Forum runterlädt oder sonst was macht - IP sperren => Er holt sich ne neue, IP wieder sperren, wieder ne neue usw. Die Abuse-Mail ging diesmal leider an den falschen bei t-online - normalerweise hab ich mit so mails immer erfolg :( Diesmal wollten se ALLES wissen - logs haben usw. usw. usw. usw. :( ... vielleicht hilft das aber ;)

Wie ist den der User-Agent für inktomi?

Bis denne
Wuppi

Re: kurze Frage

Verfasst: 20.05.2004 19:47
von Wuppi
m0bby hat geschrieben: Ein Frage: Warum wird den Suchmaschinen das Blättern in Beiträgen durch diese 'robots.txt' Zeile

Code: Alles auswählen

Disallow: /phpBB2/ftopic*asc*.html$
verboten?
Würde so nicht immer nur die erste Seite durchsucht?

Schönen Gruß
mObbY
Die Frage möcht ich mal wieder aufwärmen ;) $ steht ja auch bei ptopic und ntopic am ende ... ptopic und ntopic auszuschließen versteh ich ja - aber die ASC-Seiten doch nicht?! Oder haben wir hier was falsch verstanden?

Verfasst: 20.05.2004 20:01
von m0bby
Hallo Wuppi,

der Inktomi-Robot heißt 'slurp'.

Neue Kennung:
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)".

Alte Kennung:

"Mozilla/5.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
"Mozilla/3.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"


schönen Gruß
mObbY