WebObjects crawlen?

lux · 8. Januar 2008, 15:37

Hallo, ich habe hier eine Beispiel-Seite wbg-augsburg.de/ - wo WebObjects eingesetzt wird, wenn man sich hier
zu WBG -> Wohnungsangebot -> Freie Wohnungen -> Ergebnisse anzeigen klickt sieht man wie die URLs der einzelnen Einträge
aussehen. Im allgemeinen haben WebObjects Seiten keine Statische URL, bzw. sind nur Dialoggesteuert erreichbar / die URLs sind
nur dann gültig wenn man die Seitennummer geöffnet hat. Weährend der Crawler schon auf der nächsten Seiten Links sammelt,
sind die letzten ungültig.

Hier wird das Problem beschrieben - stud.fernuni-hagen.de/q3397645/s1906/www.htm#12.1. Altavista z.B. bilted
aus einzelnen Transaktionsschritten eine Statische URL. Leider weiß ich nicht wie so ein Aufbau möglich wäre, was auch zu sehr langen
URLs fürhren würde.

Welcher opensource Crawler wäre in der Lage mir solche Dokumente zu crawlen?

Torben Brodt · 8. Januar 2008, 15:54

Hi,
Ich kann gleichzeitig verschiedene Suchergebnisse anzeigen lassen, die URLs in unterschiedlichen Browsern öffnen, ... .
Ich denke mal die Session Informationen werden erst nach Zeitspanne x gelöscht. Genug Zeit zum Crawlen der gesamten Website...

Willst du nur an die Inhalte kommen, solltest du kein Problem haben. Aber wenn du die URLs in deinen Suchergebnissen darstellen willst, hast du bei einem sessionbasiertem System schlichtweg keine Chance. Dann solltest du besser auf die Startseite verlinken.

Vielleicht bietet WebObjects noch andere Schnittstellen, ich kenn mich damit nicht aus. Aber über den Link den du geschickt hast, hast du keine Chance eine Sessionfreie URL zu generieren.

Übrigens:
AltaVista listet gar keine Ergebnisse: de.altavista.com/web/results?i…ite%3Awww.wbg-augsburg.de
und google eben nur die URLs mit Fehlerhafter Session: google.de/search?hl=de&q=site%3Awww.wbg-augsburg.de

lux · 8. Januar 2008, 19:35

Hi, freue mich über die schnelle Antwort - Danke!

Hätte nicht gedacht dass Google noch in den Kinderschuhen steckt

Ich denke eher dass Formulare den Crawlern Probleme machen, ich habe auch mit HTTRack versucht,
hat aber nicht wirklich geholfen. Ich versuche es gerade mit einer Browser-Componente die ich mit
Java steuern will, ich denke auf dem Weg wird es am besten funktionieren, ich hoffte dass jemand
da schon etwas Erfahrung gesammelt hat.

Du meinst, ich komme an die Daten ran, mit welchen Crawler ginge es denn?

WebObjects crawlen?

WebObjects crawlen?

Teilen

Benutzer online 1

Tags