Hallo, ich habe hier eine Beispiel-Seite wbg-augsburg.de/ - wo WebObjects eingesetzt wird, wenn man sich hier
zu WBG -> Wohnungsangebot -> Freie Wohnungen -> Ergebnisse anzeigen klickt sieht man wie die URLs der einzelnen Einträge
aussehen. Im allgemeinen haben WebObjects Seiten keine Statische URL, bzw. sind nur Dialoggesteuert erreichbar / die URLs sind
nur dann gültig wenn man die Seitennummer geöffnet hat. Weährend der Crawler schon auf der nächsten Seiten Links sammelt,
sind die letzten ungültig.
Hier wird das Problem beschrieben - stud.fernuni-hagen.de/q3397645/s1906/www.htm#12.1. Altavista z.B. bilted
aus einzelnen Transaktionsschritten eine Statische URL. Leider weiß ich nicht wie so ein Aufbau möglich wäre, was auch zu sehr langen
URLs fürhren würde.
Welcher opensource Crawler wäre in der Lage mir solche Dokumente zu crawlen?
zu WBG -> Wohnungsangebot -> Freie Wohnungen -> Ergebnisse anzeigen klickt sieht man wie die URLs der einzelnen Einträge
aussehen. Im allgemeinen haben WebObjects Seiten keine Statische URL, bzw. sind nur Dialoggesteuert erreichbar / die URLs sind
nur dann gültig wenn man die Seitennummer geöffnet hat. Weährend der Crawler schon auf der nächsten Seiten Links sammelt,
sind die letzten ungültig.
Hier wird das Problem beschrieben - stud.fernuni-hagen.de/q3397645/s1906/www.htm#12.1. Altavista z.B. bilted
aus einzelnen Transaktionsschritten eine Statische URL. Leider weiß ich nicht wie so ein Aufbau möglich wäre, was auch zu sehr langen
URLs fürhren würde.
Welcher opensource Crawler wäre in der Lage mir solche Dokumente zu crawlen?