WebObjects crawlen?

  • WebObjects crawlen?

    Hallo, ich habe hier eine Beispiel-Seite wbg-augsburg.de/ - wo WebObjects eingesetzt wird, wenn man sich hier
    zu WBG -> Wohnungsangebot -> Freie Wohnungen -> Ergebnisse anzeigen klickt sieht man wie die URLs der einzelnen Einträge
    aussehen. Im allgemeinen haben WebObjects Seiten keine Statische URL, bzw. sind nur Dialoggesteuert erreichbar / die URLs sind
    nur dann gültig wenn man die Seitennummer geöffnet hat. Weährend der Crawler schon auf der nächsten Seiten Links sammelt,
    sind die letzten ungültig.

    Hier wird das Problem beschrieben - stud.fernuni-hagen.de/q3397645/s1906/www.htm#12.1. Altavista z.B. bilted
    aus einzelnen Transaktionsschritten eine Statische URL. Leider weiß ich nicht wie so ein Aufbau möglich wäre, was auch zu sehr langen
    URLs fürhren würde.

    Welcher opensource Crawler wäre in der Lage mir solche Dokumente zu crawlen?
  • Hi,
    Ich kann gleichzeitig verschiedene Suchergebnisse anzeigen lassen, die URLs in unterschiedlichen Browsern öffnen, ... .
    Ich denke mal die Session Informationen werden erst nach Zeitspanne x gelöscht. Genug Zeit zum Crawlen der gesamten Website...

    Willst du nur an die Inhalte kommen, solltest du kein Problem haben. Aber wenn du die URLs in deinen Suchergebnissen darstellen willst, hast du bei einem sessionbasiertem System schlichtweg keine Chance. Dann solltest du besser auf die Startseite verlinken.

    Vielleicht bietet WebObjects noch andere Schnittstellen, ich kenn mich damit nicht aus. Aber über den Link den du geschickt hast, hast du keine Chance eine Sessionfreie URL zu generieren.

    Übrigens:
    AltaVista listet gar keine Ergebnisse: de.altavista.com/web/results?i…ite%3Awww.wbg-augsburg.de
    und google eben nur die URLs mit Fehlerhafter Session: google.de/search?hl=de&q=site%3Awww.wbg-augsburg.de
  • Hi, freue mich über die schnelle Antwort - Danke!

    Hätte nicht gedacht dass Google noch in den Kinderschuhen steckt :)

    Ich denke eher dass Formulare den Crawlern Probleme machen, ich habe auch mit HTTRack versucht,
    hat aber nicht wirklich geholfen. Ich versuche es gerade mit einer Browser-Componente die ich mit
    Java steuern will, ich denke auf dem Weg wird es am besten funktionieren, ich hoffte dass jemand
    da schon etwas Erfahrung gesammelt hat.

    Du meinst, ich komme an die Daten ran, mit welchen Crawler ginge es denn?

    Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von lux ()