Quelltext von Internetseiten 'grabben'

Diese Seite verwendet Cookies. Durch die Nutzung unserer Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen. Weitere Informationen

  • Quelltext von Internetseiten 'grabben'

    Hey Leute

    Ich hab folgendes Problem, bzw weiß ich noch nicht wie ich damit anfangen soll:

    (1)
    Ich bräuchte eine Möglichkeit mithilfe von einem http-clienten eine Seite runterzuladen, also nur den Quelltext.
    Den muss ich dann speichern können und das ganze mit mehreren Links.
    Alle Quelltexte der verschiedenen Links müssen in eine Datei gespeichert werden.

    (2)
    Danach muss dieser ganze Haufen Quelltext analysiert werden, und eine weitere Linkliste wird aufgestellt und in eine 2. Datei gespeichert (Das ist nicht das Problem, wie das funktioniert weiß ich).

    (3)
    Diese Linksliste soll dann wieder heruntergeladen werden und es passiert wieder das gleiche wie bei Schritt 1.

    (4)
    Den 2. "Haufen" Quelltext wieder analysieren und filtern (Auch das kann ich selber machen).


    Also ist mein Problem "nur" Folgendes:
    Ich müsste nur wissen, wie ich den Quelltext runterlade und dann speichern kann.

    Programmier-, oder vllt. auch Scriptsprache, ist erstmal egal, es sollte nur sowas wie C++, VB o.Ä. sein.

    Wär cool, wenn ihr eine Möglichkeit wüsstest, vielleicht auch mit Beispielen.

    Falls ihr nicht wisst was ich mit Quelltext meine:
    Rechtsklick auf einer Seite und dann "Quelltext anzeigen". Genau den brauche ich.

    Ich hab's schon mit HTTrack probiert, ging auch einigermaßen, aber war viel zu umständlich und ich musste 4 Programme benutzen...

    mfg, Nas3
  • Quellcode

    1. wget -r -l0 http://google.de


    So lade ich auch FTP Backups herunter.

    Es gibt auch nen Parameter für "Lade Interne URLs runter".
    Damit würde er die Dateien durchgehen und die benötigten Dinge runter laden.


    Aber sonst hat SSL Recht.
    Es gibt bereits Programme für so etwas.

    Sonst würde PHP auch alles alleine schaffen.
    Vb.net, etc. aber auch.

    Kommt auf deine Künste drauf an.
  • In solchen Bereichen sind meine Künste nicht so gut ...

    Aber mir gehts halts drum, nach Möglichkeit EIN Programm zu machen, das die Arbeit macht und man am Ende ein gutes Ergebnis hat.
    Hab halt keine Lust 500 Programme zu nutzen, so wie bisher ;)

    Aber mit AutoIt bin ich schon recht weit, kann alles runterladen und in eine Datei speichern, jetz kommt das analysiern. Dürfte aber kein Ding sein, da ich das mit C++ schon gemacht habe.

    Danke für den Tipp SSL, damit dürfte es sehr gut klappen :)



    Also im Grunde ist mein Problem schon gelöst, falls ich fragen zu AutoIt hab, werd ich mich hier nochmal melden.

    //EDIT:

    Hab's komplett fertig, läuft wunderbar. Leider sind ca. 6000 Seitenaufrufe sehr zeitaufwändig :D
    Aber damit kann ich leben.

    Habs mit WinHTTP und den standard String-Befehlen gemacht

    Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von nas3 ()