per RegExp Tabelle auslesen

Diese Seite verwendet Cookies. Durch die Nutzung unserer Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen. Weitere Informationen

  • per RegExp Tabelle auslesen

    Hallo zusammen,

    ich möchte gerne den Teilinhalt einer Tabelle (von einer fremden Seite) auf meine Eigene integrieren.
    Dazu würde ich mich durch dieses RegExp Tutorial kämpfen.

    Bevor ich das allerdings tue, werf' ich einfach mal die Frage in den Raum, ob es ne elegantere Möglichkeit gibt, und ob vielleicht schonmal jemand sowas gemacht hat, damit ich das Rad nicht neu erfinden muss :)


    Vielen Dank!
  • RegExp Cheat Sheet, kleine Übersicht zum Ausdrucken. Je nach Sprache solltest Du Dich über die Implementierung informieren, gibt also ggf. einige Eigenarten. Es gibt auch Tools zum Ausprobieren von RegExps. RegexBuddy ist recht bekannt, gut und "teuer", aber das Geld wert. Kostenlose Gleichgesindel gibt es auch. Langfristig eigentlich ganz nützlich.

    ich möchte gerne den Teilinhalt einer Tabelle (von einer fremden Seite) auf meine Eigene integrieren.

    Soso, interessiert mich mal nicht wieso und weshalb und sowas...

    Erstens solltest Du Dir den Quellcode der Seite anschauen und die Informationen, für die Du Dich interessierst im Quellcode finden. Gibt es eine RSS Version der Seite?? Wenn ja: sind die Informationen von Interesse auch dort vorhanden?? Wenn ja: Vergleichen ob Quellcode in Sachen HTML größer oder kleiner ist als in der RSS Version. --> Die kleinere wird geruntergeladen. Die Funktion dazu suchst Du Dir in Deiner Sprache bei PHP kenn ich diese grade nicht, bei Python.. urllib.urlopen().. ??

    Dann probierst Du die Informationen per RegExp aus dem jeweiligen Quellcode zu filtern. Bei Python wäre es mit re.findall() am einfachsten: gibt nämlich eine Liste mit allen Treffern zurück. Beim Probieren könnte der RegexBuddy behilflich sein. Wenn Du die Infos hier postest, könnte jemand hier im Forum ja helfen. Ich würde auf jeden Fall auf das RegExp Cheat Sheet zurückgreifen und klein anfangen. Beispiele sollten dort drauf sein. Weitere Beispiele gibt es immer auf PHP.net für PHP, auf python.org, usw halt :D .


    Denke das Ganze sollte einleuchtend sein.
    Mfg
    Wenn ich jemanden nicht mag, dann verpasse ich ihm nicht einen Schlag, sondern viele viele kleine Schlägchen
  • Mir ist noch etwas Banales eingefallen: Sollte diese "fremde Seite" eine API bereitstellen, Beispiel: Amazon,..., solltest Du von dieser Gebrauch machen. Dafür gibt es meistens dann auch bereits ein Stück Code von jemand anderem.

    Nachträglich möchte ich Dich aber noch auf eine Gefahr aufmerksam machen: Sollte Deine Seite monatlich ein paar Besucher mehr verzeichnen, kann es sein, dass die IP Deines Servers bei diesem "fremden Server" gesperrt wird- wird Deine Seite zusätzlich dazu mal "überprüft" und werden die Inhalte der "fremden Seite" auf Deiner gefunden und sind diese auch noch auf irgendeine Weise geschützt..., kann das böse enden.
    Mfg
    Wenn ich jemanden nicht mag, dann verpasse ich ihm nicht einen Schlag, sondern viele viele kleine Schlägchen
  • Du kannst die Datei auch in einen String lesen und dann mit strstr() ein erstes markantes vorkommen suchen, was es nur an dieser Stelle gibt.
    Dann suchst du dir noch ein Endteil raus und zerschnippelst das ganze mit substr().

    Aber wie Hackerbreit geschrieben hat, musst du vorsichtig sein.

    Ich hatte damals von Google versucht die Wetterdaten auszulesen, was auch ganz gut geklappt hat, bis auf die Tatsache, dass der Code geändert wurde und somit nichts mehr ging ... Das musst du auch beachten.
  • Hallo,

    vielen Dank für eure Tipps.
    mit Regexp habe ich schonmal unter Ruby gearbeitet, da habe ich die Variante von Vince benutzt, ist eigentlich ganz simple.
    Die Seite sieht nicht unbedingt API-mäßig aus : klick. Im Prinzip will ich nur die oberen Tabelle (Platz - Verein - Punkte) "ausschneiden" und auf unserer Vereinshomepage integrieren. Kann aber sicherheitshalber mal den Admin anschreiben.

    Vielen Dank!
  • Quellcode

    1. <!-- ShowDB starts here ********************************************************* -->
    2. <!-- whoever wants this part might include it using PHP with the following syntax -->
    3. <!-- include("http://www.rugbyweb.de/showdb.inc.php?param1=value1&param2=value2") -->
    4. <!-- apply the same params and values used for the index.php file on rugbyweb.de -->
    5. <!-- additional parameter &layout=value3 may be added. currently the layout -->
    6. <!-- values "rw", "rw2", "rj" and "scrum" are supported -->
    7. <!-- example: http://www.rugbyweb.de/showdb.inc.php?layout=rj&league=BL1 -->
    8. <!-- this shows the 1 Division League (BL1) using the rugby journal layout (rj) -->
    9. <!-- pls note, that css classes and styles are, even where used now, still a big -->
    10. <!-- hack and have to be revised completely -->
    11. <!-- nevertheless the layout "rw2" is based on CSS and can be used for a modified -->
    12. <!-- presentation style. use http://www.rugbyweb.de/css/styles.css as an example -->
    13. <!-- Generated Code Is Valid HTML 4.01 Transitional -->
    Alles anzeigen

    :D ! Oh man.rugbyweb.de/showdb.inc.php?league=BL1&layout=rw2 dürfte wohl die kleinste HTML sein.
    Mfg
    Wenn ich jemanden nicht mag, dann verpasse ich ihm nicht einen Schlag, sondern viele viele kleine Schlägchen