Innovatives Web-Grabbing Modul
Mit Hilfe des relativ neuen Scrubyt-Moduls für Ruby kann man jede Webseite mit ein paar Zeilen Code in eine externe Datenbank verwandeln. Scrubyt fungiert dabei als ein Web-Grabber, mit dessen Hilfe sich Datenstrukturen (z.B. Listen, Tabellen, etc.) aus Webseiten relativ einfach extrahieren lassen.
Solche Module und Klassen gibt es zwar schon einige, allerdings setzt Scrubyt auf ein ganz neues Konzept, das mir zumindest neu war. Und zwar muss man nicht explizit vorgeben wie die Datenstruktur aussieht und wie diese ausgelesen werden sollen, sondern man gibt Scrubyt einfach einen Satz Beispieldaten vor und es bildet sich dann daraus eine eigene Formel. Unter Anwendung dieser automatisch generierten Formel können dann die Daten z.B. als XML exportiert werden oder anderweitig weiterverwendet werden.
Durch diese ausgeklügelte Methode reichen schon ca. 10 Zeilen Ruby-Code aus um z.B. eine Liste von Produkttiteln und Preisen von E-Bay oder Amazon auszulesen.
Anwendungsbeispiele
Und wofür lässt sich diese Technik in der Praxis dann nutzen? Es gibt dafür einige Anwendungsbeispiele wie z.B. das Überwachen von Auktionen, Aktienkursen oder sonstigen Daten.
Aber Vorsicht…
Bei solchen “Grabbing”-Klassen und Modulen sollte man allerdings immer bedenken das es sich beim Ergebnis um fremde Daten handelt und diese auch ggf. rechtlich geschützt sind. Daher sollte man sich bei kommerziellen, Traffic-lastigen und anderen größeren Projekten erstmal mit dem Seitenbetreiber in Verbindung setzen um die rechtliche Seite abzuklären.
Ein kurzes Beispiel:
Und das Ergebnis davon als XML: (Quelle des Code-Snippets: scrubyt.org)
Mein Fazit:
Scrubyt ist eine sehr interessante und durchdachte Klasse, nur schade das diese (im Moment) nur für Ruby erhältlich ist
Weiterführende Links:
- Offizielle Webseite von Scrubyt
- Data Extraction for Web 2.0 - Tutorial
Solche Module und Klassen gibt es zwar schon einige, allerdings setzt Scrubyt auf ein ganz neues Konzept, das mir zumindest neu war. Und zwar muss man nicht explizit vorgeben wie die Datenstruktur aussieht und wie diese ausgelesen werden sollen, sondern man gibt Scrubyt einfach einen Satz Beispieldaten vor und es bildet sich dann daraus eine eigene Formel. Unter Anwendung dieser automatisch generierten Formel können dann die Daten z.B. als XML exportiert werden oder anderweitig weiterverwendet werden.
Durch diese ausgeklügelte Methode reichen schon ca. 10 Zeilen Ruby-Code aus um z.B. eine Liste von Produkttiteln und Preisen von E-Bay oder Amazon auszulesen.
Anwendungsbeispiele
Und wofür lässt sich diese Technik in der Praxis dann nutzen? Es gibt dafür einige Anwendungsbeispiele wie z.B. das Überwachen von Auktionen, Aktienkursen oder sonstigen Daten.
Aber Vorsicht…
Bei solchen “Grabbing”-Klassen und Modulen sollte man allerdings immer bedenken das es sich beim Ergebnis um fremde Daten handelt und diese auch ggf. rechtlich geschützt sind. Daher sollte man sich bei kommerziellen, Traffic-lastigen und anderen größeren Projekten erstmal mit dem Seitenbetreiber in Verbindung setzen um die rechtliche Seite abzuklären.
Ein kurzes Beispiel:
Und das Ergebnis davon als XML: (Quelle des Code-Snippets: scrubyt.org)
Mein Fazit:
Scrubyt ist eine sehr interessante und durchdachte Klasse, nur schade das diese (im Moment) nur für Ruby erhältlich ist
Weiterführende Links:
- Offizielle Webseite von Scrubyt
- Data Extraction for Web 2.0 - Tutorial





