dotNet Gedanken: HTML Dokumente auslesen mit dem HTML-AgilityPack

Oft ist es notwendig HTML-Dokumente jeder Art per Quellcode zu durchsuchen.
Dabei bekommt man schon von Haus aus eine Menge Werkzeuge mit auf den Weg (LinqToXML, XDocument etc..), welche allerdings nicht alle besonders Intuitiv zu benutzen, oder Tolerant im Umgang mit Reallife-Malformed Dokumenten sind (anscheinend kann man das einfach nicht verhindern)
Eine gelungene und einfache Alternative stellt hier das Html-AgilityPack von Codeplex dar. (Agilitypack bei Codeplex)
Dieses bietet mit XPath-Ausrücken die Möglichkeit, HTML-Dokumente zu durchsuchen, auch wenn diese nicht unbedingt dem Standard entsprechen...sowas soll es ja geben.
Weiterhin kann man per LinqToObjects die Dokumente mit gewohnter Linq-Syntax durchlaufen, was ich immer als sehr angenehm empfinde.
Das folgende Beispiel zeigt die allgemeine Verwendung dieser API. Eingebunden muss immer der HtmlAgilityPack-Namespace werden.

Im folgendem Beispiel wird eine HTML-Datei eingelesen, und die Parseerrors durchlaufen.

Da ich aktuell in einem Projekt Tabellenzellen auslesen musste, zeigt das zweite Beispiel, wie das geht.

Ich finde gerade die Tatsache, auch malformed Seiten parsen zu können als sehr hilfreich...vielleicht hilft es euch ja auch :)

dotNet Gedanken

Dienstag, 22. Februar 2011

HTML Dokumente auslesen mit dem HTML-AgilityPack

Keine Kommentare:

Kommentar veröffentlichen

Meine Blog-Liste

Blog-Archiv