Donnerstag, 24. Februar 2011

Office-Dokumente per C#: Teil 1 - Worddokumente auslesen

Microsofts Office-Dokumente (Excel, Word, Powerpoint) sind alle nach einem Standardformat Namens OpenXML aufgebaut.Der komplette Inhalt eines Dokumentes ist in einer XML-Datei hinterlegt.
Weitere Informationen zum OpenXML-Format finden Sie hier: http://msdn.microsoft.com/de-de/office/bb738430.aspx
In meiner Reihe soll es um den praktischen Einsatz des OpenXML-SDK in der Version 2 gehen, welches ihr hier beziehen könnt:

OpenXML SDK v2


Im ersten Teil heute geht es um das Auslesen einer Worddatei, und den Zugriff auf spezielle Elemente, zB eine integrierte Tabelle.
(Das Beispieldokument für die folgenden Codebeispiele)













Um mit die API zu verwenden müsst ihr euch das SDK vom oberen Link herunterladen, und einen Verweis auf die enthaltene Assembly setzen.






















Um danach die benötigten Klassen verwenden zu können müssen die folgenden Namespaces eingebunden werden:








Im folgenden Beispiel werden alle Textelemente des Dokumentes ausgelesen, welche nicht in einer Tabelle vorkommen.
Danach werden noch Tabellen gesucht, und der Inhalt dieser ausgegeben.


























Ich hoffe ihr habt einen kleinen Einblick bekommen.
In den nächsten Teilen werden folgende Themen behandelt:

- schreiben in Worddokumente
- erzeugen von Worddokumenten
- konvertieren von Worddokumenten in ihre HTML - Repräsentation
- Vorstellung hilfreicher Tools zur Arbeit mit OpenXML

Weitere Ressource

Keine Kommentare:

Kommentar veröffentlichen