<< Themensammlung Netzwertig

Unter netzwertig veröffentlichen wir in unserem Blog Einschätzungen zu aktuellen digitalen Geschäftsmodellen und IT-Trends, Meldungen, Analysen, Reviews und Specials.

30.05.07Leser-Kommentare

Semantisches Web Teil 2: Die technische Umsetzung

In meinem erstem Artikel der Semantic Web-Serie habe ich die Grundidee hinter dem semantischen Web beschrieben. Im zweiten Artikel der Serie möchte ich mich nun dem aktuellen Stand der technischen Umsetzung widmen.

Bevor ich das mache möchte ich allerdings betonen, dass ich kein ausgewiesener Experte in diesem Fachgebiet bin, sondern nur ein an der Thematik interessierter Anwender. Ebenso lässt sich in dem begrenzten Rahmen hier nicht jede Facette bis ins letzte Detail beschreiben, vielmehr möchte ich einen kompakten Überblick über das Thema geben.

Bei der Umsetzung lassen sich im Moment, grob zusammengefasst, vier verschiedene Ansätze erkennen:

     

  1. (X)HTML-Erweiterungen
  2. RDF-basierend
  3. Topic Maps
  4. Eigenständige Applikationen ("Silos")

1. (X)HTML-Erweiterungen («lower case« semantic web)

Zuerst möchte ich jedoch auf die XHTML-Erweiterungen eingehen. Diese Form des Semantischen Webs wird häufig auch «lowercase semantic web« genannt. Bei diesen Anwendungen werden bestehende XHTML-Seiten so verändert, dass in den HTML-Tags semantische Beziehungen beschrieben werden. Vor allem in der Blogosphäre hat diese Methode schon eine weite Verbreitung gefunden.

Da es eine Vielzahl von unterschiedlichen Ansätzen gibt, werde ich als Beispiel Microformats herauspicken, um das Konzept dahinter zu verdeutlichen. Im nächsten Artikel der Serie werde ich dann einige weitere semantic web Anwendungen vorstellen.

Microformats

Microformats ist die derzeit wohl verbreitetste Anwendung des lower case semantic web. Für die semantische Auszeichnung verwendet man die bereits existierenden HTML-Attribute class, rel und rev, um Standardkonformität gewährleisten zu können.

Beispiel eines Microformats

<div class="vevent">

<a class="url" href="http://www.karneval-berlin.de/">

<span class="summary">Karneval der Kulturen</span>

</a>

 

<abbr class="dtstart" title="20070525">25. Mai 2007</abbr>

<abbr class="dtend" title="20070529">28. Mai 2007</abbr>

<span class="location">Berlin</span>

</div>

So wie es in der Spezifikation vorgesehen ist, wurde hier ein div-Bereich mit dem Klassen-Namen "vevent" versehen, in dem einzelne Elemente wie "dtstart" oder "dtend" eingebettet sind. Die HTML-Ausgabe bleibt unverändert, kann jetzt aber von Microformats-fähigen Crawlern erfasst werden.

Microformats bei last.fm

last.fm verwendet Microformats unter anderem für die Events. Mit einem Browser-Plugin (wie etwa Tails Export für Firefox) kann man diese dann direkt exportieren.

So kann ein beliebiger Termin, der in einer XHTML-Seite enthalten ist mit dem oben dargestellten Microformat «hCalendar« versehen werden. Damit hat man zum Beispiel mit Browser-Plugins die Möglichkeit, diese Daten direkt in einen Kalender zu übernehmen. Neben diesem hCalendar-Microformat gibt es noch einige weitere wie hCard für Kontaktinformationen oder hAtom um RSS-Feeds in XHTML zu einzubetten. Anlaufstelle für alle Spezifikationen rund um Microformats ist microformats.org. Firefox 3 als auch Internet Explorer 8 werden aller Voraussicht nach integrierte Unterstützung für Microformats anbieten.

Der Vorteil dieser semantic web-Anwendungen liegt auf der Hand: Sie sind extrem einfach und schnell zu implementieren und bieten unmittelbare praktische Anwendungsmöglichkeiten. Allerdings wird damit nur ein äußerst geringer Teil der Anwendungsmöglichkeiten des semantischen Webs ausgeschöpft.

2. RDF-basierend («upper case« Semantic Web)

Um dies zu erreichen, gibt es im Gegensatz dazu auch noch das «akademische« und theoretische Semantische Web. Federführend bei der Ausarbeitung der Spezifikation ist dabei das W3C-Konsortium.

Das wichtigste Datenformat ist dabei RDF: Das Resource Description Framework stellt die notwenige Syntax zur Verfügung, um sogenannte Tripel beschreiben zu können. Das sind die im ersten Teil der Serie beschriebenen Subjekt - Prädikat - Objekt Aussagen. Jeder dieser Ressourcen wird zudem mit einem eindeutigen Typ-Kennzeichner (dem URI, Uniform Resource Identifier) versehen, mit welchem es möglich ist, Daten verschiedener Quellen zu verknüpfen.

Wenn es jedoch darum geht, komplexe Zusammenhänge abzubilden, stößt RDF schnell an seine Grenzen. Für diesen Zweck sind zusätzlich noch sogenannte Ontologien notwendig. Unter Ontologie versteht man ein formales System, welches Wissen etwa mit Hilfe von festgelegten Begriffen, Relationen, Hierarchien und Attributen repräsentiert. Durch diese logische Defintion des Verhältnisses von Daten zueinander kann Wissen etwa durch gezielte Kombination oder Schlussfolgerung dargestellt werden. Einen guten Einstieg bietet der Wikipedia-Artikel Ontologie (Informatik)

Der aktuell letzte Stand der Bemühungen des W3C-Konsortiums in Punkto Ontologien ist die Web Ontology Language, welche mit OWL abgekürzt wird. OWL stellt den derzeit am weitesten fortgeschrittener Ansatz dar, um komplexe Ontologien abbilden zu können und baut formal auf RDF auf. OWL ist allerdings sehr theorielastig und für den Einsteiger nicht unbedingt leicht verständlich. Die aktuelle Spezifikation durch das W3C besitzt den Status einer Empfehlung.

Da OWL-Anwendungen extrem komplex sein können, wurden von dieser drei Versionen ausgearbeitet: OWL Lite, OWL DL und OWL Full. Während die Lite Version einen vergleichsweise einfachen und leicht implementierbaren kleinsten gemeinsamen Nenner an Funktionen bietet, stellt OWL Full den vollständigen Satz an Möglichkeiten zur Verfügung. Vollständige Informationen dazu finden sich unter www.w3.org/TR/owl-semantics/

Die Verschmelzung beider Ansätze: GRDDL und RDFa

Beide vorgestellten Konzepte haben ihre Daseinsberechtigung. Die "lower Case" Anwendungsbeispiele sind leicht zu implementieren, decken aber nur einen winzigen Teil der Möglichkeiten ab, welche die große Vision des "Semantischen Webs" bietet. Der große Bruder des W3C-Konsortiums wiederum wartet mit einer schier unüberschaubaren Flut an kryptischen Akronymen und telefonbuchdicker technischer Beschreibungen auf, welche das Thema nur äußerst schwer verständlich machen. Einen möglichen goldenen Mittelweg für Web-Entwickler könnten GRDDL und RDFa darstellen.

GRDDL

Und schon wieder ein kryptisches Akronym: GRDDL steht für Gleaning Resource Descriptions from Dialects of Languages. Es ermöglicht, mit Hilfe einer Transformations-Tabelle aus gewöhnlichem XHTML automatisiert RDF-Daten zu extrahieren. Einige sehr schöne grafisch aufbereitete Use-Cases gibt es unter www.w3.org/TR/grddl-scenarios/ zu sehen. Langfristig könnte GRDDL meiner Meinung nach Microformats ablösen.

RDFa

RDFa ist eine Reihe an zusätzlichen Attributen für XHTML, sodass gewöhnliche HTML-Tags zusätzlich semantische Informationen enthalten können. Auf diese Art und Weise können so automatisiert RDF-Dokumente erstellt werden. Auch dazu gibt es vom W3C detailliert aufbereitete Informationen.

Daten abfragen: SPARQL

Natürlich wäre das das Speichern von Daten in maschinenlesbaren Formaten relativ nutzlos, wenn man keine Möglichkeit hätte, diese auch gezielt abfragen zu können. Genau zu diesem Zweck wurde SPARQL geschaffen. Mit dieser Abfragesprache können Daten von RDF-Quellen abgefragt werden. Vom Aufbau her ist SPARQL stark an SQL angelehnt.

Beispiel-Query

PREFIX abc:

SELECT ?capital ?country

WHERE {

?x abc:cityname ?capital.

?y abc:countryname ?country.

?x abc:isCapitalOf ?y.

?y abc:isInContinent abc:africa.

}

Quelle: Wikipedia.

Die gesamte Spezifikation gibt es hier: www.w3.org/TR/rdf-sparql-query/.

3. Topic Maps basierend

Neben dem vom W3C ausgearbeiteten Spezifikationen gibt es mit dem auf Topic Maps basierenden XTM (XML Topic Maps) noch ein weiteres Datenformat, welches es ermöglicht, Ontologien im Web abzubilden. Das unabhängige Konsortium von TopicMaps.org kümmert sich um die Weiterentwicklung dieser Topic Maps.

Die seit 1999 standardisierten Topic Maps lassen sich jedoch nicht direkt mit OWL verknüpfen. Es gibt jedoch durchaus Ansätze, um dies doch zu bewerkstelligen. Ein sehr gutes Dokument, welches die Unterschiede zwischen RDF und Topic Maps herausarbeitet findet sich hier.

Generell scheint es aber so, dass die Weiterentwicklung von XTM hat in letzter Zeit im Gegesatz zu RDF aber deutlich an Geschwindigkeit abgenommen hat, weshalb ich hier nicht näher darauf eingehe.

4. Eigenständige Anwendungen wie Freebase

Alle drei Vorangegangenen Anwendungen ist gemein, dass sie das Web in seiner Gesamtheit als kollektiven Datenspeicher für Wissen verwenden. Die in meinen Artikeln schon öfters angesprochene Freebase-Datenbank speichert im Gegensatz dazu alle Daten zentral an einem Ort zusammengefast. Was erstmal sehr widersprüchlich zur Idee des semantischen Webs klingt, bietet aber letztendlich einige handfeste Vorteile: Das gesamte Wissen ist immer direkt abrufbar und man kann auch gezielter gegen Spam vorgehen. Möglicherweise wäre es sogar denkbar, dass Freebase die semantischen Informationen im Web als Datenquelle anzapft und so einen "Cache" bildet.

Fazit

Wie Eingangs angedeutet erhebt dieser Artikel erhebt keinerlei Anspruch auf Vollständigkeit und Richtigkeit, sondern soll nur einen groben Orientierungs- und Einstiegspunkt über die verschiedenen Techniken geben. Was nämlich erst mal leicht durchschaubar bei Microformats beginnt, endet bei für den Laien schwer nachzuvollziehenden theoretischen Diskussionen über Ontologien und Inferenzen. Hier liegt es an an den Pionieren dieser Techniken (das sind meines Erachtens nach vor allem Großkonzerne und Behörden), jene Werkzeuge und Anwendungen zu entwickeln, die das volle Potential des Semantischen Webs für alle Nutzer greifbar machen.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Kommentare

  • Rafa

    01.06.07 (08:15:59)

    Ich denke, dass sich OWL zu einem Quasi-Standard entwickelt hat, was das Beschreiben von Ontologien angeht. Es ist zwar theoretisch, das aber nur, weil es vielfältig ist.

  • Rafa

    01.06.07 (08:16:40)

    Kann man die Diskussion eigentlich verfolgen? Per E-Mail oder so...

  • Martin Weigert

    01.06.07 (10:31:21)

    Hi Rafa. Es gibt einen Dienst zum Verfolgen von Blog-Kommentaren. Keine Ahnung, ob der etwas taugt, aber probier es selbst: http://co.mments.com

  • Manuel

    01.06.08 (21:05:17)

    Der Link im ersten Satz verlinkt auf diesen (zweiten) Artikel, nicht auf den ersten.

Diesen Beitrag kommentieren:

Die Kommentare können nur zwischen 9 und 16 Uhr
freigeschaltet werden. Wir bitten um Verständnis.

Um Spam zu vermeiden, schreiben Sie bitte die Buchstaben aus diesem Bild in das nebenstehende Formularfeld:

Das könnte Sie auch interessieren

Förderland-Newsletter

Wissen für Gründer und Unternehmer