DokBau

Langzeitsicherung von Projektwissen aus heterogenen Baudokumentenbeständen

Langzeitsicherung von Projektwissen durch semantische Textauswertung und Klassifzierung von Baudokumente zur Repräsentation von anfragespezifischer Wissenslandkarten. Gefördert durch die DFG.

Forschungsziele

Langzeitsicherung von Projektwissen

Die Langzeitsicherung von Projektwissen der Bauausführung und die dazu notwendige Dokumentation des Wissens ist ein noch ungelöstes Problem, denn das Wissen ist in einer Vielzahl fragmenthafter Informationen zerstreut, die wiederum in einer Vielzahl auch kleiner und kleinster Dokumente (Notizen, Bestellschein, Lieferschein, Rapportzettel, täglicher Bautagebucheintrag, etc.) und nur zu einem beschränkten Teil in geordneten größeren Einheiten wie Leistungsbeschreibung oder Bauablaufplan gespeichert sind. Es ist davon auszugehen, dass diese heterogene Information in naher Zukunft in elektronischer Form, aber nicht unbedingt in einer standardisierten, einheitlichen Dokumentenform, z. B. einer einheitlichen DTD in SGML, vorliegen wird. Hier setzt unser Forschungsansatz ein.

Wir wollen in diesem Projekt ein allgemeingültiges Informations- und Wissensrekonstruktionsinstrument entwickeln, das in der heterogenen dokumentenbasierten Informationswelt der Bauausführung all die Dokumente mit der fragmentierten Information auffindet, die einem Informationskontext zuzuordnen sind, der durch eine Suchanfrage, wie z. B. �Verzögerung der Fliesenarbeiten im Erdgeschoss, Bauabschnitt III�, spezifiziert wird. Wäre ein solches Instrument vorhanden, wären die Baudokumente nicht nur formal archiviert, sondern auch das Projektwissen wäre langzeitgesichert, da rekonstruierbar.

Die Neuartigkeit des Forschungsansatzes ist die Verbindung der unscharfen Informationsstrukturen, die mit Textanalysemethoden aus der dokumentbasierten Informationswelt der Bauausführungsseite rekonstruierbar sind, mit den konsistenten, logisch exakten Informationsstrukturen der Produktmodelle und Produktdatenmodelle. Das Forschungsvorhaben verbindet dabei Methoden aus dem Bereich der semantischen Textauswertung, der Wissensstrukturen in objekt-orientierten Produktdaten- und Produktmodellen und der Konfiguration von Belief-Netzwerk, um Projektwissen in anfragespezifischen Wissenslandkarten zu repräsentieren und probabilistisches Schlußfolgern über die in den Dokumenten enthaltene implizierte Wissensstruktur durchführen zu können.

Leider stehen Produktmodelle (Vereinfachend wird, wenn Produktdaten- und Produktmodell gleichzeitig angesprochen werden, nur das Produktmodell genannt.) für die Bauausführung in absehbarer Zeit nicht zur Verfügung, während hingegen Produktmodelle für die Planung kurz vor der breiten Markteinführung stehen. Daher ist die Forschung auf die Nutzung der Produktmodelle der Planung konzentriert. Für die Anwendung bedeutet dies jedoch, dass die Produktionsaspekte und die Zeitdimension fehlen und nur gesichertes Wissen über das Endprodukt, wie es geplant wurde, selbst vorliegt. Daher kann die Unschärfe der aus den Dokumenten abgeleiteten Informationsstrukturen nicht gänzlich ausgeglichen, sondern nur deutlich reduziert werden. Diese verbleibende Unschärfe soll explizit modelliert werden, damit sie zum einen den Nutzer bewusst wird und zum anderen, bei Schlussfolgerungen im Informationsnetz, um Wissen zu rekonstruieren, explizit berücksichtigt werden kann. Hierzu soll die Belief-Network-Methode untersucht werden, d. h. die analysierten Informationsstrukturen werden auf Vertrauensnetzwerke abgebildet. Damit ist es möglich, die Genauigkeit der durch die Textanalyseverfahren ermittelten Wortzusammengehörigkeiten (Informationsstrukturnetz) durch Vertrauenszahlen zu quantifizieren und sie vor allem mit den aus dem Produktmodell ermittelten Zusammengehörigkeiten, entsprechend ihrer unterschiedlichen Zuverlässigkeit gewichtet, zu vereinen.

Es ergeben sich somit drei Ebenen der Modellierung und Auswertung:

1. Dokumenten-Ebene (Teilschritt 1)

2. Produktmodell-Ebene (Teilschritte 2 und 3)

3. Erfahrungsebene (Teilschritte 4 und 5)

Die mit diesen drei Ebenen verbundenen Ziele des Vorhabens sollen im folgenden einzeln dargestellt werden.

Dokumenten-Ebene

Dokumente geben das Ergebnis einer bestimmten granularen Aktivität der Planung, Ausführung oder Überwachung innerhalb eines Bauvorhabens wieder.

In einem ersten Schritt sollen auf Dokumentenebene die eingehenden Dokumente mit den linguistischen Methoden der Textauswertung nach Schlüsselwörtern und Themenbereichen ausgewertet und jedes neu erzeugte Dokument, so indiziert, abgelegt werden. Somit ist ein erstes Informationsstrukturnetz initialisiert. Aufgrund der mangelhaften Struktur, die derzeit den Datenstrukturen für technische Zeichnungen zugrunde liegt, wollen wir uns stärker auf Textdokumente konzentrieren.

Über diese technischen Aspekte hinausgehend, ist jedoch auch eine prinzipielle Erweiterung der Schlüsselwortanalyse von Dokumenten nötig. Die Zuschärfung der vorhandenen Verfahren der allgemeinen Textanalyse auf das spezifische Gebiet Bauwesen erfordert eine größere Trennschärfe bei der Extraktion der Schlüsselwörter. Es ist eine bauspezifische Erweiterung der Lexika der Textanalysemethoden vorzunehmen.

Produktmodell-Ebene

Das Ziel auf dieser Ebene ist, das punktuelle Wissen (abgeleitet aus Baudokumenten) in Kontextwissen (abgeleitet aus Produkt- und Produktdatenmodellen) einzubetten und damit einer höheren Aussagefähigkeit zuzuführen. Dies ist damit die zentrale Komponente des Forschungsansatzes.

Ziel des Vorhabens in diesem Zusammenhang ist es, ein Verfahren zu finden, das eine Menge von Schlüsselwörtern, die von der erweiterten Textanalyse (siehe Ziele Dokumentenebene) extrahiert und grob in Begriffshierarchien vorstrukturiert wurden, in fachspezifische Gruppen bzw. Cluster von Themen unterteilt, die untereinander in Beziehung stehen. D. h. die im Produktdatenmodell vorhandenen Schemata und Relationen werden zur Verbesserung der Strukturierung des Informationsnetzes aus der reinen Textanalyse genutzt (Teilschritt 2).

In einem weiteren Schritt (Teilschritt 3) kann das projektspezifische Strukturierungswissen, das im instantiierten Produktmodell vorhanden ist, genutzt werden, denn für diese Cluster kann man annehmen, dass sie sich auf ein gemeinsames Objekt oder eine gemeinsame Aggregation von Instanzen in Produktmodell beziehen. Dazu werden die extrahierten Begriffe mit den Attributwerten der Instanzen im Produktmodell (Fliesen X1 bzw. Fliesen E3) verglichen. Auf diese Weise kann man Textstellen über ihre Schlüsselwörter, basierend auf ihren gemeinsamen Bezug, sehr zielgenau, d. h. mit einer bedingten Wahrscheinlichkeit von 1,0, platzieren und gruppieren.

Erfahrungsebene

In einer weiteren Stufe des dreistufigen Verfahrens kann Erfahrungswissen auf zwei Arten eingebracht werden. Zum einen als individuelles Erfahrungswissen durch den Nutzer des Systems und zum anderen als globales empirisches Erfahrungswissen, gewonnen aus statistischen Auswertungen oder maschinellen Lernverfahren. Beides soll hier berücksichtigt werden. Ziel auf Erfahrungsebene ist es, die zuvor durch die allgemeinen Textauswertemethoden und die Auswertung der Instanzen des Produktmodells abgeleiteten Hypothesen über potentielle Zusammenhänge zwischen Begriffen zu bewerten

Als erstes wird die Wissensstruktur, ermittelt auf der Dokumenten- und verfeinert auf der Produktmodellebene, auf ein Belief-Netzwerk abgebildet (Teilschritt 4). Dies erfolgt nach der Auswertung des Produktdatenmodells, da danach ein erstes durchgängiges Begriffsnetz zu erwarten ist. Die Initialwahrscheinlichkeiten des Belief-Netzwerks können hierbei aus der Worthäufigkeit, die bei der Textanalysemethode anfällt, abgeleitet werden. Die Wissensstruktur, abgeleitet aus dem Produktmodell, führt zum einen zu einer weiteren Verflechtung des Netzwerks, indem man die räumliche und funktionale Nachbarschaftsbeziehung der Bauteile nun zur Verfügung stellt. Andererseits handelt es sich hier um eine deterministische Verfeinerung des Belief-Netzwerks durch deterministische Knoten. Das Einordnen von Textstellen oder Dokumenten kann nun mittels der Schlüsselwörter sowohl über deterministische als auch probabilistische Knoten erfolgen.

Das Einbringen von individuellem Erfahrungswissen durch den Nutzer erfolgt über eine interaktive Schnittstelle während der Wissensabfrage (Teilschritt 5). Dem Nutzer soll hier die Möglichkeit geboten werden, vorhandene Vertrauenszahlen sowohl zu modifizieren als auch neue Relationen einzuführen, die aus dem Produktmodell nicht automatisch ableitbar waren, ihm aber aus Erfahrung bekannt sind.

Im einzelnen sind die Schwerpunkte der Arbeit auf dieser Ebene die Ableitung der Netzwerktopologie z. B. nach der Vorgehensweise nach [Sarkar und Murphy, 1996] die generische Definition der Verbindungen, die Tabellen der bedingten Initialwahrscheinlichkeiten der Knoten und die Spezialisierung der Propagierungsalgorithmen.

Die Abfolge der einzelnen Methoden zum Erstellen eines Belief-Netzwerks ist in Tab. 1 zusammengefasst wiedergegeben.

Dokumente	Textanalyse (1)	Semantisches Netzwerk mit Begriffshierarchieinseln
Produktdatenmodell	Objektanalyse (2)	Verbessertes semantisches Netzwerk durch ClusterstrukturenBilden des Initial-Belief-Netzwerks (4)
Produktmodell	Instanzanalyse (3)	Verbessertes semantisches und Belief-Netzwerk durch deterministische Bauelemente deterministische räumliche Beziehungen deterministische funktionale Beziehungen
PrIndividuelle Erfahrung	Interaktive Schnittstelle (5)	Verbessern des Belief-Netzwerks durch deterministische Bauelemente deterministische räumliche Beziehungen deterministische funktionale Beziehungen