DokBau
Langzeitsicherung von Projektwissen aus heterogenen Baudokumentenbeständen
Langzeitsicherung von Projektwissen durch semantische Textauswertung und Klassifzierung von Baudokumente zur Repräsentation von anfragespezifischer Wissenslandkarten. Gefördert durch die DFG.
Forschungsziele
Langzeitsicherung von Projektwissen
Die Langzeitsicherung von Projektwissen der Bauausführung und
die dazu notwendige Dokumentation des Wissens ist ein noch
ungelöstes Problem, denn das Wissen ist in einer Vielzahl
fragmenthafter Informationen zerstreut, die wiederum in einer
Vielzahl auch kleiner und kleinster Dokumente (Notizen,
Bestellschein, Lieferschein, Rapportzettel, täglicher
Bautagebucheintrag, etc.) und nur zu einem beschränkten Teil in
geordneten größeren Einheiten wie Leistungsbeschreibung oder
Bauablaufplan gespeichert sind. Es ist davon auszugehen, dass
diese heterogene Information in naher Zukunft in elektronischer
Form, aber nicht unbedingt in einer standardisierten,
einheitlichen Dokumentenform, z. B. einer einheitlichen DTD in
SGML, vorliegen wird. Hier setzt unser Forschungsansatz
ein.
Wir wollen in diesem Projekt ein allgemeingültiges
Informations- und Wissensrekonstruktionsinstrument entwickeln,
das in der heterogenen dokumentenbasierten Informationswelt der
Bauausführung all die Dokumente mit der fragmentierten
Information auffindet, die einem Informationskontext zuzuordnen
sind, der durch eine Suchanfrage, wie z. B. �Verzögerung der
Fliesenarbeiten im Erdgeschoss, Bauabschnitt III�, spezifiziert
wird. Wäre ein solches Instrument vorhanden, wären die
Baudokumente nicht nur formal archiviert, sondern auch das
Projektwissen wäre langzeitgesichert, da rekonstruierbar.
Die Neuartigkeit des Forschungsansatzes ist die Verbindung der
unscharfen Informationsstrukturen, die mit Textanalysemethoden
aus der dokumentbasierten Informationswelt der
Bauausführungsseite rekonstruierbar sind, mit den konsistenten,
logisch exakten Informationsstrukturen der Produktmodelle und
Produktdatenmodelle. Das Forschungsvorhaben verbindet dabei
Methoden aus dem Bereich der semantischen Textauswertung, der
Wissensstrukturen in objekt-orientierten Produktdaten- und
Produktmodellen und der Konfiguration von Belief-Netzwerk, um
Projektwissen in anfragespezifischen Wissenslandkarten zu
repräsentieren und probabilistisches Schlußfolgern über die in
den Dokumenten enthaltene implizierte Wissensstruktur
durchführen zu können.
Leider stehen Produktmodelle (Vereinfachend wird, wenn
Produktdaten- und Produktmodell gleichzeitig angesprochen
werden, nur das Produktmodell genannt.) für die Bauausführung
in absehbarer Zeit nicht zur Verfügung, während hingegen
Produktmodelle für die Planung kurz vor der breiten
Markteinführung stehen. Daher ist die Forschung auf die Nutzung
der Produktmodelle der Planung konzentriert. Für die Anwendung
bedeutet dies jedoch, dass die Produktionsaspekte und die
Zeitdimension fehlen und nur gesichertes Wissen über das
Endprodukt, wie es geplant wurde, selbst vorliegt. Daher kann
die Unschärfe der aus den Dokumenten abgeleiteten
Informationsstrukturen nicht gänzlich ausgeglichen, sondern nur
deutlich reduziert werden. Diese verbleibende Unschärfe soll
explizit modelliert werden, damit sie zum einen den Nutzer
bewusst wird und zum anderen, bei Schlussfolgerungen im
Informationsnetz, um Wissen zu rekonstruieren, explizit
berücksichtigt werden kann. Hierzu soll die
Belief-Network-Methode untersucht werden, d. h. die
analysierten Informationsstrukturen werden auf
Vertrauensnetzwerke abgebildet. Damit ist es möglich, die
Genauigkeit der durch die Textanalyseverfahren ermittelten
Wortzusammengehörigkeiten (Informationsstrukturnetz) durch
Vertrauenszahlen zu quantifizieren und sie vor allem mit den
aus dem Produktmodell ermittelten Zusammengehörigkeiten,
entsprechend ihrer unterschiedlichen Zuverlässigkeit gewichtet,
zu vereinen.
Es ergeben sich somit drei Ebenen der Modellierung und
Auswertung:
1. Dokumenten-Ebene (Teilschritt 1)
2. Produktmodell-Ebene (Teilschritte 2 und 3)
3. Erfahrungsebene (Teilschritte 4 und 5)
Die mit diesen drei Ebenen verbundenen Ziele des Vorhabens
sollen im folgenden einzeln dargestellt werden.
Dokumenten-Ebene
Dokumente geben das Ergebnis einer bestimmten granularen
Aktivität der Planung, Ausführung oder Überwachung innerhalb
eines Bauvorhabens wieder.
In einem ersten Schritt sollen auf Dokumentenebene die
eingehenden Dokumente mit den linguistischen Methoden der
Textauswertung nach Schlüsselwörtern und Themenbereichen
ausgewertet und jedes neu erzeugte Dokument, so indiziert,
abgelegt werden. Somit ist ein erstes Informationsstrukturnetz
initialisiert. Aufgrund der mangelhaften Struktur, die derzeit
den Datenstrukturen für technische Zeichnungen zugrunde liegt,
wollen wir uns stärker auf Textdokumente konzentrieren.
Über diese technischen Aspekte hinausgehend, ist jedoch auch
eine prinzipielle Erweiterung der Schlüsselwortanalyse von
Dokumenten nötig. Die Zuschärfung der vorhandenen Verfahren der
allgemeinen Textanalyse auf das spezifische Gebiet Bauwesen
erfordert eine größere Trennschärfe bei der Extraktion der
Schlüsselwörter. Es ist eine bauspezifische Erweiterung der
Lexika der Textanalysemethoden vorzunehmen.
Produktmodell-Ebene
Das Ziel auf dieser Ebene ist, das punktuelle Wissen
(abgeleitet aus Baudokumenten) in Kontextwissen (abgeleitet aus
Produkt- und Produktdatenmodellen) einzubetten und damit einer
höheren Aussagefähigkeit zuzuführen. Dies ist damit die
zentrale Komponente des Forschungsansatzes.
Ziel des Vorhabens in diesem Zusammenhang ist es, ein Verfahren
zu finden, das eine Menge von Schlüsselwörtern, die von der
erweiterten Textanalyse (siehe Ziele Dokumentenebene)
extrahiert und grob in Begriffshierarchien vorstrukturiert
wurden, in fachspezifische Gruppen bzw. Cluster von Themen
unterteilt, die untereinander in Beziehung stehen. D. h. die im
Produktdatenmodell vorhandenen Schemata und Relationen werden
zur Verbesserung der Strukturierung des Informationsnetzes aus
der reinen Textanalyse genutzt (Teilschritt 2).
In einem weiteren Schritt (Teilschritt 3) kann das
projektspezifische Strukturierungswissen, das im instantiierten
Produktmodell vorhanden ist, genutzt werden, denn für diese
Cluster kann man annehmen, dass sie sich auf ein gemeinsames
Objekt oder eine gemeinsame Aggregation von Instanzen in
Produktmodell beziehen. Dazu werden die extrahierten Begriffe
mit den Attributwerten der Instanzen im Produktmodell (Fliesen
X1 bzw. Fliesen E3) verglichen. Auf diese Weise kann man
Textstellen über ihre Schlüsselwörter, basierend auf ihren
gemeinsamen Bezug, sehr zielgenau, d. h. mit einer bedingten
Wahrscheinlichkeit von 1,0, platzieren und gruppieren.
Erfahrungsebene
In einer weiteren Stufe des dreistufigen Verfahrens kann
Erfahrungswissen auf zwei Arten eingebracht werden. Zum einen
als individuelles Erfahrungswissen durch den Nutzer des Systems
und zum anderen als globales empirisches Erfahrungswissen,
gewonnen aus statistischen Auswertungen oder maschinellen
Lernverfahren. Beides soll hier berücksichtigt werden. Ziel auf
Erfahrungsebene ist es, die zuvor durch die allgemeinen
Textauswertemethoden und die Auswertung der Instanzen des
Produktmodells abgeleiteten Hypothesen über potentielle
Zusammenhänge zwischen Begriffen zu bewerten
Als erstes wird die Wissensstruktur, ermittelt auf der
Dokumenten- und verfeinert auf der Produktmodellebene, auf ein
Belief-Netzwerk abgebildet (Teilschritt 4). Dies erfolgt nach
der Auswertung des Produktdatenmodells, da danach ein erstes
durchgängiges Begriffsnetz zu erwarten ist. Die
Initialwahrscheinlichkeiten des Belief-Netzwerks können hierbei
aus der Worthäufigkeit, die bei der Textanalysemethode anfällt,
abgeleitet werden. Die Wissensstruktur, abgeleitet aus dem
Produktmodell, führt zum einen zu einer weiteren Verflechtung
des Netzwerks, indem man die räumliche und funktionale
Nachbarschaftsbeziehung der Bauteile nun zur Verfügung stellt.
Andererseits handelt es sich hier um eine deterministische
Verfeinerung des Belief-Netzwerks durch deterministische
Knoten. Das Einordnen von Textstellen oder Dokumenten kann nun
mittels der Schlüsselwörter sowohl über deterministische als
auch probabilistische Knoten erfolgen.
Das Einbringen von individuellem Erfahrungswissen durch den
Nutzer erfolgt über eine interaktive Schnittstelle während der
Wissensabfrage (Teilschritt 5). Dem Nutzer soll hier die
Möglichkeit geboten werden, vorhandene Vertrauenszahlen sowohl
zu modifizieren als auch neue Relationen einzuführen, die aus
dem Produktmodell nicht automatisch ableitbar waren, ihm aber
aus Erfahrung bekannt sind.
Im einzelnen sind die Schwerpunkte der Arbeit auf dieser Ebene
die Ableitung der Netzwerktopologie z. B. nach der
Vorgehensweise nach [Sarkar und Murphy, 1996] die generische
Definition der Verbindungen, die Tabellen der bedingten
Initialwahrscheinlichkeiten der Knoten und die Spezialisierung
der Propagierungsalgorithmen.
Die Abfolge der einzelnen Methoden zum Erstellen eines
Belief-Netzwerks ist in Tab. 1 zusammengefasst
wiedergegeben.
Dokumente | Textanalyse (1) | Semantisches Netzwerk mit Begriffshierarchieinseln |
Produktdatenmodell | Objektanalyse (2) | Verbessertes semantisches Netzwerk durch ClusterstrukturenBilden des Initial-Belief-Netzwerks (4) |
Produktmodell | Instanzanalyse (3) |
Verbessertes semantisches und Belief-Netzwerk durch
|
PrIndividuelle
Erfahrung |
Interaktive Schnittstelle
(5) |
Verbessern des Belief-Netzwerks durch
|