Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic

Đorđe Nedeljković,
Faculty of Civil Engineering, teaching assistant
Department of construction project management
Application of Text Mining and graph
database on civil engineering projects

Predmet istraživanja
- Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz
nestruktuiranih/polustruktuiranih dokumenata sa građevinskih
projekata
- Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom
- Kompleksniji zadaci – loši rezultati, potreban novi feature vector

Sadržaj
- Građevinski projekti / tehnički dokumenti
- Postojeća rešenja
- Predloženi model
- Pretpostavke
- Mere asocijacije
- Reprezentacija detektovanih ključnih fraza
- Povezivanje značajnih fraza na osnovu semantičke bliskosti
- Pravila za izdvajanje koncepata i relacija
- Primeri
- Zaključak

Investicioni projekat (građevinski, arhitektonski)
- Za razliku od projekata u opštem smislu, izgradnja,
rekonstrukcija, modifikacija i opremanje investicionih objekata
su uvek u direktnoj vezi sa građevinarstvom kao privrednom
granom
- Kompleksan tehničko-tehnološki, organizacioni, finansijski i
pravni poduhvat, koji se sastoji od skupa koordinisanih i
kontrolisanih aktivnosti sa jasno definisanim početkom i
krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili
opremanje objekta ili objekata koji su potrebni vlasniku
(investitoru)

Investicioni projekat - specifičnosti
- Složen
- Unikatan
- Na više lokacija
- Dugotrajan
- Veliki broj učesnika
- Razuđenost procesa
- Važnost klimatskih uslova
- Imovinsko-pravni problemi

Dokumenti na građevinskom projektu
- Pored tehničkih crteža i proračuna, značajan korpus tekstualnih
dokumenata, (posebno u fazi realizacije projekta):
Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi...
- Veliki broj učesnika sa različitim poslovnim procesima i
stepenom ICT zrelosti
Mane Prednosti
Statički, neinformativni sadržaj
(zaglavlja, formulari, itd.)
Konzistentna struktura
Domenski žargon, skraćenice
Manje višeznačnih jezičkih konstrukcija
(polisemija, metonimija, itd.)
Dužina, više tema
Sadržaj na različitim jezicima
(često na nivou rečenice)

Trendovi na domaćem tržištu
- Alati koji se najčešće koriste za obradu podataka:
Programi za rad sa tabelama
- Prepreke za prelazak na napredniji alat za obradu podataka:
Nekompatibilnost sa postojećim poslovnim procesima
Podaci su u neodgovarajućem formatu za pretragu i analizu
- Prepreke za optimalno korišćenje nestruktuiranih podataka u
procesu donošenja odluka:
Značajni podaci se nalaze na različitim mestima

Postojeća rešenja za pretragu,
izdvajanje, analiziranje i vizuelizaciju
- Ručno obeležavanje, rad sa prethodno definisanim formama
- Information exctraction, Ontology based, Semantic annotation
- Document management system
- Enterprise search
- BI applications
- Sales enablement software
- Content management system
- Enterprise resource planning

Predloženi model - hipoteze
- Robusnost na nedostatak NLP resursa, podrška za više jezika
Izdvajanje ključnih fraza zasnovano na merama asocijacije reči
- Transferabilnost na različite domene sa minimalnim trudom
eksperta za konfiguraciju sistema prethodnim znanjem
Mogućnost definisanja prethodnog znanja kroz resurs fajlove i
zadata pravila

Inicijalno izdvajanje značajnih fraza
- Značajne fraze (ZF) kao par susednih reči
- Informativnije od pojedinačnih reči
- Mere za određivanje verovatnoće zajedničkog pojavljivanja
reči x i y u paru (x,y)
- Isti par može biti drugačije rangiran za različite mere
- Pojedinačno, mere preferiraju parove reči sa određenim
kombinacijama frekvencija
- Kombinovanje najbolje rangiranih parova za različite mere

Mere asocijacije reči
PMI
(Church and Hanks 1989)
log
𝑓(𝑥, 𝑦)
𝑓 𝑥 ∗ 𝑓(𝑦)/𝑊
PMIsig
(Washtell and Markert 2009)
PMI∗ min (𝑓 𝑥 , 𝑓 𝑦 )
sPMId
(Damani and Ghonge 2013)
log
𝑑 𝑥, 𝑦
𝑑 𝑥) ∗ 𝑑(𝑦 /𝐷 + max 𝑑 𝑥 , 𝑑 𝑦 ∗
ln 𝛿
−2
Dice
(Dice 1945)
2𝑓(𝑥, 𝑦)
𝑓 𝑥 + 𝑓(𝑦)
G2
(Dunning 1993)
2 𝑓 𝑥, 𝑦 log
𝑓 𝑥, 𝑦 𝑃
𝑓 𝑥 𝑓 𝑦
+ 𝑓 𝑥, 𝑦 log
𝑓 𝑥, 𝑦 𝑃
𝑓 𝑥 𝑓 𝑦

Natural language processing (NLP) resursi
- Detektor jezika
- Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama
- Lemmatizer
- Svođenje reči na kanonski oblik, kompaktniji rečnik
- Part-of-speach tagger
- Klasifikacija reči, dozvoljene kombinacije

Redukcija neinformativnog sadržaja
- Uvećan skor za parove reči u neinformativnim delovima teksta
- Česti parovi reči u istom kontekstu – šum
- Parovi reči u različitim kontekstima – informativne ZF
- Informativnost para reči – entropija skupa string reprezentacije svih
pojavljivanja
- Korigovanje skora dobijenog merama asocijacije

Uspostavljanje relacija
- Domenski nezavisan pristup – relacije između ZF na osnovu
kontekstualne sličnosti
- Mera - Jaccard indeks za skupove paragrafa/rečenica
- Relacije with, always_under, always_with
|Pki
∩ Pkj
|
| Pki
∪ Pkj
|
≥ t ∈ 0,1
- Grupisanje ZF od dve reči povezanih always_with relacijom
(Bron-Kerbosch algoritam)
Pki
Pkj
Pki
Pkj
Pki
Pkj
always_with

Graf značajnih fraza/dokumenata
- Značajne_fraze i dokumenti
kao čvorovi grafa
- Automatski generisan
- Parametari ekstrakcije
definišu strukturu

Definisanje dodatnih koncepata i relacija
- Automatska detekcija obrazaca u tekstu
Regularni izrazi - datum, novac
- Struktura dokumenata:
Zapisnici sa sastanaka - osoba, kompanija
Predmet i predračun - pozicija_rada
Work breakdown structure, gantogram – aktivnost, faza
- ZF koje ispunjavaju zadati uslov
konstruktivni_elementi, materijali
- Relacije:
osoba radi_za kompanija sastanak održan datum osoba akcija ZF

Primeri upita
- Interakcija osoba na projektu (pojavljivanje u istom kontekstu)

Primeri upita
- Osobe koje su se najčešće
pojavljivale zajedno, sa
kompanijama za koje rade

Primeri upita
- Značajne_fraze (materijali)
koje su u vezi sa konkretnom
osobom i dokumenti u kojima
se pojavljuju

Primeri upita
- Dokumenti (sastanci) i
datumi održavanja
- U dokumentima sadržan
datum budućeg sastanka

Zapisnici sa sastanaka
(minutes of meeting)
- Važan dokument - dinamika realizacije projekta
- Opšte prihvaćena/sistematizovana struktura
učesnik (inicijali), kompanija, uloga,
agenda, diskusija, odgovornost, rok
- Obrasci diskusije
Osoba akcija ... ZF ... ZF...
Osoba Kompanija akcija ... ZF ... ZF... veznik ...
Osoba akcija Osoba ... ZF ... ZF ... akcija ...
Uloga akcija ... ZF ... ZF ...

Zapisnici – primeri upita
- Osoba promised ... ZF ... ZF... ,
sa dokumentima

Zapisnici – primeri upita
Meeeting held added agreed asked discussed noticed promised reminded replied required said suggested
06-11-13 1 1 2 1 5
14-11-13 2 3 1 6 2
29-11-13 2 2 4 6 2 2
05-12-13 1 12
12-12-13 2 2 1
18-12-13 4 1 1 1
15-01-14 2 1 4
22-01-14 3 5 4 1 2 4 2 2 7 11
29-01-14 2 2 2 9
05-02-14 1 2 4 5 1 2 1 17
26-03-14 10 3 3 8 2 11
08-04-14 1 4 2 3 12
27-05-14 6
09-06-14 2 2 6 1 11
total 24 18 12 8 10 16 20 16 8 103 15
- Sumarni rezultat za obrazac osoba akcija ... ZF ... ZF... za
konkretnu osobu

Zaključak (SW)
• Nezavisnost u odnosu na jezik
• Izdvajanje ključnih fraza na bazi entropije
• Analiza i vizuelizacija moguća bez prethodno
definisane reprezentacije domenskog znanja
• Nema potrebe za menjanjem postojećih
poslovnih procesa
• Integracija fragmentisanih podataka na nivou
dokumenta
• Lošija performansa bez NLP komponenti
• Novi pristup u domenu upravljanja
građevinskim projektima
• Razdvojeni rečnici značajnih fraza za različite
jezike

Zaključak (OT)
• Veliki udeo nestruktuiranih tekstualnih
podataka u projektnoj dokumentaciji
• Postprojektna analiza
• Upotreba ML tehnika za poboljšanje
performansi i nove funkcionalnosti
(klasifikacija, klastering, detekcija događaja,...)
• Network analysis
(SNA, Link analysis, Centrality measures)
• Teškoća da se proceni uticaj na proces
donošenja odluka
• Prava pristupa nad informacijama iz više
dokumenata
• Definisanje pravila za izdvajanje novog znanja

Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (10)

More from Institute of Contemporary Sciences

More from Institute of Contemporary Sciences (20)

Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic

Editor's Notes