SlideShare a Scribd company logo
Đorđe Nedeljković,
Faculty of Civil Engineering, teaching assistant
Department of construction project management
Application of Text Mining and graph
database on civil engineering projects
Predmet istraživanja
- Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz
nestruktuiranih/polustruktuiranih dokumenata sa građevinskih
projekata
- Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom
- Kompleksniji zadaci – loši rezultati, potreban novi feature vector
Sadržaj
- Građevinski projekti / tehnički dokumenti
- Postojeća rešenja
- Predloženi model
- Pretpostavke
- Mere asocijacije
- Reprezentacija detektovanih ključnih fraza
- Povezivanje značajnih fraza na osnovu semantičke bliskosti
- Pravila za izdvajanje koncepata i relacija
- Primeri
- Zaključak
Investicioni projekat (građevinski, arhitektonski)
- Za razliku od projekata u opštem smislu, izgradnja,
rekonstrukcija, modifikacija i opremanje investicionih objekata
su uvek u direktnoj vezi sa građevinarstvom kao privrednom
granom
- Kompleksan tehničko-tehnološki, organizacioni, finansijski i
pravni poduhvat, koji se sastoji od skupa koordinisanih i
kontrolisanih aktivnosti sa jasno definisanim početkom i
krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili
opremanje objekta ili objekata koji su potrebni vlasniku
(investitoru)
Investicioni projekat - specifičnosti
- Složen
- Unikatan
- Na više lokacija
- Dugotrajan
- Veliki broj učesnika
- Razuđenost procesa
- Važnost klimatskih uslova
- Imovinsko-pravni problemi
Dokumenti na građevinskom projektu
- Pored tehničkih crteža i proračuna, značajan korpus tekstualnih
dokumenata, (posebno u fazi realizacije projekta):
Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi...
- Veliki broj učesnika sa različitim poslovnim procesima i
stepenom ICT zrelosti
Mane Prednosti
Statički, neinformativni sadržaj
(zaglavlja, formulari, itd.)
Konzistentna struktura
Domenski žargon, skraćenice
Manje višeznačnih jezičkih konstrukcija
(polisemija, metonimija, itd.)
Dužina, više tema
Sadržaj na različitim jezicima
(često na nivou rečenice)
Trendovi na domaćem tržištu
- Alati koji se najčešće koriste za obradu podataka:
Programi za rad sa tabelama
- Prepreke za prelazak na napredniji alat za obradu podataka:
Nekompatibilnost sa postojećim poslovnim procesima
Podaci su u neodgovarajućem formatu za pretragu i analizu
- Prepreke za optimalno korišćenje nestruktuiranih podataka u
procesu donošenja odluka:
Značajni podaci se nalaze na različitim mestima
Postojeća rešenja za pretragu,
izdvajanje, analiziranje i vizuelizaciju
- Ručno obeležavanje, rad sa prethodno definisanim formama
- Information exctraction, Ontology based, Semantic annotation
- Document management system
- Enterprise search
- BI applications
- Sales enablement software
- Content management system
- Enterprise resource planning
Predloženi model - hipoteze
- Robusnost na nedostatak NLP resursa, podrška za više jezika
Izdvajanje ključnih fraza zasnovano na merama asocijacije reči
- Transferabilnost na različite domene sa minimalnim trudom
eksperta za konfiguraciju sistema prethodnim znanjem
Mogućnost definisanja prethodnog znanja kroz resurs fajlove i
zadata pravila
Inicijalno izdvajanje značajnih fraza
- Značajne fraze (ZF) kao par susednih reči
- Informativnije od pojedinačnih reči
- Mere za određivanje verovatnoće zajedničkog pojavljivanja
reči x i y u paru (x,y)
- Isti par može biti drugačije rangiran za različite mere
- Pojedinačno, mere preferiraju parove reči sa određenim
kombinacijama frekvencija
- Kombinovanje najbolje rangiranih parova za različite mere
Mere asocijacije reči
PMI
(Church and Hanks 1989)
log
𝑓(𝑥, 𝑦)
𝑓 𝑥 ∗ 𝑓(𝑦)/𝑊
PMIsig
(Washtell and Markert 2009)
PMI∗ min (𝑓 𝑥 , 𝑓 𝑦 )
sPMId
(Damani and Ghonge 2013)
log
𝑑 𝑥, 𝑦
𝑑 𝑥) ∗ 𝑑(𝑦 /𝐷 + max 𝑑 𝑥 , 𝑑 𝑦 ∗
ln 𝛿
−2
Dice
(Dice 1945)
2𝑓(𝑥, 𝑦)
𝑓 𝑥 + 𝑓(𝑦)
G2
(Dunning 1993)
2 𝑓 𝑥, 𝑦 log
𝑓 𝑥, 𝑦 𝑃
𝑓 𝑥 𝑓 𝑦
+ 𝑓 𝑥, 𝑦 log
𝑓 𝑥, 𝑦 𝑃
𝑓 𝑥 𝑓 𝑦
Natural language processing (NLP) resursi
- Detektor jezika
- Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama
- Lemmatizer
- Svođenje reči na kanonski oblik, kompaktniji rečnik
- Part-of-speach tagger
- Klasifikacija reči, dozvoljene kombinacije
Redukcija neinformativnog sadržaja
- Uvećan skor za parove reči u neinformativnim delovima teksta
- Česti parovi reči u istom kontekstu – šum
- Parovi reči u različitim kontekstima – informativne ZF
- Informativnost para reči – entropija skupa string reprezentacije svih
pojavljivanja
- Korigovanje skora dobijenog merama asocijacije
Uspostavljanje relacija
- Domenski nezavisan pristup – relacije između ZF na osnovu
kontekstualne sličnosti
- Mera - Jaccard indeks za skupove paragrafa/rečenica
- Relacije with, always_under, always_with
|Pki
∩ Pkj
|
| Pki
∪ Pkj
|
≥ t ∈ 0,1
- Grupisanje ZF od dve reči povezanih always_with relacijom
(Bron-Kerbosch algoritam)
Pki
Pkj
Pki
Pkj
Pki
Pkj
always_with
Graf značajnih fraza/dokumenata
- Značajne_fraze i dokumenti
kao čvorovi grafa
- Automatski generisan
- Parametari ekstrakcije
definišu strukturu
Definisanje dodatnih koncepata i relacija
- Automatska detekcija obrazaca u tekstu
Regularni izrazi - datum, novac
- Struktura dokumenata:
Zapisnici sa sastanaka - osoba, kompanija
Predmet i predračun - pozicija_rada
Work breakdown structure, gantogram – aktivnost, faza
- ZF koje ispunjavaju zadati uslov
konstruktivni_elementi, materijali
- Relacije:
osoba radi_za kompanija sastanak održan datum osoba akcija ZF
Primeri upita
- Interakcija osoba na projektu (pojavljivanje u istom kontekstu)
Primeri upita
- Osobe koje su se najčešće
pojavljivale zajedno, sa
kompanijama za koje rade
Primeri upita
- Značajne_fraze (materijali)
koje su u vezi sa konkretnom
osobom i dokumenti u kojima
se pojavljuju
Primeri upita
- Dokumenti (sastanci) i
datumi održavanja
- U dokumentima sadržan
datum budućeg sastanka
Zapisnici sa sastanaka
(minutes of meeting)
- Važan dokument - dinamika realizacije projekta
- Opšte prihvaćena/sistematizovana struktura
učesnik (inicijali), kompanija, uloga,
agenda, diskusija, odgovornost, rok
- Obrasci diskusije
Osoba akcija ... ZF ... ZF...
Osoba Kompanija akcija ... ZF ... ZF... veznik ...
Osoba akcija Osoba ... ZF ... ZF ... akcija ...
Uloga akcija ... ZF ... ZF ...
Zapisnici – primeri upita
- Osoba promised ... ZF ... ZF... ,
sa dokumentima
Zapisnici – primeri upita
Meeeting held added agreed asked discussed noticed promised reminded replied required said suggested
06-11-13 1 1 2 1 5
14-11-13 2 3 1 6 2
29-11-13 2 2 4 6 2 2
05-12-13 1 12
12-12-13 2 2 1
18-12-13 4 1 1 1
15-01-14 2 1 4
22-01-14 3 5 4 1 2 4 2 2 7 11
29-01-14 2 2 2 9
05-02-14 1 2 4 5 1 2 1 17
26-03-14 10 3 3 8 2 11
08-04-14 1 4 2 3 12
27-05-14 6
09-06-14 2 2 6 1 11
total 24 18 12 8 10 16 20 16 8 103 15
- Sumarni rezultat za obrazac osoba akcija ... ZF ... ZF... za
konkretnu osobu
Zaključak (SW)
• Nezavisnost u odnosu na jezik
• Izdvajanje ključnih fraza na bazi entropije
• Analiza i vizuelizacija moguća bez prethodno
definisane reprezentacije domenskog znanja
• Nema potrebe za menjanjem postojećih
poslovnih procesa
• Integracija fragmentisanih podataka na nivou
dokumenta
• Lošija performansa bez NLP komponenti
• Novi pristup u domenu upravljanja
građevinskim projektima
• Razdvojeni rečnici značajnih fraza za različite
jezike
Zaključak (OT)
• Veliki udeo nestruktuiranih tekstualnih
podataka u projektnoj dokumentaciji
• Postprojektna analiza
• Upotreba ML tehnika za poboljšanje
performansi i nove funkcionalnosti
(klasifikacija, klastering, detekcija događaja,...)
• Network analysis
(SNA, Link analysis, Centrality measures)
• Teškoća da se proceni uticaj na proces
donošenja odluka
• Prava pristupa nad informacijama iz više
dokumenata
• Definisanje pravila za izdvajanje novog znanja
Hvala na pažnji

More Related Content

Viewers also liked

Momentos Memoráveis na Fotografia Ambiental
Momentos Memoráveis na Fotografia AmbientalMomentos Memoráveis na Fotografia Ambiental
Momentos Memoráveis na Fotografia Ambiental
Laura Andreatta Silveira
 
Tipos de Fotografia Científica
Tipos de Fotografia CientíficaTipos de Fotografia Científica
Tipos de Fotografia Científica
Laura Andreatta Silveira
 
Predicting churn in telco industry: machine learning approach - Marko Mitić
 Predicting churn in telco industry: machine learning approach - Marko Mitić Predicting churn in telco industry: machine learning approach - Marko Mitić
Predicting churn in telco industry: machine learning approach - Marko Mitić
Institute of Contemporary Sciences
 
Swift and Xcode8
Swift and Xcode8Swift and Xcode8
Swift and Xcode8
Hyuk Hur
 
안드로이드 개발자를 위한 스위프트
안드로이드 개발자를 위한 스위프트안드로이드 개발자를 위한 스위프트
안드로이드 개발자를 위한 스위프트
병한 유
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
Hiroaki Kudo
 
Apache Spark 2.0: Faster, Easier, and Smarter
Apache Spark 2.0: Faster, Easier, and SmarterApache Spark 2.0: Faster, Easier, and Smarter
Apache Spark 2.0: Faster, Easier, and Smarter
Databricks
 
Apresentação 3
Apresentação 3Apresentação 3
Apresentação 3
skarlett lenz romero
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
Yongha Kim
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
 

Viewers also liked (10)

Momentos Memoráveis na Fotografia Ambiental
Momentos Memoráveis na Fotografia AmbientalMomentos Memoráveis na Fotografia Ambiental
Momentos Memoráveis na Fotografia Ambiental
 
Tipos de Fotografia Científica
Tipos de Fotografia CientíficaTipos de Fotografia Científica
Tipos de Fotografia Científica
 
Predicting churn in telco industry: machine learning approach - Marko Mitić
 Predicting churn in telco industry: machine learning approach - Marko Mitić Predicting churn in telco industry: machine learning approach - Marko Mitić
Predicting churn in telco industry: machine learning approach - Marko Mitić
 
Swift and Xcode8
Swift and Xcode8Swift and Xcode8
Swift and Xcode8
 
안드로이드 개발자를 위한 스위프트
안드로이드 개발자를 위한 스위프트안드로이드 개발자를 위한 스위프트
안드로이드 개발자를 위한 스위프트
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
 
Apache Spark 2.0: Faster, Easier, and Smarter
Apache Spark 2.0: Faster, Easier, and SmarterApache Spark 2.0: Faster, Easier, and Smarter
Apache Spark 2.0: Faster, Easier, and Smarter
 
Apresentação 3
Apresentação 3Apresentação 3
Apresentação 3
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 

More from Institute of Contemporary Sciences

First 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip PanjevicFirst 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip Panjevic
Institute of Contemporary Sciences
 
Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...
Institute of Contemporary Sciences
 
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen DraskovicData Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
Institute of Contemporary Sciences
 
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Institute of Contemporary Sciences
 
Solving churn challenge in Big Data environment - Jelena Pekez
Solving churn challenge in Big Data environment  - Jelena PekezSolving churn challenge in Big Data environment  - Jelena Pekez
Solving churn challenge in Big Data environment - Jelena Pekez
Institute of Contemporary Sciences
 
Application of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar DilovApplication of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar Dilov
Institute of Contemporary Sciences
 
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Institute of Contemporary Sciences
 
Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...
Institute of Contemporary Sciences
 
Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...
Institute of Contemporary Sciences
 
Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...
Institute of Contemporary Sciences
 
From Zero to ML Hero for Underdogs - Amir Tabakovic
From Zero to ML Hero for Underdogs  - Amir TabakovicFrom Zero to ML Hero for Underdogs  - Amir Tabakovic
From Zero to ML Hero for Underdogs - Amir Tabakovic
Institute of Contemporary Sciences
 
Data and data scientists are not equal to money david hoyle
Data and data scientists are not equal to money   david hoyleData and data scientists are not equal to money   david hoyle
Data and data scientists are not equal to money david hoyle
Institute of Contemporary Sciences
 
The price is right - Tomislav Krizan
The price is right - Tomislav KrizanThe price is right - Tomislav Krizan
The price is right - Tomislav Krizan
Institute of Contemporary Sciences
 
When it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela CulibrkWhen it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela Culibrk
Institute of Contemporary Sciences
 
Reality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos SolujicReality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos Solujic
Institute of Contemporary Sciences
 
Sensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir BrusicSensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir Brusic
Institute of Contemporary Sciences
 
Improving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity SearchImproving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity Search
Institute of Contemporary Sciences
 
Prediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognitionPrediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognition
Institute of Contemporary Sciences
 
Using data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local governmentUsing data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local government
Institute of Contemporary Sciences
 
Geospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and ClimateGeospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and Climate
Institute of Contemporary Sciences
 

More from Institute of Contemporary Sciences (20)

First 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip PanjevicFirst 5 years of PSI:ML - Filip Panjevic
First 5 years of PSI:ML - Filip Panjevic
 
Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...Building valuable (online and offline) Data Science communities - Experience ...
Building valuable (online and offline) Data Science communities - Experience ...
 
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen DraskovicData Science Master 4.0 on Belgrade University - Drazen Draskovic
Data Science Master 4.0 on Belgrade University - Drazen Draskovic
 
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
Deep learning fast and slow, a responsible and explainable AI framework - Ahm...
 
Solving churn challenge in Big Data environment - Jelena Pekez
Solving churn challenge in Big Data environment  - Jelena PekezSolving churn challenge in Big Data environment  - Jelena Pekez
Solving churn challenge in Big Data environment - Jelena Pekez
 
Application of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar DilovApplication of Business Intelligence in bank risk management - Dimitar Dilov
Application of Business Intelligence in bank risk management - Dimitar Dilov
 
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
Trends and practical applications of AI/ML in Fin Tech industry - Milos Kosan...
 
Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...Recommender systems for personalized financial advice from concept to product...
Recommender systems for personalized financial advice from concept to product...
 
Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...Advanced tools in real time analytics and AI in customer support - Milan Sima...
Advanced tools in real time analytics and AI in customer support - Milan Sima...
 
Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...Complex AI forecasting methods for investments portfolio optimization - Pawel...
Complex AI forecasting methods for investments portfolio optimization - Pawel...
 
From Zero to ML Hero for Underdogs - Amir Tabakovic
From Zero to ML Hero for Underdogs  - Amir TabakovicFrom Zero to ML Hero for Underdogs  - Amir Tabakovic
From Zero to ML Hero for Underdogs - Amir Tabakovic
 
Data and data scientists are not equal to money david hoyle
Data and data scientists are not equal to money   david hoyleData and data scientists are not equal to money   david hoyle
Data and data scientists are not equal to money david hoyle
 
The price is right - Tomislav Krizan
The price is right - Tomislav KrizanThe price is right - Tomislav Krizan
The price is right - Tomislav Krizan
 
When it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela CulibrkWhen it's raining gold, bring a bucket - Andjela Culibrk
When it's raining gold, bring a bucket - Andjela Culibrk
 
Reality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos SolujicReality and traps of real time data engineering - Milos Solujic
Reality and traps of real time data engineering - Milos Solujic
 
Sensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir BrusicSensor networks for personalized health monitoring - Vladimir Brusic
Sensor networks for personalized health monitoring - Vladimir Brusic
 
Improving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity SearchImproving Data Quality with Product Similarity Search
Improving Data Quality with Product Similarity Search
 
Prediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognitionPrediction of good patterns for future sales using image recognition
Prediction of good patterns for future sales using image recognition
 
Using data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local governmentUsing data to fight corruption: full budget transparency in local government
Using data to fight corruption: full budget transparency in local government
 
Geospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and ClimateGeospatial Analysis and Open Data - Forest and Climate
Geospatial Analysis and Open Data - Forest and Climate
 

Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic

  • 1. Đorđe Nedeljković, Faculty of Civil Engineering, teaching assistant Department of construction project management Application of Text Mining and graph database on civil engineering projects
  • 2. Predmet istraživanja - Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz nestruktuiranih/polustruktuiranih dokumenata sa građevinskih projekata - Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom - Kompleksniji zadaci – loši rezultati, potreban novi feature vector
  • 3. Sadržaj - Građevinski projekti / tehnički dokumenti - Postojeća rešenja - Predloženi model - Pretpostavke - Mere asocijacije - Reprezentacija detektovanih ključnih fraza - Povezivanje značajnih fraza na osnovu semantičke bliskosti - Pravila za izdvajanje koncepata i relacija - Primeri - Zaključak
  • 4. Investicioni projekat (građevinski, arhitektonski) - Za razliku od projekata u opštem smislu, izgradnja, rekonstrukcija, modifikacija i opremanje investicionih objekata su uvek u direktnoj vezi sa građevinarstvom kao privrednom granom - Kompleksan tehničko-tehnološki, organizacioni, finansijski i pravni poduhvat, koji se sastoji od skupa koordinisanih i kontrolisanih aktivnosti sa jasno definisanim početkom i krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili opremanje objekta ili objekata koji su potrebni vlasniku (investitoru)
  • 5. Investicioni projekat - specifičnosti - Složen - Unikatan - Na više lokacija - Dugotrajan - Veliki broj učesnika - Razuđenost procesa - Važnost klimatskih uslova - Imovinsko-pravni problemi
  • 6. Dokumenti na građevinskom projektu - Pored tehničkih crteža i proračuna, značajan korpus tekstualnih dokumenata, (posebno u fazi realizacije projekta): Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi... - Veliki broj učesnika sa različitim poslovnim procesima i stepenom ICT zrelosti Mane Prednosti Statički, neinformativni sadržaj (zaglavlja, formulari, itd.) Konzistentna struktura Domenski žargon, skraćenice Manje višeznačnih jezičkih konstrukcija (polisemija, metonimija, itd.) Dužina, više tema Sadržaj na različitim jezicima (često na nivou rečenice)
  • 7. Trendovi na domaćem tržištu - Alati koji se najčešće koriste za obradu podataka: Programi za rad sa tabelama - Prepreke za prelazak na napredniji alat za obradu podataka: Nekompatibilnost sa postojećim poslovnim procesima Podaci su u neodgovarajućem formatu za pretragu i analizu - Prepreke za optimalno korišćenje nestruktuiranih podataka u procesu donošenja odluka: Značajni podaci se nalaze na različitim mestima
  • 8. Postojeća rešenja za pretragu, izdvajanje, analiziranje i vizuelizaciju - Ručno obeležavanje, rad sa prethodno definisanim formama - Information exctraction, Ontology based, Semantic annotation - Document management system - Enterprise search - BI applications - Sales enablement software - Content management system - Enterprise resource planning
  • 9. Predloženi model - hipoteze - Robusnost na nedostatak NLP resursa, podrška za više jezika Izdvajanje ključnih fraza zasnovano na merama asocijacije reči - Transferabilnost na različite domene sa minimalnim trudom eksperta za konfiguraciju sistema prethodnim znanjem Mogućnost definisanja prethodnog znanja kroz resurs fajlove i zadata pravila
  • 10. Inicijalno izdvajanje značajnih fraza - Značajne fraze (ZF) kao par susednih reči - Informativnije od pojedinačnih reči - Mere za određivanje verovatnoće zajedničkog pojavljivanja reči x i y u paru (x,y) - Isti par može biti drugačije rangiran za različite mere - Pojedinačno, mere preferiraju parove reči sa određenim kombinacijama frekvencija - Kombinovanje najbolje rangiranih parova za različite mere
  • 11. Mere asocijacije reči PMI (Church and Hanks 1989) log 𝑓(𝑥, 𝑦) 𝑓 𝑥 ∗ 𝑓(𝑦)/𝑊 PMIsig (Washtell and Markert 2009) PMI∗ min (𝑓 𝑥 , 𝑓 𝑦 ) sPMId (Damani and Ghonge 2013) log 𝑑 𝑥, 𝑦 𝑑 𝑥) ∗ 𝑑(𝑦 /𝐷 + max 𝑑 𝑥 , 𝑑 𝑦 ∗ ln 𝛿 −2 Dice (Dice 1945) 2𝑓(𝑥, 𝑦) 𝑓 𝑥 + 𝑓(𝑦) G2 (Dunning 1993) 2 𝑓 𝑥, 𝑦 log 𝑓 𝑥, 𝑦 𝑃 𝑓 𝑥 𝑓 𝑦 + 𝑓 𝑥, 𝑦 log 𝑓 𝑥, 𝑦 𝑃 𝑓 𝑥 𝑓 𝑦
  • 12. Natural language processing (NLP) resursi - Detektor jezika - Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama - Lemmatizer - Svođenje reči na kanonski oblik, kompaktniji rečnik - Part-of-speach tagger - Klasifikacija reči, dozvoljene kombinacije
  • 13. Redukcija neinformativnog sadržaja - Uvećan skor za parove reči u neinformativnim delovima teksta - Česti parovi reči u istom kontekstu – šum - Parovi reči u različitim kontekstima – informativne ZF - Informativnost para reči – entropija skupa string reprezentacije svih pojavljivanja - Korigovanje skora dobijenog merama asocijacije
  • 14. Uspostavljanje relacija - Domenski nezavisan pristup – relacije između ZF na osnovu kontekstualne sličnosti - Mera - Jaccard indeks za skupove paragrafa/rečenica - Relacije with, always_under, always_with |Pki ∩ Pkj | | Pki ∪ Pkj | ≥ t ∈ 0,1 - Grupisanje ZF od dve reči povezanih always_with relacijom (Bron-Kerbosch algoritam) Pki Pkj Pki Pkj Pki Pkj always_with
  • 15. Graf značajnih fraza/dokumenata - Značajne_fraze i dokumenti kao čvorovi grafa - Automatski generisan - Parametari ekstrakcije definišu strukturu
  • 16. Definisanje dodatnih koncepata i relacija - Automatska detekcija obrazaca u tekstu Regularni izrazi - datum, novac - Struktura dokumenata: Zapisnici sa sastanaka - osoba, kompanija Predmet i predračun - pozicija_rada Work breakdown structure, gantogram – aktivnost, faza - ZF koje ispunjavaju zadati uslov konstruktivni_elementi, materijali - Relacije: osoba radi_za kompanija sastanak održan datum osoba akcija ZF
  • 17. Primeri upita - Interakcija osoba na projektu (pojavljivanje u istom kontekstu)
  • 18. Primeri upita - Osobe koje su se najčešće pojavljivale zajedno, sa kompanijama za koje rade
  • 19. Primeri upita - Značajne_fraze (materijali) koje su u vezi sa konkretnom osobom i dokumenti u kojima se pojavljuju
  • 20. Primeri upita - Dokumenti (sastanci) i datumi održavanja - U dokumentima sadržan datum budućeg sastanka
  • 21. Zapisnici sa sastanaka (minutes of meeting) - Važan dokument - dinamika realizacije projekta - Opšte prihvaćena/sistematizovana struktura učesnik (inicijali), kompanija, uloga, agenda, diskusija, odgovornost, rok - Obrasci diskusije Osoba akcija ... ZF ... ZF... Osoba Kompanija akcija ... ZF ... ZF... veznik ... Osoba akcija Osoba ... ZF ... ZF ... akcija ... Uloga akcija ... ZF ... ZF ...
  • 22. Zapisnici – primeri upita - Osoba promised ... ZF ... ZF... , sa dokumentima
  • 23. Zapisnici – primeri upita Meeeting held added agreed asked discussed noticed promised reminded replied required said suggested 06-11-13 1 1 2 1 5 14-11-13 2 3 1 6 2 29-11-13 2 2 4 6 2 2 05-12-13 1 12 12-12-13 2 2 1 18-12-13 4 1 1 1 15-01-14 2 1 4 22-01-14 3 5 4 1 2 4 2 2 7 11 29-01-14 2 2 2 9 05-02-14 1 2 4 5 1 2 1 17 26-03-14 10 3 3 8 2 11 08-04-14 1 4 2 3 12 27-05-14 6 09-06-14 2 2 6 1 11 total 24 18 12 8 10 16 20 16 8 103 15 - Sumarni rezultat za obrazac osoba akcija ... ZF ... ZF... za konkretnu osobu
  • 24. Zaključak (SW) • Nezavisnost u odnosu na jezik • Izdvajanje ključnih fraza na bazi entropije • Analiza i vizuelizacija moguća bez prethodno definisane reprezentacije domenskog znanja • Nema potrebe za menjanjem postojećih poslovnih procesa • Integracija fragmentisanih podataka na nivou dokumenta • Lošija performansa bez NLP komponenti • Novi pristup u domenu upravljanja građevinskim projektima • Razdvojeni rečnici značajnih fraza za različite jezike
  • 25. Zaključak (OT) • Veliki udeo nestruktuiranih tekstualnih podataka u projektnoj dokumentaciji • Postprojektna analiza • Upotreba ML tehnika za poboljšanje performansi i nove funkcionalnosti (klasifikacija, klastering, detekcija događaja,...) • Network analysis (SNA, Link analysis, Centrality measures) • Teškoća da se proceni uticaj na proces donošenja odluka • Prava pristupa nad informacijama iz više dokumenata • Definisanje pravila za izdvajanje novog znanja

Editor's Notes

  1. Dobro jutro svima, moje ime je Djordje Nedeljkovic, student doktorskih studija I asistent na gradjevinskom fakultetu Univerziteta u Beogradu. Pre nego sto formalno zapocnem sa pricom, mala digresija – kazu da je dobra praksa da se autor potrudi i prezentaciju prozme sa malo duhovitih momenata kako bi se ljudi opustili I razbila monotonija. Ja necu morati da se trudim oko toga jer nosim fiksnu protezu koja ce sama pobrinuti da bude saljivih momenata tokom prezentacije. Ovo je ujedno I izvinjenje za neke reci koje ce možda iskociti, posebno ako imaju vise suglasnika. Na prvi pogled je nelogicno sto se u naslovu ne pominje koji problem se resava, nego se navodi sta se koristi da bi se postigao cilj. A taj cilj na kome radi tim sa gradj fakulteta na celu sa prof MK je da se iskoristi velika kolicina znanje koje je za sada uslovno receno skriveno u dokumentima sa gradj projekta.
  2. Formalno, cilj je da se definise model koji ce omoguciti efikasnu pretragu, izdvajanje, analizu I vizuelizaciju znanja iz nestruk I polustruk dok sa gradj projekta.  Medjutim, ono sto je u ovoj formulaciji moze da bude problematicno I zbog cega ona nije naslov prezentacije je rec znanje. Naime, postoje razlicite definicije, razliciti pragovi koji se moraju preskociti da bi neko mogao da tvrdi da operise na nivou znanja.  Posto ima sasvim dovoljno tema o kojima moze da se prica I pre nivoa znanja, danas se fokusiramo na motive istrazivanja, na samu prirodu gradj dokumentacije, na tehnike koje su koriscene da se nestruktuirani sadrzaj delimicno uredi I na koriscenje gbp za reprezentaciju dobijenih rezultata. Mali uvod - kako je sve pocelo I sta je bio inicijalni motiv za istrazivanje? S obzirom se na katedri bavimo primenom data mininga I masinskim ucenjem u domenu gradjevinarstva, pre nekih god I po dana kolege sa fakulteta su nam dostavile korpus dokumenata vezanih za izmene ugovorenih radova na jednom kompleksnom medjunarodnom projektu.
  3. Danas ce biti izlozen rezultati tog istrazivanja   Prvo ce biti prikazane karaktersitike gradj projekata i dokumentacije u domenu gradj industrije. Zatim sledi pregled postojecih pristupa za izdvajanje i analizu znanja iz tekstualnih izvora.   Kada se ogranicenja I potrebe korisnika na trzistu, moze se objasniti struktura predlozenog modela. Na kraju ce biti prikazani primeri konkretnih rezultata koji bi se dobili u radu sa ovakvom reprezentacijom, kao I diskusija o predlozenom resenju.
  4. Kada se govori o investicionim projektima, podrazumeva se realizacija niza aktivnosti, od same ideje o određenom investicionom dobru, preko izrade predinvesticionih studija, planske i projektne dokumentacije do ugovaranja, izgradnje, opremanja, obuke kadrova i puštanja objekta u eksploataciju. Navedeni spisak aktivnosti je samo jedan deo života investicionog objekta. Nije redak slučaj da se dopunjuje i aktivnostima koje su van tradicionalnih okvira definisanih za oblast građevinarstva, kao što su, na primer, aktivnosti na obezbeđenju neophodnih finansija za izgradnju i opremanje, transfer tehnologije koja se koristi u objektu, uspostavljanje raznovrsnih trgovinskih aranžmana, itd.
  5. složenost – veliki broj raznovrsnih aktivnosti tokom realizacije projekta unikatnost – svaki građevinski proizvod je unikatan, a to uzrokuje nemogućnost formiranja jedinstvenih cena na jednoj ili više lokacija, ponekad značajno međusobno udaljenih, istovremeno funkcioniše više proizvodnih linija, na kojima se izvode raznovrsne aktivnosti angažovan je veliki broj učesnika, od firmi, pojedinaca, do pojedinih gradskih i državnih ustanova i komunalnih preduzeća razuđenost procesa – pokretač i finansijer posla - investitor može da razdvoji fazu projektovanja od faze izvođenja budućeg objekta, Time se posao na realizaciji projekta dodatno komplikuje, a broj učesnika povećava značajan deo aktivnosti ostvaruje se na otvorenom prostoru, podložnost klimatskim uticajima – sezonski karakter objekti se često grade u urbanizovanim područjima, zato se ističe važnost pravovremenog i potpunog rešavanja imovinsko-pravnih problema, obezbeđivanja uslova za projektovanje od komunalnih preduzeća i inspekcijskih organa, dobijanja saglasnosti na projektovanu dokumentaciju, itd.