SlideShare a Scribd company logo
Görsel Veri Madenciliği’nde 
    bir Vaka Çalışması: 
   ÖSS Verilerinin Analizi 




Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu 
               Sabancı Üniversitesi 
     Mühendislik ve Doğa Bilimleri Fakültesi 
          Orhanlı, Tuzla, Istanbul, 34956             1 
Sunum Planı 
•  Veri Madenciliği ve Bilgi Görselleştirmesi 
•  “Boyutlandırılabilir Simgeler” yaklaşımı 
•  Literatür 
•  Eniyileme Modeli 
•  Yazılım Uygulaması 
•  Vaka Çalışması: ÖSS Verilerinin Analizi 
•  Gelecekteki Çalışmalar

                                           2 
•  Günümüzde her sahada üretilen 
   veri miktarı bilişim sistemlerinin 
   gelişmesiyle birlikte katlanarak 
   artmaktadır. 

•  Geçmişte 
  –  Veri toplamak önemli miktarda vakit 
     gerektiren bir çalışma iken 
•  Günümüzde 
  –  Otomatik olarak toplanmakta olan 
     verilerin incelenmesi daha çok önem 
     kazanmaktadır.                         3 
Veri Madenciliği 
                     (Data Mining) 

•  Temel hedef: 
  –  Üretilmekte olan verilerin anlaşılmasını, 
     yorumlanmasını ve ilgili kuruma (iş dünyası, 
     eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını 
     sağlamaktır.




                                                         4 
Veri Madenciliği 
•  Algoritma ağırlıklı matematiksel ve 
   istatistiksel metodlar içeren çalışmalar 
   oldukça geniş bir literatür oluşturmaktadırlar. 
•  Ne yazık ki bu çalışmalar –özellikle iş 
   dünyasında­ istenen uygulanma seviyesine 
   ulaşmamıştır. 
•  Bu metodların bir eksikliği sadece 
   önceden belirlenebilecek tarzda 
   öngörüler oluşturulmasıdır. 
•  Bir başka eksikliği ise son kullanıcıların 
   anlamasının imkansız olduğu 
   karmaşık algoritmalar kullanıyor olmalarıdır. 5 
Görsel Veri Madenciliği 
                        (Visual Data Mining) 
           (Bilgi Görselleştirmesi) 
                    (Information Visualization) 

•  Bilgisayar biliminin özellikle son 15 yılda 
   önem kazanmış bir sahasıdır. 

•  1990 öncesinde verilerin grafiksel olarak 
   incelenmesi dönük yapılan çalışmalar... 

•  1990 sonrasında 
    –  Bilgisayarların hafıza, bilgi işleme ve 
       grafiksel ara birim (GUI) boyutunda 
       gelişmeleri 
    –  Verilerin daha kolay toplanabilir hale 
       gelmesi ile 
•  daha da olgunlaşmış ve bugünkü 
   seviyesine ulaşmıştır.                          6 
Görsel Veri Madenciliği 
•  Amaç: 
  – Özellikle çok­boyutlu­ verilerin görsel 
    olarak grafiklerle sunulması yoluyla 
    •  Eldeki verilerden bilgiye ulaşmak 
    •  Bu bilgilerde saklı duran önemli noktaları açığa 
       çıkarmaktır. 
•  Bu analiz sürecinde insan algılaması 
   ve insan­bilgisayar etkileşimi önem 
   kazanmaktadır.
                                                       7 
Görsel Veri Madenciliği 
•  Verilerin görüntüsünü 
   algılayan ve ilginç öngörüler 
   bulmaya çalışan analist 
   karmaşık algoritmaları 
   anlamak zorunda değildir. 

•  Kendisine sunulan görsel 
   etkileşim imkanları ile 
   dilediği grafikleri dilediği 
   parametrelerle dinamik 
   olarak çizdirerek görsel 
   sorgular yapabilir.              8 
Bu Sunumda... 
•  Görsel Veri Madenciliği’nde sıkça rastlanan 
   bir yaklaşımı, simge (ikon) bazlı 
   görselleştirmeyi esas alarak geliştirilen bir 
   görselleştirme yaklaşımı ve bunun gerçek bir 
   veri üzerinde uygulaması sunulacaktır.




                                                9 
“Boyutlandırılabilir Simgeler” 
                 (Sizeable Icons) 

•  Kategorik bir grup alan içeren ve sayısal bir 
   ya da daha çok alan içeren veriler için 
   uygulanabilmektir.




                                                    10 
•  Bu yaklaşımda kategorik değişkenin 
   farklı değerlerinin her biri bir kutu (box) 
   olarak gösterilmekte, 
•  Her bir kutunun içi o değeri taşıyan 
   elemanları simgeleyen renkli kare 
   simgelerle (icons) doldurulmaktadır. 

•  Kare simgelerin rengi sayısal bir 
   değişkenin değerini göstermektedir.
                                             11 
Literatür 
•  Keim (2002): Bilgi görselleştirmesi için 
   sınıflandırma: 
  – Görselleştirilecek veri tipi 
  – Görselleştirme metodu 
  – Etkileşim (interaction) ve çarpıtma 
    (distortion) tekniği 
•  Web Kaynakları 
    http://iv.homeunix.org/ 
    http://otal.umd.edu/Olive/

                                           12 
Literatür: 
     Simge Bazlı Görselleştirme 
             (Icon­based Visualization) 

•  Sun (2003): Üretim verilerinin 
   görselleştirilmesi 
  –  Standart bir görsel tasarımın yan yana kutularda 
     kullanılması 
•  Beddow (1990): Gezegenlerin manyetik 
   etkinliklerinin 13 boyutlu verisi 
•  Hearst (1995): Arama terimlerinin 
   dokümanlar içinde dağılımı 

•  Ward (2002): Simge bazlı görselleştirme 
   literatürünün taraması                                13 
Literatür: 
Boşluk Dolduran Görselleştirme 
             (Space­filling Visualization) 

•  Mozaik gösterim (Mosaic display) (Spence, 
   2001, s20­23, s48­49) 
  –  Kutu boyutları her bir değere sahip kayıt sayısını 
     gösterir. 
•  Ağaç­haritası (Treemap) (Johnson ve 
   Shneiderman, 1991) 
  –  Hiyerarşik veriler tüm ekranı kaplayacak şekilde 
     görüntülenebilir. 
•  Piksel bazlı görselleştirme (Pixel­based 
   visualization) (Keim, 2002) 
  –  Ekrandaki herbir piksel veritabanındaki bir kaydı 
     görüntüleyebilir. Böylece 1 milyona yakın kayıt 
     görüntülenebilir.                                  14 
Literatür: 
İnsan Gruplarının Görselleştirilmesi 
 •  Bir insan grubunun gösterimi (Spence, 
    2001, s20­23, s48­49) 
 •  Sosyal bir ağ (social network) oluşturan 
    bir insan grubunun gösterimi (Xiong ve 
    Donath, 1999) 
 •  Hiyerarşik bir yapı gösteren bir insan 
    grubunun gösterimi (Robertson vd., 
    1991)

                                           15 
•  Her bir küme bir kutu olarak gösterilmekte... 
•  Her bir eleman renkli bir simge olarak 
   gösterilmektedir. 

•  Kutular gruplandıran değişkenin (partitioning 
   attribute) farklı değerlerini taşır. 
•  Kare simgelerin rengi sayısal renklendiren 
   değişkenin (coloring attribute) değerini 
   gösterir. 
  –  Sarı: En büyük değer 
  –  Siyah: En küçük değer

                                                16 
(h) 
          x  = 4




s = 50 
piksel 




                   17 
Eniyileme Modeli 
  (Optimization Model) 
     En önemli değişkenler: 
     s : her bir simgenin kenar uzunluğu 
      (h) 
     x  : her bir kutudaki yatay simge sayısı




                                         18 
Yazılım Uygulaması 
•  Java programlama dili, 
•  Eclipse Bütünleşik Geliştirme Ortamı 
   ( http://www.eclipse.org ) 
   kullanılmıştır. 
•  Veriler bir MS Access dosyasında yer 
   almakta, ODBC bağlantısı ile SQL sorguları 
   yapılmaktadır. 

•  Kullanıcı Java, SQL ya da MS Access 
   bilmeden grafikler çizdirebilmektedir.
                                                 19 
Vaka Çalışması 
•  2004 Öğrenci Seçme Sınavı’nda 
   (ÖSS) EA ve SAY ilk 5000’e giren 
   5965 öğrencinin verileri: 
  – Lise İsmi 
  – Lise Tipi 
  – Yerleştirildiği Üniversite 
  – Yerleştirildiği Bölüm 
  – Sayısal Puanı 
  – Eşit Ağırlıklı Puanı
                                       20 
Genel Öngörüler 
  (General Insights)




                       21 
Lise Kıyaslaması 
   (Benchmarking)




                    22 
İlişki Yönetimi 
(Relationship Management)




                            23 
Gelecekteki Çalışmalar 
•  Şu anda yapılamayan analizleri 
   yapmaya olanak tanıyacak 
   gösterimlerin geliştirilmesi ve 
   uygulanması 
  – Örn: ÖSS verilerinde yıldan yıla 
    değişimlerin analizi 
•  Kullanıcının etkileşimli sorgular 
   yapabilmesi

                                        24 
Teşekkürler... 
  Sorular?




                  25 

More Related Content

Viewers also liked

Application Of Local Search Methods For Solving A Quadratic Assignment Probl...
Application Of Local Search Methods For Solving  A Quadratic Assignment Probl...Application Of Local Search Methods For Solving  A Quadratic Assignment Probl...
Application Of Local Search Methods For Solving A Quadratic Assignment Probl...
ertekg
 
Depolama Sistemleri
Depolama SistemleriDepolama Sistemleri
Depolama Sistemleri
ertekg
 
Teaching Warehousing Concepts through Interactive Animations and 3-D Models
Teaching Warehousing Concepts through Interactive Animations  and 3-D ModelsTeaching Warehousing Concepts through Interactive Animations  and 3-D Models
Teaching Warehousing Concepts through Interactive Animations and 3-D Models
ertekg
 
Simulation Modeling For Quality And Productivity In Steel Cord Manufacturing
Simulation Modeling For Quality And Productivity In Steel Cord ManufacturingSimulation Modeling For Quality And Productivity In Steel Cord Manufacturing
Simulation Modeling For Quality And Productivity In Steel Cord Manufacturing
ertekg
 
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
ertekg
 
Visual and analytical mining of transactions data for production planning f...
Visual and analytical mining of transactions data  for production planning  f...Visual and analytical mining of transactions data  for production planning  f...
Visual and analytical mining of transactions data for production planning f...
ertekg
 
Optimizing Waste Collection In An Organized Industrial Region: A Case Study
Optimizing Waste Collection  In An Organized Industrial Region: A Case StudyOptimizing Waste Collection  In An Organized Industrial Region: A Case Study
Optimizing Waste Collection In An Organized Industrial Region: A Case Study
ertekg
 
Rule-based expert systems for supporting university students
Rule-based expert systems for supporting university studentsRule-based expert systems for supporting university students
Rule-based expert systems for supporting university students
ertekg
 
Compiere kurulumu
Compiere kurulumuCompiere kurulumu
Compiere kurulumu
ertekg
 
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
ertekg
 
Text Mining with RapidMiner
Text Mining with RapidMinerText Mining with RapidMiner
Text Mining with RapidMiner
ertekg
 
An Open Source Java Code For Visualizing Supply Chain Problems
An Open Source Java Code For Visualizing Supply Chain ProblemsAn Open Source Java Code For Visualizing Supply Chain Problems
An Open Source Java Code For Visualizing Supply Chain Problems
ertekg
 
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
ertekg
 
Supplier and Buyer Driven Channels in a Two-Stage Supply Chain
Supplier and Buyer Driven Channels in a  Two-Stage Supply ChainSupplier and Buyer Driven Channels in a  Two-Stage Supply Chain
Supplier and Buyer Driven Channels in a Two-Stage Supply Chain
ertekg
 
Modelling the supply chain perception gaps
Modelling the supply chain perception gapsModelling the supply chain perception gaps
Modelling the supply chain perception gaps
ertekg
 
Optimizing the electric charge station network of EŞARJ
Optimizing the electric charge station network of EŞARJOptimizing the electric charge station network of EŞARJ
Optimizing the electric charge station network of EŞARJ
ertekg
 
Re-mining Positive and Negative Association Mining Results
Re-mining Positive and Negative Association Mining ResultsRe-mining Positive and Negative Association Mining Results
Re-mining Positive and Negative Association Mining Results
ertekg
 
A Framework for Automated Association Mining Over Multiple Databases
A Framework for Automated Association Mining Over Multiple DatabasesA Framework for Automated Association Mining Over Multiple Databases
A Framework for Automated Association Mining Over Multiple Databases
ertekg
 
A Taxonomy Of Logistics Innovations
A Taxonomy Of Logistics InnovationsA Taxonomy Of Logistics Innovations
A Taxonomy Of Logistics Innovations
ertekg
 
Risk Factors and Identifiers for Alzheimer’s Disease: A Data Mining Analysis
Risk Factors and Identifiers for Alzheimer’s Disease:  A Data Mining AnalysisRisk Factors and Identifiers for Alzheimer’s Disease:  A Data Mining Analysis
Risk Factors and Identifiers for Alzheimer’s Disease: A Data Mining Analysis
ertekg
 

Viewers also liked (20)

Application Of Local Search Methods For Solving A Quadratic Assignment Probl...
Application Of Local Search Methods For Solving  A Quadratic Assignment Probl...Application Of Local Search Methods For Solving  A Quadratic Assignment Probl...
Application Of Local Search Methods For Solving A Quadratic Assignment Probl...
 
Depolama Sistemleri
Depolama SistemleriDepolama Sistemleri
Depolama Sistemleri
 
Teaching Warehousing Concepts through Interactive Animations and 3-D Models
Teaching Warehousing Concepts through Interactive Animations  and 3-D ModelsTeaching Warehousing Concepts through Interactive Animations  and 3-D Models
Teaching Warehousing Concepts through Interactive Animations and 3-D Models
 
Simulation Modeling For Quality And Productivity In Steel Cord Manufacturing
Simulation Modeling For Quality And Productivity In Steel Cord ManufacturingSimulation Modeling For Quality And Productivity In Steel Cord Manufacturing
Simulation Modeling For Quality And Productivity In Steel Cord Manufacturing
 
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
Encapsulating And Representing The Knowledge On The Evolution Of An Engineeri...
 
Visual and analytical mining of transactions data for production planning f...
Visual and analytical mining of transactions data  for production planning  f...Visual and analytical mining of transactions data  for production planning  f...
Visual and analytical mining of transactions data for production planning f...
 
Optimizing Waste Collection In An Organized Industrial Region: A Case Study
Optimizing Waste Collection  In An Organized Industrial Region: A Case StudyOptimizing Waste Collection  In An Organized Industrial Region: A Case Study
Optimizing Waste Collection In An Organized Industrial Region: A Case Study
 
Rule-based expert systems for supporting university students
Rule-based expert systems for supporting university studentsRule-based expert systems for supporting university students
Rule-based expert systems for supporting university students
 
Compiere kurulumu
Compiere kurulumuCompiere kurulumu
Compiere kurulumu
 
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
Design Requirements For a Tendon Rehabilitation Robot: Results From a Survey ...
 
Text Mining with RapidMiner
Text Mining with RapidMinerText Mining with RapidMiner
Text Mining with RapidMiner
 
An Open Source Java Code For Visualizing Supply Chain Problems
An Open Source Java Code For Visualizing Supply Chain ProblemsAn Open Source Java Code For Visualizing Supply Chain Problems
An Open Source Java Code For Visualizing Supply Chain Problems
 
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
Competitive Pattern-Based Strategies under Complexity: The Case of Turkish Ma...
 
Supplier and Buyer Driven Channels in a Two-Stage Supply Chain
Supplier and Buyer Driven Channels in a  Two-Stage Supply ChainSupplier and Buyer Driven Channels in a  Two-Stage Supply Chain
Supplier and Buyer Driven Channels in a Two-Stage Supply Chain
 
Modelling the supply chain perception gaps
Modelling the supply chain perception gapsModelling the supply chain perception gaps
Modelling the supply chain perception gaps
 
Optimizing the electric charge station network of EŞARJ
Optimizing the electric charge station network of EŞARJOptimizing the electric charge station network of EŞARJ
Optimizing the electric charge station network of EŞARJ
 
Re-mining Positive and Negative Association Mining Results
Re-mining Positive and Negative Association Mining ResultsRe-mining Positive and Negative Association Mining Results
Re-mining Positive and Negative Association Mining Results
 
A Framework for Automated Association Mining Over Multiple Databases
A Framework for Automated Association Mining Over Multiple DatabasesA Framework for Automated Association Mining Over Multiple Databases
A Framework for Automated Association Mining Over Multiple Databases
 
A Taxonomy Of Logistics Innovations
A Taxonomy Of Logistics InnovationsA Taxonomy Of Logistics Innovations
A Taxonomy Of Logistics Innovations
 
Risk Factors and Identifiers for Alzheimer’s Disease: A Data Mining Analysis
Risk Factors and Identifiers for Alzheimer’s Disease:  A Data Mining AnalysisRisk Factors and Identifiers for Alzheimer’s Disease:  A Data Mining Analysis
Risk Factors and Identifiers for Alzheimer’s Disease: A Data Mining Analysis
 

More from ertekg

Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
ertekg
 
Industrial Benchmarking through Information Visualization and Data Envelopmen...
Industrial Benchmarking through Information Visualization and Data Envelopmen...Industrial Benchmarking through Information Visualization and Data Envelopmen...
Industrial Benchmarking through Information Visualization and Data Envelopmen...
ertekg
 
A Tutorial On Crossdocking
A Tutorial On CrossdockingA Tutorial On Crossdocking
A Tutorial On Crossdocking
ertekg
 
Demonstrating Warehousing Concepts Through Interactive Animations
Demonstrating Warehousing Concepts Through Interactive AnimationsDemonstrating Warehousing Concepts Through Interactive Animations
Demonstrating Warehousing Concepts Through Interactive Animations
ertekg
 
A Framework for Visualizing Association Mining Results
A Framework for Visualizing  Association Mining ResultsA Framework for Visualizing  Association Mining Results
A Framework for Visualizing Association Mining Results
ertekg
 
Application of the Cutting Stock Problem to a Construction Company: A Case Study
Application of the Cutting Stock Problem to a Construction Company: A Case StudyApplication of the Cutting Stock Problem to a Construction Company: A Case Study
Application of the Cutting Stock Problem to a Construction Company: A Case Study
ertekg
 
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
ertekg
 
Dairy Logistics: A Tutorial
Dairy Logistics: A TutorialDairy Logistics: A Tutorial
Dairy Logistics: A Tutorial
ertekg
 
Innovation in Product Form And Function: Customer Perception Of Their Value
Innovation in Product Form And Function: Customer Perception Of Their ValueInnovation in Product Form And Function: Customer Perception Of Their Value
Innovation in Product Form And Function: Customer Perception Of Their Value
ertekg
 
Developing Competitive Strategies in Higher Education through Visual Data Mining
Developing Competitive Strategies in Higher Education through Visual Data MiningDeveloping Competitive Strategies in Higher Education through Visual Data Mining
Developing Competitive Strategies in Higher Education through Visual Data Mining
ertekg
 

More from ertekg (10)

Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
Competitiveness of Top 100 U.S. Universities: A Benchmark Study Using Data En...
 
Industrial Benchmarking through Information Visualization and Data Envelopmen...
Industrial Benchmarking through Information Visualization and Data Envelopmen...Industrial Benchmarking through Information Visualization and Data Envelopmen...
Industrial Benchmarking through Information Visualization and Data Envelopmen...
 
A Tutorial On Crossdocking
A Tutorial On CrossdockingA Tutorial On Crossdocking
A Tutorial On Crossdocking
 
Demonstrating Warehousing Concepts Through Interactive Animations
Demonstrating Warehousing Concepts Through Interactive AnimationsDemonstrating Warehousing Concepts Through Interactive Animations
Demonstrating Warehousing Concepts Through Interactive Animations
 
A Framework for Visualizing Association Mining Results
A Framework for Visualizing  Association Mining ResultsA Framework for Visualizing  Association Mining Results
A Framework for Visualizing Association Mining Results
 
Application of the Cutting Stock Problem to a Construction Company: A Case Study
Application of the Cutting Stock Problem to a Construction Company: A Case StudyApplication of the Cutting Stock Problem to a Construction Company: A Case Study
Application of the Cutting Stock Problem to a Construction Company: A Case Study
 
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
Benchmarking The Turkish Apparel Retail Industry Through Data Envelopment Ana...
 
Dairy Logistics: A Tutorial
Dairy Logistics: A TutorialDairy Logistics: A Tutorial
Dairy Logistics: A Tutorial
 
Innovation in Product Form And Function: Customer Perception Of Their Value
Innovation in Product Form And Function: Customer Perception Of Their ValueInnovation in Product Form And Function: Customer Perception Of Their Value
Innovation in Product Form And Function: Customer Perception Of Their Value
 
Developing Competitive Strategies in Higher Education through Visual Data Mining
Developing Competitive Strategies in Higher Education through Visual Data MiningDeveloping Competitive Strategies in Higher Education through Visual Data Mining
Developing Competitive Strategies in Higher Education through Visual Data Mining
 

Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

  • 1. Görsel Veri Madenciliği’nde  bir Vaka Çalışması:  ÖSS Verilerinin Analizi  Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu  Sabancı Üniversitesi  Mühendislik ve Doğa Bilimleri Fakültesi  Orhanlı, Tuzla, Istanbul, 34956 1 
  • 2. Sunum Planı  •  Veri Madenciliği ve Bilgi Görselleştirmesi  •  “Boyutlandırılabilir Simgeler” yaklaşımı  •  Literatür  •  Eniyileme Modeli  •  Yazılım Uygulaması  •  Vaka Çalışması: ÖSS Verilerinin Analizi  •  Gelecekteki Çalışmalar 2 
  • 3. •  Günümüzde her sahada üretilen  veri miktarı bilişim sistemlerinin  gelişmesiyle birlikte katlanarak  artmaktadır.  •  Geçmişte  –  Veri toplamak önemli miktarda vakit  gerektiren bir çalışma iken  •  Günümüzde  –  Otomatik olarak toplanmakta olan  verilerin incelenmesi daha çok önem  kazanmaktadır. 3 
  • 4. Veri Madenciliği  (Data Mining)  •  Temel hedef:  –  Üretilmekte olan verilerin anlaşılmasını,  yorumlanmasını ve ilgili kuruma (iş dünyası,  eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını  sağlamaktır. 4 
  • 5. Veri Madenciliği  •  Algoritma ağırlıklı matematiksel ve  istatistiksel metodlar içeren çalışmalar  oldukça geniş bir literatür oluşturmaktadırlar.  •  Ne yazık ki bu çalışmalar –özellikle iş  dünyasında­ istenen uygulanma seviyesine  ulaşmamıştır.  •  Bu metodların bir eksikliği sadece  önceden belirlenebilecek tarzda  öngörüler oluşturulmasıdır.  •  Bir başka eksikliği ise son kullanıcıların  anlamasının imkansız olduğu  karmaşık algoritmalar kullanıyor olmalarıdır. 5 
  • 6. Görsel Veri Madenciliği  (Visual Data Mining)  (Bilgi Görselleştirmesi)  (Information Visualization)  •  Bilgisayar biliminin özellikle son 15 yılda  önem kazanmış bir sahasıdır.  •  1990 öncesinde verilerin grafiksel olarak  incelenmesi dönük yapılan çalışmalar...  •  1990 sonrasında  –  Bilgisayarların hafıza, bilgi işleme ve  grafiksel ara birim (GUI) boyutunda  gelişmeleri  –  Verilerin daha kolay toplanabilir hale  gelmesi ile  •  daha da olgunlaşmış ve bugünkü  seviyesine ulaşmıştır. 6 
  • 7. Görsel Veri Madenciliği  •  Amaç:  – Özellikle çok­boyutlu­ verilerin görsel  olarak grafiklerle sunulması yoluyla  •  Eldeki verilerden bilgiye ulaşmak  •  Bu bilgilerde saklı duran önemli noktaları açığa  çıkarmaktır.  •  Bu analiz sürecinde insan algılaması  ve insan­bilgisayar etkileşimi önem  kazanmaktadır. 7 
  • 8. Görsel Veri Madenciliği  •  Verilerin görüntüsünü  algılayan ve ilginç öngörüler  bulmaya çalışan analist  karmaşık algoritmaları  anlamak zorunda değildir.  •  Kendisine sunulan görsel  etkileşim imkanları ile  dilediği grafikleri dilediği  parametrelerle dinamik  olarak çizdirerek görsel  sorgular yapabilir. 8 
  • 9. Bu Sunumda...  •  Görsel Veri Madenciliği’nde sıkça rastlanan  bir yaklaşımı, simge (ikon) bazlı  görselleştirmeyi esas alarak geliştirilen bir  görselleştirme yaklaşımı ve bunun gerçek bir  veri üzerinde uygulaması sunulacaktır. 9 
  • 10. “Boyutlandırılabilir Simgeler”  (Sizeable Icons)  •  Kategorik bir grup alan içeren ve sayısal bir  ya da daha çok alan içeren veriler için  uygulanabilmektir. 10 
  • 11. •  Bu yaklaşımda kategorik değişkenin  farklı değerlerinin her biri bir kutu (box)  olarak gösterilmekte,  •  Her bir kutunun içi o değeri taşıyan  elemanları simgeleyen renkli kare  simgelerle (icons) doldurulmaktadır.  •  Kare simgelerin rengi sayısal bir  değişkenin değerini göstermektedir. 11 
  • 12. Literatür  •  Keim (2002): Bilgi görselleştirmesi için  sınıflandırma:  – Görselleştirilecek veri tipi  – Görselleştirme metodu  – Etkileşim (interaction) ve çarpıtma  (distortion) tekniği  •  Web Kaynakları  http://iv.homeunix.org/  http://otal.umd.edu/Olive/ 12 
  • 13. Literatür:  Simge Bazlı Görselleştirme  (Icon­based Visualization)  •  Sun (2003): Üretim verilerinin  görselleştirilmesi  –  Standart bir görsel tasarımın yan yana kutularda  kullanılması  •  Beddow (1990): Gezegenlerin manyetik  etkinliklerinin 13 boyutlu verisi  •  Hearst (1995): Arama terimlerinin  dokümanlar içinde dağılımı  •  Ward (2002): Simge bazlı görselleştirme  literatürünün taraması 13 
  • 14. Literatür:  Boşluk Dolduran Görselleştirme  (Space­filling Visualization)  •  Mozaik gösterim (Mosaic display) (Spence,  2001, s20­23, s48­49)  –  Kutu boyutları her bir değere sahip kayıt sayısını  gösterir.  •  Ağaç­haritası (Treemap) (Johnson ve  Shneiderman, 1991)  –  Hiyerarşik veriler tüm ekranı kaplayacak şekilde  görüntülenebilir.  •  Piksel bazlı görselleştirme (Pixel­based  visualization) (Keim, 2002)  –  Ekrandaki herbir piksel veritabanındaki bir kaydı  görüntüleyebilir. Böylece 1 milyona yakın kayıt  görüntülenebilir. 14 
  • 15. Literatür:  İnsan Gruplarının Görselleştirilmesi  •  Bir insan grubunun gösterimi (Spence,  2001, s20­23, s48­49)  •  Sosyal bir ağ (social network) oluşturan  bir insan grubunun gösterimi (Xiong ve  Donath, 1999)  •  Hiyerarşik bir yapı gösteren bir insan  grubunun gösterimi (Robertson vd.,  1991) 15 
  • 16. •  Her bir küme bir kutu olarak gösterilmekte...  •  Her bir eleman renkli bir simge olarak  gösterilmektedir.  •  Kutular gruplandıran değişkenin (partitioning  attribute) farklı değerlerini taşır.  •  Kare simgelerin rengi sayısal renklendiren  değişkenin (coloring attribute) değerini  gösterir.  –  Sarı: En büyük değer  –  Siyah: En küçük değer 16 
  • 17. (h)  x  = 4 s = 50  piksel  17 
  • 18. Eniyileme Modeli  (Optimization Model)  En önemli değişkenler:  s : her bir simgenin kenar uzunluğu  (h)  x  : her bir kutudaki yatay simge sayısı 18 
  • 19. Yazılım Uygulaması  •  Java programlama dili,  •  Eclipse Bütünleşik Geliştirme Ortamı  ( http://www.eclipse.org )  kullanılmıştır.  •  Veriler bir MS Access dosyasında yer  almakta, ODBC bağlantısı ile SQL sorguları  yapılmaktadır.  •  Kullanıcı Java, SQL ya da MS Access  bilmeden grafikler çizdirebilmektedir. 19 
  • 20. Vaka Çalışması  •  2004 Öğrenci Seçme Sınavı’nda  (ÖSS) EA ve SAY ilk 5000’e giren  5965 öğrencinin verileri:  – Lise İsmi  – Lise Tipi  – Yerleştirildiği Üniversite  – Yerleştirildiği Bölüm  – Sayısal Puanı  – Eşit Ağırlıklı Puanı 20 
  • 22. Lise Kıyaslaması  (Benchmarking) 22 
  • 24. Gelecekteki Çalışmalar  •  Şu anda yapılamayan analizleri  yapmaya olanak tanıyacak  gösterimlerin geliştirilmesi ve  uygulanması  – Örn: ÖSS verilerinde yıldan yıla  değişimlerin analizi  •  Kullanıcının etkileşimli sorgular  yapabilmesi 24