More Related Content
ODP
PDF
Veri Madenciliği ve Makine Öğrenmesi Konularına Giriş PPTX
Big Data / Büyük Veri Nedir? PPTX
Big Data (Büyük Veri) Nedir? PDF
BIG DATA Nedir ve IBM Çözümleri. PPTX
PPT
PPTX
Yapay zeka, Büyük Veri, Bulut Bilişim, Blok Zinciri kısa kısa... Viewers also liked
PPTX
Hadoop,Pig,Hive ve Oozie ile Büyük Veri Analizi PPTX
Hesaplamali Sosyal Bilimler & Veri Gazeteciligi PPTX
(GFS) Google Dosya Sistemi PDF
Exchange Server Migration Senaryoları DOCX
Hi̇le deneti̇mi̇ eği̇ti̇mi̇ PDF
GDG Ankara - Women Tech Makers Etkinliği PDF
Bigdata Nedir? Hadoop Nedir? MapReduce Nedir? Big Data. PPTX
Bilgisayar Destekli Nitel Veri Analizi Yazılımları PDF
BUYUK VERI ILE RISK YONETIMI PDF
Alteryx 2016 Veri Analitigi Ongoruleri PDF
Büyük Veri, Hadoop Ekosistemi ve Veri Bilimi PDF
Büyük Veri ve Risk Yönetimi PDF
Büyük Veride Dikkate Alınması Gereken 4 Sorun | Big Data: Four Problems to Co... PDF
Derin Öğrenme Nedir? - Akademik Bilişim 2016 Sunumu Similar to ÖNCEL AKADEMİ: ÖZEL KONULAR
DOC
ÖNCEL AKADEMİ: ÖZEL KONULAR PDF
Veri işleme üzerine, Hakan Sarıbıyık PDF
makine öğrenmesi sınıflandırma(öğrenmeli öğrenme) yöntemlerinin weka ortamınd... DOCX
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ DOCX
ÖNCEL AKADEMİ: MÜHENDİSLİK BİLİMLERİ PPTX
PPTX
Veri Bilimcinizden Verileri Nasıl İstersiniz? (HBR Guide) PDF
Byk Verinin Karanlk Yz Gnmzde kurulular bu teknoloji.pdf PPTX
DP:900 Azure Data Fundamentals - Temel veri kavramları-01 PPTX
PDF
İlişkisel Veritabanı Sistemleri ve NoSQL PDF
PDF
PPT
PPTX
PDF
super-cheatsheet-artificial-intelligence.pdf PDF
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi PPTX
PDF
Yapay Zeka Güvenliği : Machine Learning & Deep Learning & Computer Vision Sec... PPTX
ai_disease[1].pptx doctorate thesis offer More from Ali Osman Öncel
PPTX
Sismoloji ve Levha Tektoniği – 03. Bölüm: Deprem Mekanizması ve Fay Davranışı PPTX
Sismoloji ve Levha Tektoniği – 02. Bölüm: Dalga Türleri ve Levha Sınırları PPTX
Sismoloji ve Levha Tektoniği – Giriş Sunumu 01 PDF
Topografik ve sismolojik VS30 verilerinin karşılaştırılması; Balıkesir örneğ PDF
PPTX
PPTX
PPTX
PDF
Riskli Yapılar - Çevre ve Şehircilik PPTX
Riskli Yapılar -Çevre ve Şehircilik PPTX
PPTX
PPTX
PPTX
PPTX
PPTX
PPTX
PDF
Kar Kar Geothermal Field Work PDF
PDF
High Resolution Earth's Gravitational Field ÖNCEL AKADEMİ: ÖZEL KONULAR
- 1.
Ama zon: ht t p ://aw s.ama zon.com/federal /
Cent r if uge: info @cent r if ugesyst ems.com
©2014 Alt a mir a Techno l o gies Co r po r at io n
Büyük Veriyi Biliyor Musunuz?
•Bilgiyi ayıklamayı bilgisayarlara öğreterek…
! Bir veya birden fazla «bilgi temsili» içinde bilgi konseptleri tanımlayarak ve bunun üzerinde hem fikir olarak (örn.
Belirli bir mantık, otomatik üretilen mantık, kullanıcı tanımlı etiketler…)
! Bilgi temsillerinin içerisindeki yapılandırılmış veriden anlamsal içeriği haritalandırmak için dönüşümler inşa ederek
! Yapılandırılmamış veriden anlamsal veriyi ayıklamak ve bilgi temsillerinin içerisindeki ayıklanmış veriyi
haritalandırmak için sınıflandırma inşa ederek
! Bir bilgi temsilinin içerisindeki bilgiyi haritalandırmak ve hatta daha anlamsal veri üretmek için ayıklanmış anlamsal
içeriğin üzerine tümevarım uygulamak, kaynaştırmak, ilişki kurmak için mantıksal analizler inşa ederek
•Ve geniş bir ölçekte bunu yaparak…
! Bir problemi parçalar bölerek ve paralel işleyerek (örn. MapReduce)
! Akıllı bilgi indeksleri yaparak, böylece daha hızlı araştırma yapılabilecektir…
! Yüksek performanslı bilgisayarlar kullanarak (HPCs) / diğer hızlı elektronik çözümler (örn. FPGAs, ASICs, Optics)
! Yukarıdakilerin karışımı olan sistemler… (örn. Netezza, YarcData, Next Generation Oracle)
Büyük Veriden Bilgiyi Nasıl Ayıklarız?
•Yapılandırılmış •Yarı-Yapılandırılmış •Akış Verisi
! G P S , uzaydaki yer
bilgisi, izler, bölgeler…
•Yapılandırılmamış
! H a m Metin,
Resim, Video, Ses
•Metaveri
! Veri ile ilgili
yapılandırılmış veri, bir
yerden bir yere
•Geçici Veri
! A n l ı k , zaman
içindeki trentleri ve
olayları içeren veri
•Mekansal Data
•Ve daha birçok…
Büyük Verideki Veri Tipleri Nelerdir?
•9 konuyu ele alarak:
1. Veri İhlalleri
2. Veri Kaybı
3. Hesap Ele Geçirme
4. Güvensiz Uygulamalar
5. Servis Reddi
6. Kötü Amaçlı İçerikler
7. İstismar ve Art Niyetli Kullanım
8. Yetersiz Önlem
9. Paylaşılan Teknolojiler Konusu
•Büyük veri güvenliğini sağlamak için
Büyük veriyi kullanarak
! T o p l a m a & veri aktivitelerini analiz
etme, ağ verisi, denetleme, kaynak,tür, köken
•Ve şunları kullanarak:
! R i s k Yönetimi: ICD 503
! E r i ş i m i kontrolleri, biometrik,
fiziksel güvenlik, cell-level security, akıllı
veri, şifreleme
! Anti-Malware, anti-virus
•Veri kullanım istatistiklerindeki parametreleri tahmin edebiliriz, canlandırabiliriz
! Örn. Gözlemsel çalışmalar yoluyla, veriyi açıklayabilir, ilişkileri araştırabilir, şablonları keşfedebilir, sonuçları öngörebiliriz
! Bazı şans unsurlarını tanıyarak, Önyargılar ve Kafa karışıklığı için doğrulamaya ve sorgulamaya ihtiyacımız vardır!
Seçim eğilimi, ölçme sapması, analiz yanılması, hata, kafa karıştırıcı değişkenleri dikkate almaya ihtiyacımız vardır
•Keşfedilen bilgiye karşı aksiyonlar başlatmak için kuralları uygulayabiliriz
Ayıkladığımız Bilgi ile Ne Yaparız?
Gizlilik.Uyumunden emin olmalı:
–Anayasa 4. Değişiklik
–Elektronik İletişim Gizlilik Kanunu
–Dış İstihbarat Gözetleme Yasası
–Gizlilik Yasası
–Kararname 12333
–ABD Yurtseverlik Yasası
Etik. Göz önünde Bulundurmalı:
1. Kişiliğe saygı ve bilgi rızası
2. İyilik
3. Adalet
4. Kanun ve Kamu Yararına Saygı
• George Mason Üniverisitesi
! GMU hem lisans seviyesinde eğtim hem de
2 günlük kurslar vermektedir
•www.oss4ds.com Büyük Veri
araçları ve Veri Bilimi ile ilgili
bilgiler
! Büyük Veri ve Veri Bilimi ile ilgili açık kaynak
yazılımlar ve destek olabilecek uzmanlara
ulaşabilirsiniz
•www.lumify.io Entegre açık kaynak
analitik platformları keşfedin
! Yapılandırılmış veya yapılandırılmamış veriden
link bağlantıları, bilgi çıkarımını öğren
•www.altamiracorp.com
Büyük Veri uygulamaları
ile ilgili daha fazlasını
öğrenebilirsiniz
•Bu araç öngörüyü nasıl yapar?
! c e v a p soldaki tablodaki algoritma listelerine
bakılmalı
•Araç hangi veri tiplerini analiz
eder?
! ö r . yapılandırılmış, yapılandırılmamış, hibrit
•Potansiyel önyargı ya da kafa
karıştırıcı değişkenleri doğrulama için
uygun mudur?
! ö r . her şeyi sayarak ya da şans
unsurlarını tanıtarak
! e ğ e r değilse, yaptığın bir araç tahminler için
şüpheci olmalı
Öngörü Araçları ile İlgili Sorular Neler?
•Hangi veri tiplerini depolayabiliriz?
! Yapılandırılmış, yapılandırılmamış, ilişkisel,
grafikler, varlıklar…
! B ü y ü k Dosyalar (ör. görüntüler)? Küçük
dosyalar (ör. metin)?
•Veri tabanı içine veri nasıl yerleştirilir?
! Gruplandırma? Yığın?
•Veritabanı maliyetleri ne kadar?
! L i s a n s maliyetleri? Operasyonel maliyetler?
Lisans kısıtları?
•Gerekli donanım nedir?
! E m t i a ? Hissedar?
•Veritabanları nasıl ölçülür?
! Gigabytes? Terabytes? Petabytes? Exabytes?
Yottabytes?
•Veritabanı hata toleransı nedir?
! G e r e k l i m i ?
•Veritabanı kullanarak analiz
gerçekleştirebilir miyiz?
! ö r . MapReduce?
•Sorgular ve analizler için gecikme
süresi nedir?
! ö r . milisaniyeler? günler?
•Belirli özellikler için optimize edilir
mi?
! Hızlı yazma? Hızlı okuma? Kullanım kolaylığı?
•Veritabanı güvenli midir?
! Erişim kontrolü sağlar mı? Akredite edilmiş
midir? Hangiseviyeiçin?
Bir çok tanım…
Ne Tür Görsel Teknikler Vardır?
Tür Fayda Artıları Eksileri
Tablolar Tablo verilerini görüntüleme Basit/Yaygın Kalıplar görünmez
Çizelgeler Sayısal verileri görüntüleme Şablon ve Eğilim Görülür Araştırma zordur
Grafikler Ağları keşfetme Güçlü analiz Karmaşık / Yoğun
Coğrafi görünümler Uzaydaki veriyi görüntüleme Sezgisel haritalar Grafikler yoğun
Geçicigörünümler Zamandaki veriyi görüntüleme Şablon/Trend Bulunur Tüm veri geçici değil
Zamansal-Mekansal Hem uzay hem zaman Güçlü analiz Yaygın değil, Yoğun
3D Görüntüler Karmaşık veri görüntüleme Daha fazla çevreleme Grafikler yoğun
• The Multiple V’s: Görselleştirme, Değer, Sağlayıcıların
yanı sıra Hacim, Hız, Çeşitlilik, Doğrulama açısında da bize
zorlukları beraberinden getiren Veri.
• McKinsey: Büyük veri setleri, yakalama, depolama,
yönetme ve analiz etme de klasik veri setleri yeteneklerinin
ötesindedir.
• Economist: Toplum her zaman olduğundan daha çok
bilgiye sahiptir ve biz daha küçük miktarda sahip
olduğumuzda yapamadıklarımızı basit bir şekilde büyük bir
bilgi yapısına sahip olduğumuzdan yapabiliriz.
Ne Tür İstatistiksel Algoritmalar Vardır?
Algoritma Fayda Artıları Eksileri
Lineer Nokta tahminler sağlama Yüksek hassasiyet, kolay Nitel değil, yüksek iyileştirme
sorumluluğu
Non-Lineer Karmaşık sistemler işleme Daha karmaşık sistemleri
destekler, karmaşık
kararlar
Sınırlı çıkarım, yüksek
denetim gerekli
Bulanık Mantık / Sinirsel Son derece karmaşık, nitel
sistemleri temsil etme
Karmaşık sonuç çıkarımı,
Dağınık veri
Daha düşük hassasiyet,
önyargı
Olasılıklı Dağınık, Olasılık odaklı Karmaşık bağımlılıklar,
bulanık kararlar
Daha düşük hassasiyet,
nokta tahmin yok, gerçek
önyargı görünür
Grafik Verinin temsili Büyük setleri temsil, kolay
etkileşim
Sınırlı çıkarım, sayısal
olarak ilgi çekici
• Wikipedia: Büyük Veri, çok büyük ve karmaşık veri
setlerini toplamak için bir terimdir, geleneksel veri işleme
yöntemleri ile ya da el yordamı veritabanı yönetim
araçlarını kullanarak onu işlemek çok zordur.
• Adam Jacobs, 1010data: Boyutu büyük olan veri bizi
denenmiş ve doğrulanmış mevcut yöntemlerin ötesine
bakmaya zorlar.
• Dan Law, Altamira: Geleneksel veri çözümlerinin
kapasitesini aşan potansiyel değer sahip herhangi bir
veri türüdür.
John Eberhardt, Altamira: Tek bir şekilde
yönetilemeyen her veriyi toplamadır.
Büyük Veri Nedir?
GERÇEKTEN BÜYÜK olabilir!:
–Şu anki Internet trafiği her yıl ~5 ZB (IBM)
–1 Zettabayt = 1 Milyar terabayt
–Visa işlemleri her gün 150 milyon işlem (VISA)
–Kongre kütüphanesinde toplam 3,2 PB veri bulunur
–Youtube’da günlük yüklenen veri 207 TB (2012)
–2020’ye kadar İnternete 50 milyar aygıt bağlantısı (IDC)
–2010’da Facebook’ta 50 milyar fotoğraf
–Her gün 400 milyon Tweet (Washington Post)
–2011’de Seagate 330 EB HDD sattı
–CERN’de LHC (Büyük Hadron Çarpıştırıcısı) her gün 500
EB parçacık çarpışma verisi üretir
–iPhone 5s: 76 Gigaflops=Saniyedeki Kayan Nokta İşlemi
–En hızlı süper bilgisayar: 50 Petaflops=Saniyede yaptığı 1
katrilyon işleme denk gelen bilgisayar terimi
Süreci takip et, şunlara dikkat et:
•Büyük veri araçları:
•Hadoop Ekosisteminin anahtar bileşenlerinin seçimi:
–HDFS (Depolama), MapReduce (Dağınık İşleme), Accumulo (Güvenli veri depolama, İndeksleme)
Kişiler ve ekipler özel yeteneklerin
karışımına sahiptir:
–Onlar "T-shaped” dir, yani birbirleriyle
bağlantılıdırlar (yandaki grafikte)
–Onlar tüm temel veri bilimi alanlarında ustadır
• Bilgisayar Programlama
• Matematiksel ve Analitik Yöntem
• Büyük Veri teknolojileri
• İletişim yetenekleri
–Onlar en az belirli bir alanda derinliğe
sahiptirler (grafikteki dikey özellikler)
Popular veri bilimi araçları:
–R, Python, Mahout, Pandas, Many Others…
Veri Bilimi Nedir?
–Takım yetenekleri
–Problem tanımlama
–Deneysel tasarım
–Başarı/Değerlendirme Kriteri
–Veri, İyileştirme & Kalite
–Çözüm tasarımı
• Altyapı
• Depolama
• Analiz
• Görselleştirme
• Güvenlik
• Gizlilik & Etik
• Bütçe & Planlama
Lineer bir süreç değildir
–Çevik bir yaklaşım dene…
AçıkKaynak
Örnekleri
Özel
ÖrneklerÇatıElement KullanımYeri
Öncelikli Büyük Veri Araçları Nelerdir?
Toplama,
Depolama
ve Çıkarım
Veri
İyileştirme ve
Kalite
GüvenceAnaliz
Değerlendirme
Görselleştirme
Problem
Tanımı ve
Deneysel
Tasarım
İletişim
Kov er se: info @kov er se.comAltamir a: Dan Law , dan.l aw @altamir acor p.com Clouder a: 866-843-7207
Datastax : info @dat asta x .com
IBM: 800-333-6705
MarkLogic: info @mar k logic.com
MongoDB: 866-237-8815
Splunk: 866-438-7758
Yar cdata: 925-264-4700
C h a r l i e G r e e n b a c k e r
Veri Bilimi
İstatistikselAnaliz
VeriMadenciliği
MakineÖğrenme
DoğalDilİşleme
SosyalAğAnalizi
VeriGörselleştirme
vb..
Alan Bilgisi & İletişim Yetenekleri
Dağınık İşleme & Büyük Veri
Matematiksel & Analitik Yöntem
Bilgisayar Programlama
Görselleştirme • Kullanıcı arayüzü
• Web-tabanlı araçlar
• D3js, 3js, Gephi, Ozone • Tableau, Centrifuge,
Visual AnalyCcs
Analiz • Makine öğrenici
• İstatistiksel araçlar
• R, Mahout, Titan, OpenCV,
Lumify, Hive, Pig, Spark
• SAS, SPSS, MapR,
PalanCr
Veri Depo • Data & Metadata
• Kaynak Veri
• İndeksler
• HDFS, Accumulo, MongoDB,
Cassandra, Titan, Neo4j,
MySQL
• Oracle, Marklogic,
YarcData, Teradata
İşleme • Dönüştürme/Norm
alleştirme
• Alma / Akışlar
• İşleme
• Storm, Hadoop/MapReduce • Splunk, SAS, Oracle,
IBM
Altyapı • Planlama,
izleme
• Uygulama
Sistemleri
• Bilgisayarla
r, Ağlar
• Linux, OpenShiW,
OpenStack, Puppet,
Zookeeper, Oozie, HDFS,
KaZa, JBoss, Xymon
• AWS, Azure,
Cloudera, Red Hat,
Rackspace, vendor
specific
Büyük Veri Ne Kadar Büyük?
Büyük Veri Çözümlerini Nasıl Uygularız?
Büyük Veri Güvenliğini Nasıl Sağlarız?
Büyük Veride Etik ve Gizlilik Hakkında?
Daha Fazlasını Öğrenmek İster Misin?
Veritabanları ile İlgili Hangi Soruları Sormalıyız?
! Tablolar, anlamsal
ilişkili veriler
! H i b r i d , örn.
Tablolu belgeler
! A k ı ş , yüksek
hızdaki ağ verileri, filmler