Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ÖNCEL AKADEMİ: ÖZEL KONULAR

318 views

Published on

Büyük Veri

Published in: Education
  • Login to see the comments

ÖNCEL AKADEMİ: ÖZEL KONULAR

  1. 1. Ama zon: h t t p ://aw s.ama zon.com/federal / Cent r if uge: info @cent r if ugesyst ems.com ©2014 Alt a mir a Techno l o gies Co r po r at io n Büyük Veriyi Biliyor Musunuz? •Bilgiyi ayıklamayı bilgisayarlara öğreterek… ! Bir veya birden fazla «bilgi temsili» içinde bilgi konseptleri tanımlayarak ve bunun üzerinde hem fikir olarak (örn. Belirli bir mantık, otomatik üretilen mantık, kullanıcı tanımlı etiketler…) ! Bilgi temsillerinin içerisindeki yapılandırılmış veriden anlamsal içeriği haritalandırmak için dönüşümler inşa ederek ! Yapılandırılmamış veriden anlamsal veriyi ayıklamak ve bilgi temsillerinin içerisindeki ayıklanmış veriyi haritalandırmak için sınıflandırma inşa ederek ! Bir bilgi temsilinin içerisindeki bilgiyi haritalandırmak ve hatta daha anlamsal veri üretmek için ayıklanmış anlamsal içeriğin üzerine tümevarım uygulamak, kaynaştırmak, ilişki kurmak için mantıksal analizler inşa ederek •Ve geniş bir ölçekte bunu yaparak… ! Bir problemi parçalar bölerek ve paralel işleyerek (örn. MapReduce) ! Akıllı bilgi indeksleri yaparak, böylece daha hızlı araştırma yapılabilecektir… ! Yüksek performanslı bilgisayarlar kullanarak (HPCs) / diğer hızlı elektronik çözümler (örn. FPGAs, ASICs, Optics) ! Yukarıdakilerin karışımı olan sistemler… (örn. Netezza, YarcData, Next Generation Oracle) Büyük Veriden Bilgiyi Nasıl Ayıklarız? •Yapılandırılmış •Yarı-Yapılandırılmış •Akış Verisi ! G P S , uzaydaki yer bilgisi, izler, bölgeler… •Yapılandırılmamış ! H a m Metin, Resim, Video, Ses •Metaveri ! Veri ile ilgili yapılandırılmış veri, bir yerden bir yere •Geçici Veri ! A n l ı k , zaman içindeki trentleri ve olayları içeren veri •Mekansal Data •Ve daha birçok… Büyük Verideki Veri Tipleri Nelerdir? •9 konuyu ele alarak: 1. Veri İhlalleri 2. Veri Kaybı 3. Hesap Ele Geçirme 4. Güvensiz Uygulamalar 5. Servis Reddi 6. Kötü Amaçlı İçerikler 7. İstismar ve Art Niyetli Kullanım 8. Yetersiz Önlem 9. Paylaşılan Teknolojiler Konusu •Büyük veri güvenliğini sağlamak için Büyük veriyi kullanarak ! T o p l a m a & veri aktivitelerini analiz etme, ağ verisi, denetleme, kaynak,tür, köken •Ve şunları kullanarak: ! R i s k Yönetimi: ICD 503 ! E r i ş i m i kontrolleri, biometrik, fiziksel güvenlik, cell-level security, akıllı veri, şifreleme ! Anti-Malware, anti-virus •Veri kullanım istatistiklerindeki parametreleri tahmin edebiliriz, canlandırabiliriz ! Örn. Gözlemsel çalışmalar yoluyla, veriyi açıklayabilir, ilişkileri araştırabilir, şablonları keşfedebilir, sonuçları öngörebiliriz ! Bazı şans unsurlarını tanıyarak, Önyargılar ve Kafa karışıklığı için doğrulamaya ve sorgulamaya ihtiyacımız vardır! Seçim eğilimi, ölçme sapması, analiz yanılması, hata, kafa karıştırıcı değişkenleri dikkate almaya ihtiyacımız vardır •Keşfedilen bilgiye karşı aksiyonlar başlatmak için kuralları uygulayabiliriz Ayıkladığımız Bilgi ile Ne Yaparız? Gizlilik.Uyumunden emin olmalı: –Anayasa 4. Değişiklik –Elektronik İletişim Gizlilik Kanunu –Dış İstihbarat Gözetleme Yasası –Gizlilik Yasası –Kararname 12333 –ABD Yurtseverlik Yasası Etik. Göz önünde Bulundurmalı: 1. Kişiliğe saygı ve bilgi rızası 2. İyilik 3. Adalet 4. Kanun ve Kamu Yararına Saygı • George Mason Üniverisitesi ! GMU hem lisans seviyesinde eğtim hem de 2 günlük kurslar vermektedir •www.oss4ds.com Büyük Veri araçları ve Veri Bilimi ile ilgili bilgiler ! Büyük Veri ve Veri Bilimi ile ilgili açık kaynak yazılımlar ve destek olabilecek uzmanlara ulaşabilirsiniz •www.lumify.io Entegre açık kaynak analitik platformları keşfedin ! Yapılandırılmış veya yapılandırılmamış veriden link bağlantıları, bilgi çıkarımını öğren •www.altamiracorp.com Büyük Veri uygulamaları ile ilgili daha fazlasını öğrenebilirsiniz •Bu araç öngörüyü nasıl yapar? ! c e v a p soldaki tablodaki algoritma listelerine bakılmalı •Araç hangi veri tiplerini analiz eder? ! ö r . yapılandırılmış, yapılandırılmamış, hibrit •Potansiyel önyargı ya da kafa karıştırıcı değişkenleri doğrulama için uygun mudur? ! ö r . her şeyi sayarak ya da şans unsurlarını tanıtarak ! e ğ e r değilse, yaptığın bir araç tahminler için şüpheci olmalı Öngörü Araçları ile İlgili Sorular Neler? •Hangi veri tiplerini depolayabiliriz? ! Yapılandırılmış, yapılandırılmamış, ilişkisel, grafikler, varlıklar… ! B ü y ü k Dosyalar (ör. görüntüler)? Küçük dosyalar (ör. metin)? •Veri tabanı içine veri nasıl yerleştirilir? ! Gruplandırma? Yığın? •Veritabanı maliyetleri ne kadar? ! L i s a n s maliyetleri? Operasyonel maliyetler? Lisans kısıtları? •Gerekli donanım nedir? ! E m t i a ? Hissedar? •Veritabanları nasıl ölçülür? ! Gigabytes? Terabytes? Petabytes? Exabytes? Yottabytes? •Veritabanı hata toleransı nedir? ! G e r e k l i m i ? •Veritabanı kullanarak analiz gerçekleştirebilir miyiz? ! ö r . MapReduce? •Sorgular ve analizler için gecikme süresi nedir? ! ö r . milisaniyeler? günler? •Belirli özellikler için optimize edilir mi? ! Hızlı yazma? Hızlı okuma? Kullanım kolaylığı? •Veritabanı güvenli midir? ! Erişim kontrolü sağlar mı? Akredite edilmiş midir? Hangiseviyeiçin? Bir çok tanım… Ne Tür Görsel Teknikler Vardır? Tür Fayda Artıları Eksileri Tablolar Tablo verilerini görüntüleme Basit/Yaygın Kalıplar görünmez Çizelgeler Sayısal verileri görüntüleme Şablon ve Eğilim Görülür Araştırma zordur Grafikler Ağları keşfetme Güçlü analiz Karmaşık / Yoğun Coğrafi görünümler Uzaydaki veriyi görüntüleme Sezgisel haritalar Grafikler yoğun Geçicigörünümler Zamandaki veriyi görüntüleme Şablon/Trend Bulunur Tüm veri geçici değil Zamansal-Mekansal Hem uzay hem zaman Güçlü analiz Yaygın değil, Yoğun 3D Görüntüler Karmaşık veri görüntüleme Daha fazla çevreleme Grafikler yoğun • The Multiple V’s: Görselleştirme, Değer, Sağlayıcıların yanı sıra Hacim, Hız, Çeşitlilik, Doğrulama açısında da bize zorlukları beraberinden getiren Veri. • McKinsey: Büyük veri setleri, yakalama, depolama, yönetme ve analiz etme de klasik veri setleri yeteneklerinin ötesindedir. • Economist: Toplum her zaman olduğundan daha çok bilgiye sahiptir ve biz daha küçük miktarda sahip olduğumuzda yapamadıklarımızı basit bir şekilde büyük bir bilgi yapısına sahip olduğumuzdan yapabiliriz. Ne Tür İstatistiksel Algoritmalar Vardır? Algoritma Fayda Artıları Eksileri Lineer Nokta tahminler sağlama Yüksek hassasiyet, kolay Nitel değil, yüksek iyileştirme sorumluluğu Non-Lineer Karmaşık sistemler işleme Daha karmaşık sistemleri destekler, karmaşık kararlar Sınırlı çıkarım, yüksek denetim gerekli Bulanık Mantık / Sinirsel Son derece karmaşık, nitel sistemleri temsil etme Karmaşık sonuç çıkarımı, Dağınık veri Daha düşük hassasiyet, önyargı Olasılıklı Dağınık, Olasılık odaklı Karmaşık bağımlılıklar, bulanık kararlar Daha düşük hassasiyet, nokta tahmin yok, gerçek önyargı görünür Grafik Verinin temsili Büyük setleri temsil, kolay etkileşim Sınırlı çıkarım, sayısal olarak ilgi çekici • Wikipedia: Büyük Veri, çok büyük ve karmaşık veri setlerini toplamak için bir terimdir, geleneksel veri işleme yöntemleri ile ya da el yordamı veritabanı yönetim araçlarını kullanarak onu işlemek çok zordur. • Adam Jacobs, 1010data: Boyutu büyük olan veri bizi denenmiş ve doğrulanmış mevcut yöntemlerin ötesine bakmaya zorlar. • Dan Law, Altamira: Geleneksel veri çözümlerinin kapasitesini aşan potansiyel değer sahip herhangi bir veri türüdür. John Eberhardt, Altamira: Tek bir şekilde yönetilemeyen her veriyi toplamadır. Büyük Veri Nedir? GERÇEKTEN BÜYÜK olabilir!: –Şu anki Internet trafiği her yıl ~5 ZB (IBM) –1 Zettabayt = 1 Milyar terabayt –Visa işlemleri her gün 150 milyon işlem (VISA) –Kongre kütüphanesinde toplam 3,2 PB veri bulunur –Youtube’da günlük yüklenen veri 207 TB (2012) –2020’ye kadar İnternete 50 milyar aygıt bağlantısı (IDC) –2010’da Facebook’ta 50 milyar fotoğraf –Her gün 400 milyon Tweet (Washington Post) –2011’de Seagate 330 EB HDD sattı –CERN’de LHC (Büyük Hadron Çarpıştırıcısı) her gün 500 EB parçacık çarpışma verisi üretir –iPhone 5s: 76 Gigaflops=Saniyedeki Kayan Nokta İşlemi –En hızlı süper bilgisayar: 50 Petaflops=Saniyede yaptığı 1 katrilyon işleme denk gelen bilgisayar terimi Süreci takip et, şunlara dikkat et: •Büyük veri araçları: •Hadoop Ekosisteminin anahtar bileşenlerinin seçimi: –HDFS (Depolama), MapReduce (Dağınık İşleme), Accumulo (Güvenli veri depolama, İndeksleme) Kişiler ve ekipler özel yeteneklerin karışımına sahiptir: –Onlar "T-shaped” dir, yani birbirleriyle bağlantılıdırlar (yandaki grafikte) –Onlar tüm temel veri bilimi alanlarında ustadır • Bilgisayar Programlama • Matematiksel ve Analitik Yöntem • Büyük Veri teknolojileri • İletişim yetenekleri –Onlar en az belirli bir alanda derinliğe sahiptirler (grafikteki dikey özellikler) Popular veri bilimi araçları: –R, Python, Mahout, Pandas, Many Others… Veri Bilimi Nedir? –Takım yetenekleri –Problem tanımlama –Deneysel tasarım –Başarı/Değerlendirme Kriteri –Veri, İyileştirme & Kalite –Çözüm tasarımı • Altyapı • Depolama • Analiz • Görselleştirme • Güvenlik • Gizlilik & Etik • Bütçe & Planlama Lineer bir süreç değildir –Çevik bir yaklaşım dene… AçıkKaynak Örnekleri Özel ÖrneklerÇatıElement KullanımYeri Öncelikli Büyük Veri Araçları Nelerdir? Toplama, Depolama ve Çıkarım Veri İyileştirme ve Kalite GüvenceAnaliz Değerlendirme Görselleştirme Problem Tanımı ve Deneysel Tasarım İletişim Kov er se: info @kov er se.comAltamir a: Dan Law , dan.l aw @altamir acor p.com Clouder a: 866-843-7207 Datastax : info @dat asta x .com IBM: 800-333-6705 MarkLogic: info @mar k logic.com MongoDB: 866-237-8815 Splunk: 866-438-7758 Yar cdata: 925-264-4700 C h a r l i e G r e e n b a c k e r Veri Bilimi İstatistikselAnaliz VeriMadenciliği MakineÖğrenme DoğalDilİşleme SosyalAğAnalizi VeriGörselleştirme vb.. Alan Bilgisi & İletişim Yetenekleri Dağınık İşleme & Büyük Veri Matematiksel & Analitik Yöntem Bilgisayar Programlama Görselleştirme • Kullanıcı arayüzü • Web-tabanlı araçlar • D3js, 3js, Gephi, Ozone • Tableau, Centrifuge, Visual AnalyCcs Analiz • Makine öğrenici • İstatistiksel araçlar • R, Mahout, Titan, OpenCV, Lumify, Hive, Pig, Spark • SAS, SPSS, MapR, PalanCr Veri Depo • Data & Metadata • Kaynak Veri • İndeksler • HDFS, Accumulo, MongoDB, Cassandra, Titan, Neo4j, MySQL • Oracle, Marklogic, YarcData, Teradata İşleme • Dönüştürme/Norm alleştirme • Alma / Akışlar • İşleme • Storm, Hadoop/MapReduce • Splunk, SAS, Oracle, IBM Altyapı • Planlama, izleme • Uygulama Sistemleri • Bilgisayarla r, Ağlar • Linux, OpenShiW, OpenStack, Puppet, Zookeeper, Oozie, HDFS, KaZa, JBoss, Xymon • AWS, Azure, Cloudera, Red Hat, Rackspace, vendor specific Büyük Veri Ne Kadar Büyük? Büyük Veri Çözümlerini Nasıl Uygularız? Büyük Veri Güvenliğini Nasıl Sağlarız? Büyük Veride Etik ve Gizlilik Hakkında? Daha Fazlasını Öğrenmek İster Misin? Veritabanları ile İlgili Hangi Soruları Sormalıyız? ! Tablolar, anlamsal ilişkili veriler ! H i b r i d , örn. Tablolu belgeler ! A k ı ş , yüksek hızdaki ağ verileri, filmler

×