Big data

1,175 views

Published on

Big data hakkında bazı bilgiler...

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,175
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
27
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Big data

  1. 1. BIG DATA 1 Big Data Veysi Ertekin, Bilgisayar Mühendisi, Yüksek Lisans Öğrencisi İstanbul Aydın Üniversitesi
  2. 2. BIG DATA 2 Özet Bu makalede BigData kavramına değinilecektir. BigData künyesinde barındırdığı verinin nasıl anlamlandırıldığı konusuna değinilecek olup, ayrıca BigData kavramı içerisinde hali hazırda analiz, görselleştirme gibi uygulamalarda kullanılan teknolojilere değinilecektir. Keywords: Big Data, Değer Halkası, Hadoop, MongoDB, MapReduce Algoritması Abstract In this survey, will be defining “BigData” concept. How is explaining data in yourself, which data parts already included “BigData” concept, and which tecknologies are using for, such as analysing, visualising data tools, will be described in the survey. Keywords: Big Data, Value Chain, Hadoop, MongoDB, MapReduce Algorithm
  3. 3. BIG DATA 3 Big Data Big Data kavramını türkçe olarak “Büyük Veri” olarak çevirebiliriz. BigData şu anda kullandığımız modem, bilgisayar, ev içi duman/yangın sensörleri, cep telefonlarımız, televizyonlarımız gibi araçların ürettiği veya tükettiği verinin her geçen gün katlanarak artmasını ve işlenmesinin gittikçe zorlaştığını anlatan ingilizce bir terimdir. BigData şu an bazı kimselerce her an karşılaşabileceğimiz bir sorun, kimilerince teknolojinin getireceği karmaşıklıktan ibarettir. BigData aslında beklenilenin aksine şu anda beklediğimiz değil içerisinde bulunduğumuz ve etkilendiğimiz, çözmek zorunda olduğumuz bir problem olarak karşımıza çıkmaktadır. Google, Amazon (Talia, 2013), Microsoft gibi bir çok firmanın yeni teknolojiler geliştirmelerini zorunlu kılmıştır. Bazı internet sitelerine göre Google günde 20 petabyte (2.097e+7 GB)’dan daha çok veri işlediği ve bu verinin insanlık tarihinde tüm dillerde kayda geçen herşeyin yarısı kadar olduğunu düşünmektedirler. (Johnson & Schlieski, 2012) Durum böyle olunca bu gibi büyük şirketlerin ellerine geçen veriyi anlamlandırmak ve kullanılabilir düzeyde işlemek için yeni teknolojiler ortaya atmaktadırlar. Google arama gibi bazı uygulamalarda her an bilginin derlenmesi ve aranması, yeni oluşan verilerin diğerleri işlenirken asenkron yakalaması gerekir. (Hunter, 2013) Bu veriler blog yazılarımızda yazdığımız günlüklerimiz, derslerimiz, konu anlatımlarımız, internete yüklediğimiz resim ve videolarımız olabiliyor.(Elmqvist & Irani, 2013) Bu aşırı derecedeki veriyi ve dağıtık yapıyı bilmeden de olsa biz oluşturuyoruz. Big Data probleminde gün geçtikçe donanımda ziyade daha çok yazılımsal sıkıntılar yaşanmakta ve bu yazılımsal çözümler gittikçe artan bir maliyete neden olmaktadır. (Tallon, 2013) Yüksek maliyetleri karşılaya bilen büyük şirketler ancak Big Data’da başarılı olabiliyorlar. (Lesk, 2013)
  4. 4. BIG DATA 4 Asıl önemli olan büyük verinin oluşmasının yanında bunun yönetilebilmesi, gerekli yerlerle ilişkilendirilip kullanılabilmesi ve verinin anlamlandırılmaya çalışılması gerekebiliyor. Hesaplama gücü hem dağıtık(cep telefonları, tabletler…) hem de birleşik yapıdaki(süper bilgisayarlar) aletlerimizde teknolojik olarak her geçen gün üstel olarak artmaya devam edildiği söylenmektedir. Big Data Sadece Entegrasyon mu? BigData gerçek bir dijital ortamda oluşan yapıyı olarak ifade edilebilinir. Örneğin, İsveç Ulusal Televizyonu Kanalı olan SVT 2007 yedi yılında bütün belgelerini arşivlemek istemiş ve çeşitli girişimler sonucu 5 petabyte’lık bir sunucuya aktarımı yapılabilinmiş. (Johnson & Schlieski, 2012) O günler ile bugün karşılaştırıldığında bu veri IBM’in yeni 120 petabyte’lık hardisklerine nazaran devede kulak olarak görülebilir. Ayrıca bu verilerin saklanması sonrası TV izlenimi artması, veri yönetiminin zorlaşması(TV kanalında yer alan arşivlerinin hangisinin getirileceği?), dijitalleşen bu veride istediğimiz bir şeyin bulunması, bir şeyi nasıl aramaya başlanacağı; bulunan bir verinin sunucudan ekrana nasıl getirileceği gibi sorunlarla nasıl baş edilmesi gerektiği çözüme kavuşması gerekli olabilir. Günümüzde mühendisler bağlanabilirliği çözülmüş bir problem olarak gördükleri için BigData kavramını sadece entegrasyon olarak ele almaktadırlar. (Mork & Miller, 2013) Bu entegrasyon süresince evrensel endüstrinin iş modelinin yeniden düşünülmesi, çözümlenmesi, WEB hak ve hukukuna uygun yeni kurallar çerçevesinde yeniden icat edilmesi, yeni veri transfer yöntemlerinin bulunması olarak görülmektedir. Her ne kadar kolay gibi gözüksede bu adımlar için yeni teknolojilerin bulunması (örneğin bilgisayar mantığı ile oluşturulan yeni kuantum bilgisayarların işleyişi farklı) bütün bilgi birikimlerimizden ve bilimlerin birleştirilmesine (fizik,
  5. 5. BIG DATA 5 elektronik ve bilgisayar bilimlerinin birleşimi gibi) kadar her şeyden fazlasıyla yararlanmamızı gerektirebilir. Veriden Karar Çıkarımsanması (Değer Halkaları) Değer Halkaları ve İşlenmesi Değer halkaları veriyi oluşturmak ve inşa etmek için kullanılan aktiviteler bütünü belirtir. Değer halkarı 4 ana desteği bize sağlarlar (Mork & Miller, 2013): • Verinin yönetilmesi ve servis süresince veri oluşturucularından kararlar yapmak isteyen tüketiciler arasında koordine edilmesi, • İşbirliği ortaklığının(veri arasındaki ilişki) şekillendirilmesi, veri kümesinin paydaşlar (bir projede yer alan ve veri üstüne kararlar alan kişi veya çalışan) arasında kooordine edilmesi, servis kalitesi ile optimize edilmiş servis işleme süresinin analiz edilmesi. • Uygun paydaşlar için pozitif sonuçların oluşturulmasını sağlamak adına veri yönetim aktivitelerinin uygun hale getirilmesi. • İnsanlar, süreçler ve verinin tümleştirilmesi ile şirketlerin performansının geliştirilmesi açısından kararların bildirilmesini sağlayan teknolojik altyapının evrak çantası mantığıyla sağlanması. Bütün bu hedefler 3 ana başlık altına toplanmıştır: verinin keşfi, entegre edilmesi ve kullanılması. Verinin Bulunması. Bir organizasyon bilgili karar verimini destekleyen bir analiz yapabilmesi için, hangi veri kaynaklarının kullanılabilir olduğunu bilmesi gerekir. Keşfetme sadece veri parçacığının bulunmasını sağlamaz ayrıca bunların hazırlanmasını ve organize edilmesinide sağlar.
  6. 6. BIG DATA 6 Verinin Toplanamsı ve Bildirilmesi Zincirdeki ilk halka, kullanılabilir veri kaynaklarının ve metadata’nın (verinin tamlığı, doğruluğu, tutarlığı, ne kadar sürede ulaşılabileceği ve hatasızlığı) envanterinin oluştulmasını amaçlar. (Malik, 2013) İki çeşit yöntem bulunmaktadır. Dublin Core, mevcut metadata karakteristiklerine ek olarak hali hazırda bulunan yöntemlerle verinin tanımlanması, aranması ve Web tabanlı indekslenmesi üzerine yoğunlaşır. İkincisi ise Amerika Savunma Bakanlığı Metadata Tanım Araştırması, metadatanın merkezi bir sınıflandırma ile geliştirilmesi süreci üzerine ve bu sınıflandırma kullanılarak kaynakların tespiti için yolların araştırılması üzerine yoğunlaşmıştır. Hazırlık. Sonraki görev veri kaynaklarının paylaşılabilir bir ortama kopyalanması için erişim sağlanması ve veri kullanımında güvenlik ile gizlilik ilkelerinin ayarlanması. Büyük dağıtık ve paralel depolama sistemleri, Hadoop (Gattiker, Gebara, Hofstee, Hayes, & Hylick, 2013)-DFS(Dağıtık dosya sistemi)-BigTable(Büyük Tablo)-MongoDB gibi, yapısı ne olursa olsun terabyte’lardan bile daha fazla verinin saklanmasını sağlarlar.Bu araçlar veriye erişimle birlikte, temsili durum aktarımı, uygulama geliştirim arayüzleri, WSDL(Web Servis Tanımlama Dili) ve açık veritabanı bağlanabilirliği de sağlarlar. Kullanılan diller erişim konrol politikaları için barındırdıkları rol tabanlı kontrolleri ise oturmuştur. Bu rollerin iş sınırları ölçütünde bir yarış olarak kalmaya devam ediyor. Özellik tabanlı erişim kontrolü politikaları daha az anlaşılır fakat ilişkili standartların önem derecesi yüksektir. Organizasyon. Veri kaynağı geliştiricisi planlı örgütsel seçimler yaparlar, verinin sözdizimi, yapısı, ve anlamsallığı hakkında. Bu bilgiyi şema ve metadata deposndan erişilebilir kılarlar. Her iki mekanizmada da paylaşılan anlamsallıkların entegre edilmeden önce organize edilmesini baştan sona desteklerler.
  7. 7. BIG DATA 7 Kullanılan her araç özelleştirilebilir eklentileri desteklerler. Örneğin satıcı kilidinin kaldırılmasını; katılımcılar arası paylaşım problemlerinin giderilmesini, ve bu araçlardan kaynaklanabilecek diğer sorunların giderilmesi. Veri Entegrasyonu Tam anlamıyla organize edilmiş veri belirli bir analize uygun gelen ortak bir temsili yapı içerisinde birleştirilmeye hazır olmalıdırlar. Her entegrasyona harcanan çaba, veri kaynaklarının ortak bir yapıda nasıl birleştirildiğini belirten bir haritalamayı gösterir. Metadata kaynakları ileriki analizlerde bu haritaların izlenmesini kolaylaştırmalıdır. Bu temsillemenin önemsiz görülmesi farklı veri kaynaklarının yeni ve hiç önceden keşfedilmemiş bir yapıymış gibi gözükmesine neden olabilir. Entegrasyon birleşik bir model gibi sanal da olabilir, veya data center gibi fiziksel bir yapıda olabilir. Geleneksel veri birleşim teknolojileri ve önemli Anlamsal Web Teknolojileri entegrasyonu ve birleşik veri kaynakları üzerinden sorgulamayı desteklerler. Veri Kullanımı Veri toplandı, entegre edildi anlamlı kararlar almak için bir yapının bu verileri işlemesi gerekir. Karar vericiler işlenecek bilginin veri sanallaştırma haricindeki analizlerin kombinasyonuna güvenirler. Sanallaştırma insanın anlaması bakımından daha kolay bir sunumdur. Analiz. Entegre edilmiş veri kaynakları rtık analiz için hazırdırlar. Analiz aslında gerçek girdi-sonuçlarının ve metadata kaynaklarının bakımının yapılmasıdırki sonrasında diğer analistlerin bu sonuçları yeniden oluşturmasını ve doğruluklarının arttırılmasını sağlayabilsin. MapReduce (O’Leary, 2013) gibi popüler veri analiz teknikleri, işleme ve büyük veri setlerinin oluşturulması için bir programlama modelinin oluşmasını sağlarlar.
  8. 8. BIG DATA 8 Bu bağlantı, değer sincirlemenin ana damarını oluşturur. Bu büyük olasılıkla kullanılan araç ve teknikler arasında en çok kullanılanıdır. Elimizdeki bu karmaşık dünyada yeni öneriler kendilerini daha kolay farkkettirebilirler. Görselleştirme. Görselleştirme karar vericiler için analiz sonuçlarının sunulmasını sağlar, bu elle tutulabilen durağan bir çıktı olabilir veya sonuçların geliştirilmesini sağlayabilecek ve bunları tarayabilecek interaktif bir uygulama da olabilir. Asıl hedef paydaşlara kritik kararlar verebilecek kolay anlaşılabilir bir formatta anlam yüklü bilgi ile desteklemek. Medya ve eğitim endüstrisi gibi alanlarda başkalarının ilham alabileceği zenginliklerle dolu veri görselleştirme teknikleri bulabiliriz. Sanal ve artırılmış gerçeklik iki boyutlu içerik ile kullanım deneyimini artırabilir ve bilginin daha kolay kavramasını sağlayabilir. Bütün bunlara nazaran bu teknoloji eğitim, öğretim ve daha bir çok özelleştirilmiş kullanım ile gelecek vaadedebilir. Karar Verme. Veri zincirindeki bu son bağlantı görselleştirilen veride ne gibi bir aksiyon alınacağının belirlenmesi adımıdır. Dökümantasyonun sağlanması gibi kaynak bilgi gerçek verinin izlenebilmesini, kelitesinin belirlenmesini entegrasyon haritalarının ve analiz metadatasının elde edilen sonuçların nasıl analiz edileceğini sağlamalıdır. Ana paydaş görselleştirilen sonuçları negatif bir davranış için kullanabilir ve pozitif bir ödülle karşılık verebilir. Belirli bir problem altında yatan detayların ve gerekli değişiklikler hakkında paydaşları ne ile bilgilendirilebileceği gibi problemi neyin desteklediğinin anlaşılması gereklidir. Mevcut veri üzerinden karar verime başlanması ve yeni kaynakların probleme dahil edilmesi daha verimli karar verme ve aksiyon almayı kolaylaştırabilir. Verinin parçalara ayrılması değerlerin ortaya çıkarılması için önemli bir engeldir. Bir çok girişim paydaşlara kendi verilerini paylaşabilecekleri bir ortam sunamamakta. Bir veri zincirinden etapları, etaplar arası bağlılıklar ve işlenmemiş veriden karar veriminin algılanması
  9. 9. BIG DATA beklenir. Sadece bağlı verinin anlamlı kısmı çabucak ortaya çıkaracağı düncesi yanlış olabilir. Düşük kaliteli veri kullanışlı veri üretemeyeceği için kaliteli sorgular ve entegrasyonlar yapılamamasına neden olabilir. 9
  10. 10. BIG DATA 10 Referanslar Elmqvist, N., & Irani, P. (2013). Ubiquitous Analytics: Interacting with Big Data Anywhere, Anytime. IEEE, 86-89. Gattiker, A., Gebara, F. H., Hofstee, H. P., Hayes, J. D., & Hylick, A. (2013). Big Data textoriented benchmark creation for Hadoop. IBM, 1-6. Hunter, P. (2013). Journey to the centre of Big Data. Engineering & Technology, 56-59. Johnson, B. D., & Schlieski, T. (2012). Entertainment in the. IEEE, 1404-1408. Lesk, M. (2013). Big Data, Big Brother, Big Money. IEEE, 85-89. Malik, P. (2013). Governing Big Data: Principles and practices. IBM, 1-13. Mork, P., & Miller, H. G. (2013). From Data to Decisions: A Value Chain for Big Data. IEEE, 57-59. O’Leary, D. E. (2013). Artificial Intelligence and Big Data. IEEE, 96-99. Talia, D. (2013). Clouds for Scalable Big Data Analytics. IEEE, 98-101. Tallon, P. P. (2013). Corporate Governance of Big Data: Perspectives on Value, Risk, and Cost. IEEE, 32-38.

×