This document discusses Apache Spark machine learning (ML) workflows for recommendation systems using collaborative filtering. It describes loading rating data from users on items into a DataFrame and splitting it into training and test sets. An ALS model is fit on the training data and used to make predictions on the test set. The root mean squared error is calculated to evaluate prediction accuracy.
Data Economy: Lessons learned and the Road ahead!Ahmet Bulut
Trading Privacy for Value
In the start-up culture of the 21st century, we live by the motto “move fast and break things.” What if what gets broken is society*?
how can we build data products and services that use data ethically & responsibly?
how do companies take a data (science) project from lab to production successfully?
Systems that can explain their decisions.
how can we interconnect the web of data, its agents, and their decisions to enlarge the pie?
Your data is getting bigger while your boss is getting anxious to have insights! This tutorial covers Apache Spark that makes data analytics fast to write and fast to run. Tackle big datasets quickly through a simple API in Python, and learn one programming paradigm in order to deploy interactive, batch, and streaming applications while connecting to data sources incl. HDFS, Hive, JSON, and S3.
Slides are from my welcome speech to the 2014-2015 Freshmen at Computer Science Department of Istanbul Sehir University. I emphasize the command of English, building trust, and being self-organized as three key takeaways.
This document discusses the need for data science skills and proposes a curriculum to address the skills gap. It notes that the web has evolved from static HTML to user-generated content and now machines understanding information. Current jobs require data analysis, idea generation, and hypothesis testing skills. A study found enterprises have major skills gaps in mobile, cloud, social and analytics technologies. The proposed curriculum aims to directly teach needed skills while keeping students engaged. Core classes focus on algorithms, systems, architecture, and machine intelligence. The curriculum is designed to bridge undergraduate and graduate programs and use Python to keep students engaged with hands-on projects. A future data science graduate program is outlined focusing on data engineering, networks, visualization, scalable systems, big data
This document provides an overview of the CS 361 Software Engineering course. It outlines attendance rules, instructors, required coursebooks, and key topics that will be covered including Agile development methodologies, Waterfall methodology, the Agile Manifesto, enabling technologies for Agile development, pair programming, user stories, system metaphors, on-site customers, and more. The document aims to introduce students to the structure and content of the course.
This document discusses Apache Spark machine learning (ML) workflows for recommendation systems using collaborative filtering. It describes loading rating data from users on items into a DataFrame and splitting it into training and test sets. An ALS model is fit on the training data and used to make predictions on the test set. The root mean squared error is calculated to evaluate prediction accuracy.
Data Economy: Lessons learned and the Road ahead!Ahmet Bulut
Trading Privacy for Value
In the start-up culture of the 21st century, we live by the motto “move fast and break things.” What if what gets broken is society*?
how can we build data products and services that use data ethically & responsibly?
how do companies take a data (science) project from lab to production successfully?
Systems that can explain their decisions.
how can we interconnect the web of data, its agents, and their decisions to enlarge the pie?
Your data is getting bigger while your boss is getting anxious to have insights! This tutorial covers Apache Spark that makes data analytics fast to write and fast to run. Tackle big datasets quickly through a simple API in Python, and learn one programming paradigm in order to deploy interactive, batch, and streaming applications while connecting to data sources incl. HDFS, Hive, JSON, and S3.
Slides are from my welcome speech to the 2014-2015 Freshmen at Computer Science Department of Istanbul Sehir University. I emphasize the command of English, building trust, and being self-organized as three key takeaways.
This document discusses the need for data science skills and proposes a curriculum to address the skills gap. It notes that the web has evolved from static HTML to user-generated content and now machines understanding information. Current jobs require data analysis, idea generation, and hypothesis testing skills. A study found enterprises have major skills gaps in mobile, cloud, social and analytics technologies. The proposed curriculum aims to directly teach needed skills while keeping students engaged. Core classes focus on algorithms, systems, architecture, and machine intelligence. The curriculum is designed to bridge undergraduate and graduate programs and use Python to keep students engaged with hands-on projects. A future data science graduate program is outlined focusing on data engineering, networks, visualization, scalable systems, big data
This document provides an overview of the CS 361 Software Engineering course. It outlines attendance rules, instructors, required coursebooks, and key topics that will be covered including Agile development methodologies, Waterfall methodology, the Agile Manifesto, enabling technologies for Agile development, pair programming, user stories, system metaphors, on-site customers, and more. The document aims to introduce students to the structure and content of the course.
Open source refers to the process by which software is created, not the software itself. The open source process involves voluntary participation where anyone can contribute code freely and choose what tasks to work on. It relies on collaboration between many developers worldwide who are motivated to scratch an itch, avoid reinventing the wheel, solve problems in parallel, and leverage the law of large numbers through continuous beta testing. Documentation and frequent releases are also important aspects of open source development.
This document summarizes Week 3 of a Python programming course. It discusses introspection, which allows code to examine and manipulate other code as objects. It covers optional and named function arguments, built-in functions like type and str, and filtering lists with comprehensions. It also explains lambda functions and how and and or work in Python.
This document provides a summary of Week 2 of a Python programming course. It discusses dictionaries, including defining, modifying, and deleting dictionary items. It also covers lists, such as defining and slicing lists, as well as adding, searching, and deleting list elements. Finally, it introduces tuples as immutable lists and discusses variable declaration and string formatting in Python.
In this presentation, we provide the details of an ecosystem to foster scholarly work at an educational institution. Various research and funding processes are outlined to set up and execute a successful operational model.
This presentation outlines two main startup/business development models: product development model, customer development model. The right methodology is to use both at the same time with constant feedback and learning.
The document discusses the potential of group buying deals and collective discounts, noting that people are more likely to purchase items if they feel they are getting a good deal as part of a group. It proposes that a company can leverage their user base and merchant relationships to create dedicated group deal pages and use marketing techniques like emails and pop-ups to promote the deals in order to benefit both consumers and merchants through a commission-based sales model.
VMware ESX Server provides a virtualization platform for mission-critical environments. It utilizes hardware virtualization to present virtual machines with direct access to resources, allowing multiple guest operating systems to run in isolation on a single physical server. ESX Server offers a bare-metal architecture for high performance, as well as granular resource management and hardware support from major vendors to maximize utilization and flexibility.
Open source refers to the process by which software is created, not the software itself. The open source process involves voluntary participation where anyone can contribute code freely and choose what tasks to work on. It relies on collaboration between many developers worldwide who are motivated to scratch an itch, avoid reinventing the wheel, solve problems in parallel, and leverage the law of large numbers through continuous beta testing. Documentation and frequent releases are also important aspects of open source development.
This document summarizes Week 3 of a Python programming course. It discusses introspection, which allows code to examine and manipulate other code as objects. It covers optional and named function arguments, built-in functions like type and str, and filtering lists with comprehensions. It also explains lambda functions and how and and or work in Python.
This document provides a summary of Week 2 of a Python programming course. It discusses dictionaries, including defining, modifying, and deleting dictionary items. It also covers lists, such as defining and slicing lists, as well as adding, searching, and deleting list elements. Finally, it introduces tuples as immutable lists and discusses variable declaration and string formatting in Python.
In this presentation, we provide the details of an ecosystem to foster scholarly work at an educational institution. Various research and funding processes are outlined to set up and execute a successful operational model.
This presentation outlines two main startup/business development models: product development model, customer development model. The right methodology is to use both at the same time with constant feedback and learning.
The document discusses the potential of group buying deals and collective discounts, noting that people are more likely to purchase items if they feel they are getting a good deal as part of a group. It proposes that a company can leverage their user base and merchant relationships to create dedicated group deal pages and use marketing techniques like emails and pop-ups to promote the deals in order to benefit both consumers and merchants through a commission-based sales model.
VMware ESX Server provides a virtualization platform for mission-critical environments. It utilizes hardware virtualization to present virtual machines with direct access to resources, allowing multiple guest operating systems to run in isolation on a single physical server. ESX Server offers a bare-metal architecture for high performance, as well as granular resource management and hardware support from major vendors to maximize utilization and flexibility.
1. E-postanızla Nasıl Çay Yaparsınız? :
E-postaların Neden Olduğu Enerji Tüketimi
Dr. Ahmet Bulut
İstanbul Şehir Üniversitesi
email: ahmetbulut@sehir.edu.tr
2. Dr. Ahmet Bulut
kimdir?
• 1994 ÖYS sınavında ODTU Bilg. Müh.‘ne 10 puan kısa kaldı. 2 Tercih yapmıştı.
• 1995 ÖYS sınavında Türkiye 204.’sü oldu, Bilkent Üniversitesi Bilg. Müh.’ni kazandı.
• 2000 yılında Bilkent Üniversitesi Bilg. Müh.’ni 1.cilik ile bitirdi.
• 2000 yılı sonlarında Amerikada, Kaliforniya Üniversitesinde Bilgisayar Bilimleri üzerine
doktora çalışmalarına ve saçlarını kaybetmeye başladı.
• 2003 yılında alanında 1 numara olan Uluslarası Veri Mühendisliği Konferansında en iyi
makale ödülüne layık görüldü.
• 2005 yılında doktora bitimini takiben, Citrix Systems şirketinde Araştırmacı Mühendis
olarak göreve başladı. GotoMeeting platformunu Yerleşik düzenden Dağınık düzene
geçiren takımın öncülerindendi.
• 2007. Like.com şirketine katıldı. Çözüm Mimarı olarak görevine devam etti. Like.com
Google tarafından 2010 Ağustosunda 100 miyon dolara satın alındı.
• 2010 yılı Şubat ayında İstanbul Şehir Üniversitesi ailesine katıldı.
3. Türkiye İstatistik Kurumu’nun (TÜİK) Nisan 2010’da gerçekleştirdiği
“2010 Yılı Hane Halkı Bilişim Teknolojileri Kullanım Araştırması”
sonuçlarına göre, hanelerin % 41,6’sı internet erişim imkânına sahip.
Bu oran geçtiğimiz yıl aynı dönemde % 30 düzeyindeydi.
4. Son 3 ay verilerine göre, bireylerin internet kullanımının
% 72,8′ini e-posta göndermek ve almak oluşturuyor.
Yani: internet en çok e-posta için kullanılıyor.
5. Çok sevdiğimiz bir şarkı
• Dinlemeye doyamadığımız,
her gün defalarca dinlemek
istediğimiz, dahası
dinlemekle kalmayıp
paylaşmak istediğimiz,
arkadaşlarımızın da zevkle
dinlemek isteyeceğini
düşündüğümüz bir şarkı.
Not: şarkı paylaşım örneği gösteri
amaçlı olarak seçilmiştir.
6. 4.7
4.7 Mega Byte
M
• Yasal yollardan, parasını ödeyerek aldığımız bir
Compact Disc (CD) içerisinde bulunan bu şarkıyı,
B
dizüstü bilgisayarımıza aktarıyoruz.
• Uluslararası uzman bir grup tarafından belirlenmiş ses
kayıt formatı olan MP3 formatında kaydedildiğinde,
şarkı yaklaşık olarak 4.7 Mega Byte (MB) yer
kaplayacaktır.
7. pa
yla
• Şarkıyı 10 farklı arkadaşımızla e-posta yolu ile
şım
paylaşmaya karar verdik.
• E-posta servisi olarak, sınırsız ve ücretsiz depolama
alanı ile e-postalarımızı silmemizi gerektirmeyen
Google’ın e-posta servisi Gmail’ i kullanmayı uygun
bulduk.
• Şarkıyı e-postaya iliştirerek 10 arkadaşımıza
gönderdiğimizde toplam olarak 4.7 MB x 10 = 47
MB’lık bir verinin transfer ve saklanması için komut
vermiş oluyoruz.
8. 47 MB’lık veri,
Matrix filminde izlediğimiz gibi, 1
ler ve 0 lardan oluşan bir veri
bütünü halinde, Google'un
evlerimizdeki gardroplar
büyüklüğünde olan sunucu
bilgisayarlarında saklanıyor.
Bir sunucu ise Giga Byte (GB)
başına yaklaşık olarak ortalama 0.2
Wattlık güç harcıyor.
10. Hayatımıza renk katmak için harcanan güç
miktarı:
47 MB x
1GB/1000MB x
0.2 Watt/1GB
=
0.0094 Watt
11. Watt-saat
• Google, hiçbir verimizi bizim iznimiz olmadan silmez.
• Şarkıyı elektronik posta hesabımızdan silmeyeceğimizi
ve yaklaşık olarak 3 sene saklamak istediğimizi
düşünelim.
• Google sunucuları 47MB’lık bu veriyi o kadar saat
saklayacak, ve o kadar watt-saat enerji harcayacaktır.
Gereken enerji miktarı hesabı ise:
12. 3 sene x 365 gün x
24 saat
= 26000 saat
0.0094 Watt x 26000
saat
= 245 Watt-saat
13. 47 MB
veriyi 3 sene
saklamak için
245 Watt-saat enerji sarfiyatı
15. Bu sevdiğimiz şarkıyı
10 arkadaşımızla
paylaşmak
“geleneksel somut”
olarak
10 çaydanlık
dolusu suyu
kaynatmak
anlamına gelmektedir.
16. Ekolojik ayak izi
• Çoğu zaman farkında olmasak da hepimizin çevre
üzerinde bıraktığı bir iz var. Buna “ekolojik ayak izi”
deniyor.
• William Rees, 1992 yılında “ekolojik ayak izi” kavramı ile
bir insanın ne kadar biyolojik alan kullandığını yani ne
kadar tükettiğini ve tüketimlerinin ne gibi etkiler
doğurduğunu hesaplamak amacındaydı.
17. Somut tüketim ve
Ekolojik ayak izi
• Tüketim, bilinçli tüketim, doğa ile dost, geri dönüşümlü
gibi kavramların somut tüketim malzemeleri üzerine
kurulu olduğu bir dünyada yaşıyoruz.
• William Rees’in Ekolojik ayak izi tezini somut
tüketimler üzerine kurdu: Rees tezini insanların
ve ülkelerin hayatlarını idame ettirebilmek ve
kalkınabilmek için kullandıkları kaynaklar ile bu
kaynak kullanımları sonucunda ortaya çıkan hasar
ve çevreye verilen zararı ölçme üzerine kurdu.
18. Sanal tüketim ve
Ekolojik ayak izi
• Ancak, gelişen ve değişen dünyada tüketimin de tanım
ve sınırları değişti.
• Sanal âlemin hayatlarımızın merkezindeki yerini
almasıyla “sanal tüketim” de “tüketim” kelimesinin
anlamları arasına eklendi.
19. Bilinç ve Sorumluluk
• Artık bir şarkıyı dinleyip sanal ortam üzerinden
arkadaşlarımızla paylaşırken ne kadar enerji sarfiyatına
sebep olduğumuzu hesaplayabiliyoruz.
• Ekolojik ayak izimize sanal tüketimlerimizin faturasını da
eklememiz gerektiğini biliyoruz.
20. Artık evimizde
çayımızı vicdanımız
rahat olarak
içebilmemiz için
bilgisayar başında
daha sorumlu
davranmamız
gerekiyor.
21. Kaynaklar
• 1. Hane Halkı Bilişim Teknolojileri Kullanım Araştırması. Türkiye İstatistik Kurumu’nun (TÜİK),
Nisan 2010.
• 2. “Data Center” imajı. Alıntı tarihi 4 Ocak 2011, web adresi: http://sisnv.net/?p=502.
• 3. “İnternet erişimi yaygınlaşıyor” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://
www.nanodrm.com/blog/tag/e-ticaret/
• 4. “Çay ve çaydanlık” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://www.cileksuyu.com/tag/
mide-icin-cay/
• 5. “Elektrikli Çaydanlık” imajı. Alıntı tarihi 5 Ocak 2011, web adresi: http://www.metaefficient.com/
food-and-drink/best-electric-kettle.html.
• 6. “E-posta” imajı. Alıntı tarihi 4 Ocak 2011, web adresi: http://www.teksenmuhendislik.com.tr/
teksenmuhendislik/images/e-posta.jpg.
• 7. “Sertab Erener Rengarenk Albüm” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://
www.log.com.tr/wp-content/uploads/rengarenk-sertap-erener.jpg.
• 8. “Ayak izi” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://coca-colahayataartivakfi.org/images/
ayakizi.jpg.
• 9. “Çayzade” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://www.blue-house.com.tr/urun_img/
icecek_hazirlama/cayzade.jpg.
• 10. “Hemen al” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://blog.hemenal.com/wp-content/
uploads/2010/03/503782_detay.jpg.
• 11. “Matrix” imajı. Alıntı tarihi: 4 Ocak 2011, web adresi: http://fc00.deviantart.net/fs22/f/2007/322/b/
7/HD_Matrix_Wallpaper_by_aNdre_W.jpg.