• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this document? Why not share!

Dm uitwerkingen wc3

on

  • 365 views

 

Statistics

Views

Total Views
365
Views on SlideShare
364
Embed Views
1

Actions

Likes
0
Downloads
1
Comments
0

1 Embed 1

http://www.slideshare.net 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Dm uitwerkingen wc3 Dm uitwerkingen wc3 Document Transcript

    • DM2007 model theorie-opgaven week 3 1. Verdeel de numerieke temperatuurdata bij het voorbeeld van 1R in groepen met een grootte van min- stens 2 en vergelijk uw verdeling met de standaarddiscretisatie en die met een minimale groepsgrootte van 3. Welke van de drie heeft uw voorkeur? • Indelingen (1/2 punt) – Geen beperking groepsgrootte, errorrate: 1/14 (pas op bij 72!) yes no yes yes yes no no yes yes yes no yes yes no – Groepsgrootte minimaal 2, errorrate: 4/14 (meerdere goede antwoorden) yes no yes yes yes no no yes yes yes no yes yes no yes no yes yes yes no no yes yes yes no yes yes no – Groepsgrootte minimaal 3, errorrate: 5/14 (meerdere goede antwoorden) yes no yes yes yes no no yes yes yes no yes yes no yes no yes yes yes no no yes yes yes no yes yes no • Voorkeur: groepsgrootte 1 heeft het meest last van overfitting en groepsgrootte 3 heeft de hoogste errorrate (op de trainingsdata). We kiezen groepsgrootte 2. (1/2 punt) 2. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor de attribuutwaarden (sunny, hot, high, false) volgens de statistische methode gebaseerd op de Bayesregel. (1 punt) Met behulp van Tabel 4.2, (bladzijde 89, tweede editie): likelyhood van yes = P (O=s|y)P (T=h|y)P (H=h|y)P (W=f|y)P (P=y) 2 2 3 6 9 = · · · · = 0.0071 9 9 9 9 14 likelyhood van no = P (O=s|n)P (T=h|n)P (H=h|n)P (W=f|n)P (P=n) 3 2 4 2 5 = · · · · = 0.027 5 5 5 5 14 0.0071 P (yes|E) = = 21% 0.0071 + 0.027 0.027 P (no|E) = = 79% 0.0071 + 0.027 3. Bij de traininginstanties van de weerdata staat een instantie (sunny, hot, high, false) met klasse “no” (Tabel 1.2). Leg uit waarom bij de vorige opgave de kans op niet spelen desondanks kleiner is dan 100%. De voorspelling van Naive Bayes is gebaseerd op de kans dat bij individuele attribuutwaar- den klasse ”no” optreedt. De kans 100% voor klasse ”no” kan alleen worden voorspeld als hier bij minstens 1 van de vier attributenwaarden van de testinstantie altijd klasse ”no” optreedt. Bij deze testinstantie is dit niet het geval. 4. Bij de weerdata (Tabel 1.2) wordt de waarde van het windattribuut voor de trainingsinstantie (sunny, hot, high, false) vervangen door OnbekendeWaarde. Wat voor invloed heeft dit op de kansen op de attribuutwaarden van Outlook, Temperature, Humidity en Wind? Laat zien wat de vier windkansen (eerst 6/9, 3/9, 2/5 en 3/5, Tabel 4.2) zijn na deze verandering. De kansen voor Outlook, Temperature en Humidity en de kansen voor Windy in combinatie met Play=yes blijven hetzelfde maar de kansen voor Windy in combinatie met Play=no ver- anderen: 1/4 en 3/4 (eerst 2/5 en 2/5, zie Tabel 4.2, bladzijde 89, tweede editie).
    • 5. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor de attribuutwaarden (overcast, cool, normal, false) volgens de statistische methode gebaseerd op de Bayesregel na het toepassen van add-one-smoothing (sectie 4.2, blz. 91 van de 2e editie). (1 punt) Met behulp van Tabel 4.2, (bladzijde 89, tweede editie): likelyhood van yes = P (O=o|y)P (T=c|y)P (H=n|y)P (W=f|y)P (P=y) 4+1 3+1 6+1 6+1 9+1 = · · · · = 0.035 9 + 3 9 + 3 9 + 2 9 + 2 14 + 2 likelyhood van no = P (O=o|n)P (T=c|n)P (H=n|n)P (W=f|n)P (P=n) 0+1 1+1 1+1 2+1 5+1 = · · · · = 0.0014 5 + 3 5 + 3 5 + 2 5 + 2 14 + 2 0.035 P (yes|E) = = 96% 0.035 + 0.0014 0.0014 P (yes|E) = = 4% 0.035 + 0.0014 6. Bereken de waarde van de probability density function voor de temperatuur 66 als bekend is dat er niet gespeeld wordt. Opgelet: in de functie in het boek (blz 93 van de 2e editie) ontbreekt een minteken voor de exponent van e! Met behulp van Tabel 4.4, (bladzijde 93, tweede editie): µ = 74.6, σ = 7.9 1 (t−µ)2 f (t = 66|no) = √ · e−( 2σ2 ) σ 2π 1 (66−74.6)2 = √ · e−( 2·7.92 ) 7.9 2π = 0.028 7. Welke taak probeert TAR2 zo goed mogelijk uit te voeren? De TAR2 treatment learner zoekt naar een minimale verzameling van verschillen tussen traininginstanties, en probeert een klein en simpel model te leren door alleen essentiele ver- schillen te gebruiken. (1 punt) 8. Leg uit wat in het artikel wordt bedoeld met Lift. Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt) 9. Leg uit waarom in figuur 2, A2 beter is dan zowel A1 als C2. • Beter dan A1: geen high-risk incidenten en minder incidenten in totaal (1/2 punt) • Beter dan C2: bijna zelfde performance, maar met veel eenvoudiger regels (1/2 punt)10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom? In de praktijk zijn grote modellen met vele duizenden regels of bomen met duizenden ver- takkingen niet nuttig voor mensen om van te leren. Treatment learning kan kleinere mod- ellen genereren die daarvoor meer geschikt zijn. (1/2 punt). Eigen mening (1/2 punt)