Dm uitwerkingen wc4

546 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
546
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Dm uitwerkingen wc4

  1. 1. DM2007 model theorie-opgaven week 4 1. Wat zijn de twee verschillen tussen perceptronleerregel en de leerregel gebruikt bij Winnow? • de gewichten in perceptronleerregel worden vernieuwd door optellen of aftrekken, bij Winnow door vermenigvuldigen of delen. (1/2 punt) • bij Winnow wordt de klasse bepaald door gebruik van een (aanpasbare) parameter theta, bij perceptron wordt de klasse bepaald door te kijken naar het teken (positief of negatief)(1/2 punt) 2. Bij instance learning kan de beste klasse worden bepaald door de testinstantie te vergelijken met alle trainingsinstanties. Waarom zijn kD-bomen effici¨enter voor het kiezen van de beste klasse voor een testinstantie? kD-bomen vinden een initi¨ele nearest-neighbor gebaseerd op de leaf node waarin de nieuwe instantie valt. Vervolgens wordt er omhoog in de boom gekeken of er punten kunnen zijn die dichterbij liggen dan het initi¨ele punt. Het aantal vergelijkingen dat gedaan moet worden is (meestal) veel kleiner dan zonder boom, waarbij de nieuwe instantie met elke opgeslagen instatie vergeleken moet worden. (1 punt) 3. Uit de weerdata (Tabel 1.2 op bladzijde 11 van het boek) kan de itemset outlook=sunny; humid- ity=high; play=no worden afgeleid. Hoeveel associatieregels kunnen maximaal uit zo’n itemset worden gehaald? En hoeveel van deze regels hebben in dit geval een accuraatheid van 100%? Er kunnen 7 associatieregels afgeleid worden (zie voorbeeld op blz. 115 in tweede editie) (1/2 punt) Zoals te zien in de tabel hebben 2 regels 100% accuraatheid (1/2 punt) regel accuraatheid if outlook = sunny and humidity = high then play = no 3/3 if outlook = sunny and play = no then humidity = high 3/3 if humidity = high and play = no then outlook = sunny 3/4 if outlook = sunny then humidity = high and play = no 3/5 if humidity = high then outlook = sunny and play = no 3/7 if play = no then outlook = sunny and humidity = high 3/5 if - then outlook = sunny and humidity = high and play = no 3/14 4. Leid de beste dekkingsregel (covering rule) af voor de aanbeveling ”soft” volgens de contactlensdata (Tabel 1.1 op bladzijde 6 van de tweede editie van het boek). Laat alle stappen van de afleiding zien en geef bij elke stap aan wat de dekking en selectie is van de afgeleide voorwaarden. Indien er meerdere ”beste” beste dekkingsregels zijn dan hoeft u daar maar 1 van af te leiden. zie tabel op volgende bladzijde (1 punt) 5. Reken uit hoeveel entropy(1,4) bedraagt. Geef niet alleen een getal als antwoord maar laat alle stappen van de berekening zien. (1 punt) Er had moeten staan: bereken info[1,4]. info[1,4] = entropy(1/5,4/5) entropy(1/5,4/5) = -1/5 * log(1/5) - 4/5 * log(4/5) = 0.464 + 0.258 = 0.722 bits
  2. 2. if ? then recommendation = soft - age = young 2/8 - age = pre-pres. 2/8 - age = pres. 1/8 - spec. pres. = myope 2/12 - spec. pres. = hyperm. 3/12 - astig. = no 5/12 - astig. = yes 0/12 - tear pr. = reduced 0/12 - tear pr. = normal 5/12 if astig. = no and ? then recommendation = soft - age = young 2/4 - age = pre-pres. 2/4 - age = pres. 1/4 - spec. pres. = myope 2/6 - spec. pres. = hyperm. 3/6 - tear pr. = reduced 0/6 - tear pr. = normal 5/6 if astig. = no and tear pr. = normal and ? then recommendation = soft - age = young 2/2 - age = pre-pres. 2/2 - age = pres. 1/2 - spec. pres. = myope 2/3 - spec. pres. = hyperm. 3/3 if astig. = no and tear pr. = normal and spec. pres. = hyperm. then recommendation = soft
  3. 3. 6. Bij een clusteringprobleem met zes datapunten en drie clusters als doel, start k-means in de volgende situatie (o: datapunten 1-6; x: clustercentra A-C; afstanden C4 = A3 > B4 = B3). Hoe liggen de clustercentra nadat het algoritme is toegepast? (1/2 punt) Is die eindsituatie optimaal? Gezien het aantal clusters en de ligging van de datapunten is deze eindsituatie optimaal. (1/2 punt) 7. Leg het concept Lift uit aan de hand van een voorbeeld uit Tabel ”Performance of the Profiling Mod- ule” op bladzijde 69. Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt) Bijvoorbeeld, de apriorikan op een kind in de leeftijd 2 tot en met 11 is 0.2482. In de se- lectie van het profilingsysteem is deze kans 0.8421. De lift veroorzaakt door het systeem is 0.8421/0.2482=3.39. 8. Het ADS-systeem krijgt via PVRs alleen te zien waarnaar gekeken wordt en niet wie er kijkt. Hoe komt het systeem desondanks aan modellen gebaseerd op leeftijd en geslacht van de kijker? De training set bevat de samenstellingen van de huishoudens (leeftijden, geslachten) en door dit te combineren met het kijkgedrag kunnen modellen geleerd worden die aan de hand van het kijkgedrag een schatting doen van de samenstelling van het huishouden. (1 punt) 9. De Profiling Module deelt verschillende huishoudens in in clusters. Als je die clusters vergelijkt met de vormen genoemd in sectie 4.8 van het Dataminingboek, zijn ze dan exclusief, overlappend of probabilistisch? Probabilistisch; er wordt met een percentage aangeduid hoe groot de kans is dat een huishouden tot een bepaald cluster hoort. (1 punt) 10. Aan het einde van de sectie ”Departure from Traditional Role” doen de auteurs vier voorstellen over hoe om te gaan met de verzamelde informatie. Wat vindt u van deze voorstellen? Licht uw antwoord toe. eigen mening (1 punt)

×