• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this document? Why not share!

Dm uitwerkingen wc2

on

  • 399 views

 

Statistics

Views

Total Views
399
Views on SlideShare
399
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Dm uitwerkingen wc2 Dm uitwerkingen wc2 Document Transcript

    • Datamining 2007 antwoordmodel werkcollege-opgaven, week 2N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordtverwacht dat zij normale Nederlandse zinnen gebruiken. 1. Wat is het verschil tussen associatie-regels en classificatie-regels? Associatieregels kunnen elk attribuut voorspellen, classificatieregels alleen de class. Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver- schillende associatieregels verschillende onderliggende regelmatigheden beschrijven. (1 punt) 2. Geef twee methoden voor het behandelen van missende attribuutwaar- den in decision trees. • behandel ”missing value” als een zelfstandige attribuutwaarde • kies de populairste tak voor een instantie met missende waarde • verdeel de instantie met missende waarde over de verschillende takken, waarbij elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak. (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 3. Vind je decision tables een goed methode om kennis in op te slaan voor datamining? Motiveer je antwoord. Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of data? (1 punt) 4. Bij instance learning bestaat het model van de data uit de (onveran- derde) data zelf. Waarin zit de intelligentie van deze methode? Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking is de intelligentie van instance learning. (1 punt) 5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default, except, if, then en else), en een if-then-else-regel die precies dezelfde informatie uitdrukt. (1/2 punt per regel) Voorbeeld: Default: limonade except if alcohol > 1% then bier except if alcohol > 11% then wijn except if alcohol > 16% then sterke drank 1
    • if alcohol > 16% then sterke drank else if alcohol > 11% then wijn else if alcohol > 1% then bier else limonade6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re- gressieboom en een modelboom voor hetzelfde probleem (figuur 3.7 b en c). Leg uit waarom de modelboom nauwkeuriger is. De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes dus nog verder kunnen specificeren. De modelboom combineert de voordelen van regressievergelijkingen en -bomen. (1 punt)7. De plaatjes in het boek bij instance learning (editie 2, figuren 3.8c en 3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus- tering eigenlijk hetzelfde doen? Motiveer je antwoord. Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel instance learning als bij clustering. (1 punt)8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont- dekt. Swanson haalde kernwoorden met een significante frequentie uit artikelen over mi- graine en herhaalde voor elk kernwoord het proces van documenten zoeken en kernwoorden identificeren. Zo kwam hij via ”spreading depression” bij magne- siumtekort. (1 punt)9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald. Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden die bij deze taak zouden kunnen optreden • referenties: hoe weet je dat ”him” naar ”a man” verwijst • ambiguiteit: is ”another American” een derde gegijzelde, of verwijst het naar een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld wordt (en zijn er dus maar 2 gegijzelden). • slaat ”in Iraq” op de verwanten, de man of beiden? • wanneer zijn de 48 uur ingegaan? (goed>=2: 1 punt; 0<goed<2: 1/2 punt)10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom? Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt). 2