• Like
Languages lse
Upcoming SlideShare
Loading in...5
×
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
765
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
5
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. A corpus-based approach to thecategorization of minority languages Giancarlo Luxardo EEE (Europe, Européanité, Européanisation) – CNRS Université Michel de Montaigne Bordeaux 3 Maison des Sciences de lHomme dAquitaine 2012 LSE MI Conference on Text-Mining Methods
  • 2. 1 - A text corpus about categorization of minoritylanguages in Europe2 - Classification in “lexical worlds”3 - Corpus partition and authors specificities4 - Correspondence analysis 2012 LSE MI Conference on Text-Mining Methods
  • 3. 2012 LSE MI Conference on Text-Mining Methods
  • 4. 2012 LSE MI Conference on Text-Mining Methods
  • 5. “regional or minority languages” means languages that are:i) traditionally used within a given territory of a State by nationalsof that State who form a group numerically smaller than the rest ofthe States population; andii) different from the official language(s) of that State; it does notinclude either dialects of the official language(s) of the State or thelanguages of migrants;European Charter for Regional or Minority Languages, 1992 2012 LSE MI Conference on Text-Mining Methods
  • 6. 1 - A text corpus about categorization of minority languages in Europe➔ A corpus assembled with linguistic or legal texts➔ Information Retrieval: keywords-based navigation➔ Intertextuality: recognize the associations➔ Different disciplinary approaches: linguistic, geographic, legal...➔ Different languages: French, English, Russian...➔ Objective: identify a typology of notions about languages based on their interrelationships (not: a classification scheme for the languages) 2012 LSE MI Conference on Text-Mining Methods
  • 7. Excerpt example« Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues"en voie de disparition" en ex-URSS : selon lui, prés de cent trentelangues étaient alors parlées sur ce territoire, dont certaines comme le ioughou le kerek par deux ou trois personnes seulement. En même temps, elles neservent pas exactement aux mêmes choses, ne véhiculent pas les mêmescontenus, ne régulent pas les mêmes rapports sociaux. Comment évaluerl’importance relative de ces langues ? Certains adjectifs mal définis serventparfois à en donner une idée : langues minoritaires, régionales, petiteslangues, langues moins parlées pour les unes, langues véhiculaires,grandes langues, langues internationales pour les autres... Mais cesclassifications sont loin d’être univoques et relèvent plus de l’idéologie oudes rapports de force que de la science ».Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritableplurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48,2000, pp.10-16 [p.12]. 2012 LSE MI Conference on Text-Mining Methods
  • 8. … another exampleOnce again, the stress must be on the speech network and the speechcommunity. We need to learn to keep our eyes on the ball and to moreoften study minority and other threatened languages in situ, wherelanguage behaviour actually and unselfconsciously lives. Of course, weneed to study authority structures, reward systems and organisations too,as most of us have long been doing, but the balance is now too far in thatdirection and some redirection of emphasis would seem to be very muchin order.Fishman, Joshua A.. -“Endangered Minority Languages: Prospects forSociolinguistic Research”, In: Protecting Endangered MinorityLanguages: Sociolinguistic Perspectives, International Journal onMulticultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp.275 [p. 274]. 2012 LSE MI Conference on Text-Mining Methods
  • 9. A sub-corpus in French: CLME (Catégories de Langues Minoritaires en Europe)● Types of sources: single author monographs, collective publication, journal report, experts report (EU)● Dimension: 207 excerpts 25 authors Occurrences: 23 000 Words: 4 200 Lemmas: 3 100 2012 LSE MI Conference on Text-Mining Methods
  • 10. 104 notions identified1 créole 25 langue dominante minoritaire2 dialecte 26 langue dominée3 dialecte régional 27 langue dominée écrite4 idiome 28 langue dominée non-écrite5 langue ancestrale 29 langue d’origine6 langue autochtone 30 langue du peuple7 langue commune 31 langue en diaspora8 langue de communication 32 langue en voie de disparition9 langue de communication interethnique 33 langue et culture locales10 langue de diaspora 34 langue grégaire11 langue de la communauté 35 langue historique12 langue de la diaspora 36 langue historique de l’Europe13 langue de la dispersion 37 langue identitaire14 langue de l’émigration et de la diaspora 38 langue identitaire ou grégaire15 langue de migrants 39 langue locale16 langue de minorité nationale 40 langue maternelle17 langue dépourvue de territoire 41 langue menacée18 langue des colonisés 42 langue migrante19 langue des immigrants 43 langue minorée20 langue des migrants 44 langue minoritaire21 langue des pays colonisés 45 langue mixte22 langue d’Etat 46 langue moins parlée23 langue d’immigration 47 langue moins répandue24 langue d’isolat
  • 11. 48 langue nationale 77 langue véhiculaire49 langue native 78 langue de l’immigration50 langue naturelle 79 langue de population migrante51 langue non-écrite 80 langue de population nomade ou semi-52 langue non-nationale nomade53 langue officielle 81 langue locale historique54 langue périphérique 82 langue traditionnelle55 langue première 83 modalité insulaire56 langue propre 84 parler57 langue propre à un territoire 85 parler dialectal58 langue régionale 86 parler périphérique59 langue régionale minoritaire 87 parler vernaculaire60 langue régionale et minoritaire 88 parler local61 langue régionale ou minoritaire 89 parler régional62 langue régionale ou minoritaire historique 90 patois63 langue sans assise territoriale 91 patois local64 langue sans Etat 92 petite langue65 langue seconde 93 première langue66 langue spécifique 94 sabir67 langue allogène 95 variante dialectale68 langue et culture régionale 96 variante locale69 langue immigrée 97 variété70 langue territoriale 98 variété îlienne71 langue créole 99 variété insulaire72 langue des minorités 100 variété linguistique73 langue de famille 101 variété linguistique propre74 langue frontalière 102 variété régionale75 langue pidgin 103 variété dialectale76 langue secondaire 104 vernaculaire
  • 12. Author variableS. AIROLDIS. AKINP. BIDARTP. BLAIRH. BOYERM. BRUNEAUL.-J. CALVETJ.-F. COUROUAUG. DRETTASO. DUCROT – T. TODOROVB. GIBLINH. GUILLORELA. HERDAMG. JETCHEVN. KOULAYANJ.-L. LEONARDY. LESPOUXJ.-B. MARCELLESIF. ROLLANF. SCHANENS. SINTASA. VIAUTJ.M.WOEHRLINGCommission Européenne (Euromosaic) 2012 LSE MI Conference on Text-Mining Methods
  • 13. 2 - Classification in “lexical worlds”● The CLME corpus is submitted to Alceste● Hierarchical Descendant Classification● 5 classes are identified● 77 % of Elementary Context Units are classified 2012 LSE MI Conference on Text-Mining Methods
  • 14. 2012 LSE MI Conference on Text-Mining Methods
  • 15. Five emergent topics(1) catalan, enseignement, variété, propre, loi, castillan, insulaire→ aménagement linguistique, Espagne (Sintas)(2) territoire, traditionnel, charte, dépourvu, pratiquer, aire, article,historique, lien, minoritaire, migrant, déclaration, géographie→ Charte européenne des langues régionales et minoritaires(3) dominer, peuple, exclusif, conflit, analyse, diglossie, social,colonial, idéologie, contact, situation→ colonisation (Boyer)(4) défense, francophone, anglais, périphérique, petit, mondial,supercentrale, hypercentrale, europe→ défense de la francophonie (Calvet)(5) dialecte, français, parlers, nation, patois, état, culture→ dialectes (français, allemand) 2012 LSE MI Conference on Text-Mining Methods
  • 16. CLME corpus imported with TXM 2012 LSE MI Conference on Text-Mining Methods
  • 17. 3 - Corpus partition and authors specificities● AKIN : territoire, dépourvu, immigration, kurde● BOYER : sociolinguistique, diglossique, conflit, représentation, résistance, dominer, occitan, résistance, faveur, partager, inscrire● CALVET (articles) : droit, défense, France, francophonie, périphérique, défendre, PLC [politico-linguistiquement correct], central, réclamer, galicien, ratification, peur● CALVET (ouvrages) : droit, exclusif, local, dialecte, colonial, pays, coloniser, choisir, superstructure, libération, endogène, oppression, exogène● KOULAYAN : diaspora, maternel, origine, diasporique, natif● MARCELLESI : régional, référer, classe, corse, hégémonique, étendue, ressort, oïl 2012 LSE MI Conference on Text-Mining Methods
  • 18. 4 - Correspondence Analysis (1) 2012 LSE MI Conference on Text-Mining Methods
  • 19. Identify “notion items” in the lexical tablesdialecte 64 langue dominante 26 langue dépourvue de territoire 7langue régionale 35 langue régionale ou minoritaire 25 langue commune 6patois 35 langue nationale 23 langue dorigine 6langue minoritaire 34 langue locale 15 langue de communication 5langue officielle 32 langue dEtat 13 langue de diaspora 5parler 28 langue propre 12 langue en diaspora 5langue dominée 26 langue de migrants 7 langue identitaire 5langue maternelle 26 petite langue 5 2012 LSE MI Conference on Text-Mining Methods
  • 20. Correspondence Analysis (2) 2012 LSE MI Conference on Text-Mining Methods
  • 21. Categorisation attempt●les « territorialistes » : SINTAS, COMMISSION, VIAUT (languepropre, langue dEtat)● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN(langue dorigine, langue maternelle, langue dépourvue deterritoire)●les « politistes » : CALVET-ouvrage, BOYER, DUCROT (languenationale, langue dominante, langue dominée, langue locale)● les « historiques » : BLAIR, MARCELLESI, WOEHRLING,GUILLOREL (langue traditionnelle, langue commune, languerégionale, langue de migrants) 2012 LSE MI Conference on Text-Mining Methods
  • 22. “notion items” in Englishdialect 37 variety 8 national language 4minority language 22 mixed language 8 fusion language 4regional language 16 IM language 7 RM language 3vernacular 14 creole 5 Jewish language 3state language 11 patois 4 community language 3official language 11 stateless language 4 endangered language 3 IM: immigration minority RM: regional minority 2012 LSE MI Conference on Text-Mining Methods
  • 23. Thanks for listening! 2012 LSE MI Conference on Text-Mining Methods