De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues?
Upcoming SlideShare
Loading in...5
×
 

De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues?

on

  • 264 views

Pendant 30 ans l'application des technologies informatiques aux defis ...

Pendant 30 ans l'application des technologies informatiques aux defis
de la recherche en sciences humaines et sociales s'est revelee d'une
importance croissante, presque a devenir incontournable pour ceux qui
s'occupe des aspects culturelles de la vie contemporaine, vu
l'omnipresence de l'informatique la-dedans. Cette application des
technologies omnipresentes s'est meme dotee d'une nouvelle nomination,
revelant ainsi son status comme discipline emergeante: les humanites
numeriques. En traceant l'evolution de ce terme, et de ses usages
actuels, je propose de faire un peu le bilan des resultats concrets de
ces experiences jusqu'a present et de reflechir sur les effets
concretes a attendre dans nos disciplines linguistiques.

Statistics

Views

Total Views
264
Views on SlideShare
264
Embed Views
0

Actions

Likes
0
Downloads
5
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues? De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues? Presentation Transcript

    • De ‘Literary and Linguistic Computing’ jusquaux ‘Humanites numeriques’quelle importance pour la science des langues? Lou Burnard 1/52
    • 2/52
    • 3/52
    • Textes numériques vs. données numériquesLe traitement informatisé des données concerne les chiffres,les quantités, les tendances statistiques...Le traitement informatisé des textes concerne les mots,lécriture, la langue...Linformatique a donc systématiquement opposé les“donnees” aux “textes”en traitant les textes comme si elles étaient des donnéesen traitant les donnees comme si elles nétaient pas des textes 4/52
    • (cf Burnard, 1984) 5/52
    • eBooksLes textes numériques se présentent comme des livresimprimés... mais on ne doit pas se laisser séduire par lesmétaphores !Est-ce quon numérise les textes juste pour le plaisir de lesdistribuer dans un nouveau marché avec une nouvelletechnologie ? . 6/52
    • ConclusionsIl ny a pas de retour sur le tournant numérique: lesinfrastructures scientifiques sont désormais numeriséesLes modèles économiques de linfrastructure scientifique sonten train dévoluerLes changements plutot quantitatifs apportées par lenumérique provoquent des changements qualitatifs.La numérisation massive rend possible de nouveauxperspectives sur la langue. 7/52
    • Le numérique incontournableLes objets de recherches dans les SHS sont devenusnumériquesLes méthodes des SHS ne peuvent pas échapper àlenvironnement technologique qui nous englobeUne transition du “web de documents” vers le “web dedonnées” seffectue actuellementLes questions politiques et culturelles restent, mais leurcontexte évolue dans un monde de plus en plus “ouvert”Pour commencer, une petite leçon dhistoire... 8/52
    • 9/52
    • 1949-1980Lage des héros ... Padre Busa et lIndex Thomasticum The Brown Corpus Thesaurus Linguae Graecae etc.Concordances, analyse stylistique, études sur lauctorialité,corpus de langueLordinateur central géré par des ingenieurs sérieux en blouseblanche lançait des travaux en batch qui étaient transmis à unefile dattente puis exécutés pour produire des sorties 10/52
    • Colloque ALLC No. 6 (1980) 11/52
    • Problèmes dauctorialitéFrom A.Q. Morton Paul, the man and the myth (1966) 12/52
    • LLC: ce qui compte, cest de compterLes objets et les résultats principes sontLes concordances (un objet en lui meme)Des statistiques riches et complexesIl y a une hypothèse plus ou moins explicite que le “style” ou“registre” seraient identifiable de manière statistiqueAux Etats Unis, histoire de “cliometrics” et Time on the Cross(1974) 13/52
    • LLC est également une revue et un colloque.http://llc.oxfordjournals.org/. 14/52
    • LLC est vivant et bien vivant en FranceText considéré comme un phénomène statistiqueMaurice Tournier Les mots de mai 68Analyse factorielle et fouille de donnéesApplications marketingTextometrie 15/52
    • 16/52
    • 1980-1994InstitutionalisationLes historiens réinvestissent le champsHumanities Computing : une Discipline Universitaire ?Projet “text encoding” 17/52
    • Années 80 : décennie dune foi illimitée dans les technologies Dans les universités les ressources et méthodes numériques bien que percues comme étranges et difficiles trouvaient aussi leur place Au Royaume Uni Computers in Teaching Initiative Arts and Humanities Data Service Une nouveauté ou une amélioration du passé? Larrivée du centre HC 18/52
    • CommunautésE-mail et listes de diffusion : HumanistParadigmes de texte eléctronique Oxford Text Archive, Projet Gutenberg Publishing sur CD-ROM : OEDTraitement de langage naturel et intelligence artificielFinancement public important pour des activitésdinfrastructureA la fois national and européenPeut on gagner de largent dans la publication electronique?Linformatique personelle? Sur l Internet? 19/52
    • InstitutionalisationDe nouveaux instances denseignment et de support pourlapplication de linformatique aux SHS apparaissentEn faisant le bilan, on les valorise... 20/52
    • Réapparition de la quellenkritikEn France, J-P Genet et dautres proposent lidée que lesdonnées historiques une fois numerisées pourraient servir àenrichir une analyseEncore systematisée en Allemagne par Manfred Thaller avec lelogiciel kleio, un sgbd textuel avant la lettreUne Association for History and Computing nait en 1987 21/52
    • Défi pour le HCMais Humanities Computing ne possède aucune théoriesousjacente!Quel principe peut on identifier pour justifier la mise enrelation des outils employés par le HC ?On propose les traditions scientifiques (”scholarly primitives”) La recherche effectuée selon des traits externes Lanalyse selon des traits internes Les associations selon des perceptions partagéesCe qui serviraient à valoriser et controler lefficacité des outilsproposés 22/52
    • Its all about modelling, stupid 23/52
    • 24/52
    • Les inconvenients des ressources numériques (circa 1989) Elles ne fonctionnent pas (Il faut bien choisir son ordinateur pour les faire fonctionner) Elles sont difficiles a trouver Elles ne sont pas disponible en BU, ni mentionnées dans les revues Elles ne sont pas cataloguées de manière cohérent, ou pas du tout Elles ne sont pas fiables Elles émergent dun contexte inconnu, pas (toujours) très scientifique Elles bougent tout le temps Elles ne restent pas au memes endroit Elles disparaissent, se transforment, ou deviennent inutisables sans préavis Et surtout... . Elles utilisent vraiment trop de plusieurs formats dencodage 25/52
    • Leffet BabelBien sûr il existe plusieurs lectures possibles pour la plupart destextes...... et (malheureseument) plusieurs manières dexpression pour ceslectures! 26/52
    • Encodage ou babel?Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats diversMauvaise nouvelle: on en a besoin 27/52
    • Encodage ou babel?Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats diversMauvaise nouvelle: on en a besoin 27/52
    • Encodage ou babel?Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats diversMauvaise nouvelle: on en a besoin 27/52
    • La science repose sur une continuité des connaissances Conserver les “bytes” dun encodage ne suffit pas Il faut aussi une continuité de compréhension: lencodage doit etre auto-descriptif Transmettre nos interprétations . Doù l importance de laTEI (Text Encoding Initiative) http://www.tei-c.org . 28/52
    • TEI: le résultat le plus significatif de HC?Dorigine une réponse aux problèmes posés par lincohérencedes formats et le manque des standards numériquesLa TEI est devenue un seul modèle encyclopédique des“particularités significatives” des ressources textuellesEt une infrastructure capable de répondre aux besoins etpriorités évolutifs de la communauté scientifique 29/52
    • Exemple: les tablettes Vindolanda 30/52
    • TEI en pratiqueTravaux collaboratifs de transcription scientifiqueDes conventions Leiden au standard Epidoc 31/52
    • 32/52
    • 1995 - ?Pendant que nous théorisions... Le web est arrivé! Le tournant numérique transforme les archives et les bibliothèques La numérisation de masse seffectue Les traitements numériques se déplacent sur des grilles de services, et/ou des systèmes domestiques Les résaux sociaux emergent sur InternetConvergence et travaux collectifs : méthodes ‘scientifique’ On sinteroge sur, par exemple, lédition classique, et les méthodes collectives (cloud/crowd computing) On saperçoit du besoin des infrastructures numériques 33/52
    • La cycle de vie scientifique 34/52
    • Les humanités numériques sont partoutComme M Jourdain, je fais des digital humanities sans lesavoir?Les DH ne sont-elles quune gamme de technologies a lamode?“When the mode of the music changes, the walls of the palaceshake” 35/52
    • Digital humanities Manifesto 2.0http://dev.cdh.ucla.edu/digitalhumanities/2009/05/29/the-digital-humanities-manifesto-20/#0 36/52
    • Les manifestes, ça on les connait... 37/52
    • Définition1. Le tournant numérique pris par la société modifie etinterroge les conditions de production et de diffusion dessavoirs....3. Les digital humanities désignent une transdiscipline,porteuse des méthodes, des dispositifs et des perspectivesheuristiques liés au numérique dans le domaine des Scienceshumaines et sociales.. 38/52
    • Nous constatons...que se sont multipliées les expérimentations dans le domainedu numérique en SHS depuis un demi-siècle ;que le numérique induit une présence plus forte descontraintes techniques et donc économiques dans larecherche  ; que cette contrainte est une opportunité pourfaire évoluer le travail collectif  ;qu’il existe un certain nombre de méthodes éprouvées,inégalement connues et partagées  ;qu’existent de multiples communautés particulières issues del’intérêt pour des pratiques, des outils ou des objetstransversaux divers 39/52
    • DéclarationsNous, acteurs des digital humanities, nous nous constituons encommunauté … sans frontières. … multilingue etmultidisciplinaire.Nous avons pour objectifs ... l’enrichissement du savoir et dupatrimoine collectif, au-delà de la seule sphère académique.Nous appelons à l’intégration de la culture numérique dans ladéfinition de la culture générale du XXIe siècle. 40/52
    • The economics of abundanceDigital Humanities implies the multi-purposing and multiplechanneling of humanistic knowledge: no channel excludes theother. Its economy is abundance based, not one based uponscarcity ... though notions of humanistic research are everywhereunder institutional pressure, there is (potentially) plenty for all. And,indeed, there is plenty to do. 41/52
    • Limportance de ne pas lire“What can you do with a million books?” (Greg Crane)“Although there is still a need for close-reading... we neverdont not read” (John Unsworth)Une nouvelle synthèse de methodes : Linguistique de corpus Reconnaissances des patrons Data mining Visualisationou une réappropriation des techniques anciens? 42/52
    • Le défi: comprendre lénormité des données disponibles Quelques outils disponible aujourdhui pour traiter un million de livres: http://books.google.com/ngrams http://www.etalab.gouv.fr/ http://rechercheisidore.fr/ Mais bouger de létude de loeuvre a létude du contexte reste problematique pour certains ... 43/52
    • http://www.scottishcorpus.ac.uk/corpus/diaview/ 44/52
    • 45/52
    • 46/52
    • Comment effectuer une telle démarche?Its not rocket science (pas besoin davoir fait saint cyr) !Un balisage riche et sémantique ( par exemple TEI-XML)Une politique dOpen AccessUne infrastructure permettant lintégration et larchivagepérenne des données 47/52
    • Repenser lédition numériqueOn est dans un monde où les documents prolifèrent, mais lestextes risquent de disparaitreNous avons besoin de conserver nos interprétations, noslectures, pour construire les éditions numériquesSans perdre les vertus traditionelles dun empirisme sceptique 48/52
    • Composants de lédition numériqueImages de pages (ou dautres surfaces)Transcriptions, éventuellement annotéesEdition/s synthètiquesTraduction modernes, sommairesAnnotations paratextuelles, glossaires, prefaces,bibliographie...Descriptions des sources; métadonnéesPointeurs sur des “Factoids” 49/52
    • ConvergenceLe numérique nous permet, voire oblige, den faire des mashup : par exemple de combiner : Un SIG sur les lieux dans la mer d Aegéan Un index cartographique des toponymes de la meme région Un corpus de textes où ces toponymes sont attestés (La TEI traite maintenant et les entités nommées et leur noms)De telles activités nécéssitent des compétences philologiques,a priori nonautomatisableEt une politique daccès ouvert 50/52
    • Un rôle majeur pour les SHSNous comprenons les objets textuels De quelle manière se presente ce discours? Quelles sont les histoires quil raconte?Nous connaissons lhermeneutique quelle est la portée de ce discours? Quest-ce quil veut dire – mais ne dit pas ?Voici notre contribution au web sémantique. 51/52
    • Merci de votre attention! 52/52