Logiciels dATAO Tableau synoptique empirique

Préparation

du texte

Limites

Segmentation

Liste alpha/

lexicom

Etendue du texte : nb total doccurrences

(N)/ nb de mots distincts (V)

« richesse » vocab ; type/token

Lemmatisation

Répartition ds texte

Segments répétés

Concordance KWIC

Références au texte ds concordance

Concordance triée gauche/dte

Co-occurrences, collocations &c, sémantique, thématique &c

Spécificités internes/externes, endogènes/exogènes

Tableau lexical de contingences

AFC

Distance textuelle

Résumé

Alceste

(version 4.5 sans module anglais, version 4.6 avec module anglais)

.txt ; repères ( ¹balises)

**** *nombalise_valeur

dautre part, $ indique fin naturelle d une « u.c.i. » e.g. fin dun vers en poésie, donc caractère dominant

Intéressant pour grands corpus homogènes ; mais au-delà de 3 Mo de corpus, choisir version supérieure à 4.6

Logiciel découpe texte en u.c.e.

Nb total doccurrences, nb de mots distincts avant et après « lemmatisation » qui aboutit à « formes réduites », mais pbs avec corpus anglais

Aboutit à « formes réduites » : problématique, au moins pour langlais, e.g. « pass+ »à pass, passage, passion(s)

Oui, mais ds cadre des « classes » de vocab

Concordance des mots analysés

oui

Non

Co-occurrences= base de méthodol ds cadre des u.c.eè calcul des « classes » de vocab ; ambition sémiotique

Oui, ds cadre des classes de vocabulailre

Oui, + difficile à interpréter ds version 4.6 ; + autres graphes difficiles à interpréter

u.c.e. représentatives de chaque classe, mais ne prétendent pas faire office de résumé

Alceste

Hyperbase 5.5

.txt ;

&&&Nomlong, nomcourt, abrev&&&

pages indiquées par $n sur une ligne à part

>= 75 ou 82 textes maxi ds une base, par + de 500.000 mots par texte

Indexation : soit respecte le découpage balisé e.g. en pages (lent), soit découpe en unités automatiques (rapide)

Liste seult hautes fréquences ; liste de distribution des fréquences ; nb dhapax sans liste

Oui

Oui (bogue pour richesse vocab?) ;

+chronologie

Oui

Oui : forme, lemme, expression, initial, final, chaîn, « tout » (max 360)

oui

Oui

Fonction « liste » ; corrélats

(lien avec Alceste ?)

Internes ET/OU externes (BNC, TLF))

Tableau lexical entier pas accessible ; fonction « liste » à tableau de contingence

Oui (mais pb ? avec base Valentin)

Oui ; algorithme de Labbé : distribution réelle/écart maxi poss de cette distribution

Phrases-clés « faisant office de résumé »

Hyperbase 5.5

Lexico2

.txt; tout en minuscules; balises entre < > : <nomvariable = valeur_variable_sans_espace>

oui

non

oui

Oui, mais indique réf de ln° de ligne seulement

non

Oui, internes

Lexico2

Lexico3

Mm que pour Lexico2

chronologie

Pts carrés à topographie textuelle

Oui, bien sûr !

Ref au numéro de ligne ds le corpus è pas très commode

types généralisés= nouveau ; + subjectif

Oui, internes

Lexico3

(Win)Spad5.5

.txt; ----(4 traits dunion) suivi de nb;

fin du texte ==== ;

sous-parties ++++

Dépassement de capacité pour analyse des corres binaires à fichier Wesley 1-74 denviron 385.000 occurrences ou 2,2 Mo

Récupérables Excel

oui

Pas automatique ; possible manuelle

« SEGME »

Par ordre alpha ou lexicom

« CORDA »

Oui, classée par ordre dapparition ds corpus

Sans doute poss sous Excel

« MOTEX » & « TALEX »

Demander affichage tableur

Oui, mais.dépassement de capacité à Wesley 1-74

(Win)Spad5.5

MonoconcPro 2.2

.txt ; les balises peuvent être de type COCOA ou bien dautres étiquetages (en particulier morpho-syntaxiques) ;

inutile de passer par une étage de constitution dun corpus figé

« very high » ; no limit to the size of the corpus but « there may be a limit on the number of files loaded »

Liste alpha/ lexico

Etendue du texte (N) et nombre de mots distincts (V)

Pas calculé automatiquement

Non ; possible de chercher des lemmes définis grâce aux opérateurs de troncature

Oui, avec visualisation de la répartition

Concordance KWIC,

Oui : localisation des occcurrences avec références à la structure du texte (e.g. n° de texte, n° de page) en bas de la fenêtre, grâce aux balises

Oui, à gauche, à dte, ds ordre du texte ; collocations en différentes couleurs

Uniquement exogène ; calcule uniquement une probabilité logarithmique

Non

MonoConcPro 2.2

TACT 2.1.4

(juin 1995)

sous DOS!

.txt ; balises COCOA

Sous DOS; ne convient pas aux grands corpus

Oui

oui

Oui

Non

oui

non

TACT

Weblex

Envoyer corpus par Internet à re-codé en LML (variation sur SGML)

Partitionnement défini par utilisateur avant usage du logiciel (e.g. auteur, date, titre chapitre, etc) , mais poss de segmentation automatique en pages

Oui : Vocabulaire

Oui : Dimensions

Logiciel sait traiter corpus préalablement lemmatisé, mais pas de lemmatisation offerte

Oui : Répartition (« rafales »)

Oui (N-Grammes)

Oui, contexte souple

Oui

Oui -> « lexicogrammes » (affichage graphique possible)

Oui, strictement endogènes

Weblex

Wordmapper 6.5

Pas nécessairement .txt ; aussi .doc, rtf,.htm etc ;

[« variables signalétiques » ds cartouches]

Sample=ok (1658 Ko)

Mais pb ? avec Wesley 1-74 (2130 Ko, environ 380.000 mots))

En labsence de variable signalétique, découpe le texte en blocs numérotés ;

Calculs ds fenêtres denviron 15 mots (longueur modulable)

Tous les mots >= freq 3, en liste lexico (pas alpha), ds « statistiques » : fichier Excel

Non

Oui mais poss de modif manuelle

Non

signifiants

Non

clusters ou agrégats; 3 niveaux de cartographie ; ds « statistiques » calcul de co-occurrence à fichier Excel

« mots signifiants » 600 par défaut, jusque 1000 pour graphique, sinon jusque 5000

endogène

Matrice des associations de mots signifiants

Oui, croise variables signalétiques & mots signifiants : graphique + fichier Excel

non

Bof !« classement automatique et résumé » ds « WordMap » cite phrases comportant mots-clés ou clusters signifiants par ordre de fréquence ou d »originalité »

Wordmapper

Wordsmith 3.0

Preferably .txt ; tags

virtually unlimited; <8M word entries; need 10Mb spare on hard disk

Wordlist

Non seulement N/V, mais aussi « standardised type/token ratio »

Not by default, but poss (manual or automatic)

repeated word clusters, ds cadre de concordance, pas liste générale

Concord

En ppe, oui ; ms pas réussi ds exp.

Oui: resort [retrier] concordance

Key words & key key words!

Tjs exogène