Logiciels dATAO Tableau synoptique empirique
Préparation du texte |
Limites |
Segmentation |
Liste alpha/ lexicom |
Etendue du texte : nb total doccurrences (N)/ nb de mots distincts (V) |
« richesse » vocab ; type/token |
Lemmatisation |
Répartition ds texte |
Segments répétés |
Concordance KWIC |
Références au texte ds concordance |
Concordance triée gauche/dte |
Co-occurrences, collocations &c, sémantique, thématique &c |
Spécificités internes/externes, endogènes/exogènes |
Tableau lexical de contingences |
AFC |
Distance textuelle |
Résumé |
||
Alceste (version 4.5 sans module anglais, version 4.6 avec module anglais) |
.txt ; repères ( ¹balises) **** *nombalise_valeur dautre part, $ indique fin naturelle d une « u.c.i. » e.g. fin dun vers en poésie, donc caractère dominant |
Intéressant pour grands corpus homogènes ; mais au-delà de 3 Mo de corpus, choisir version supérieure à 4.6 |
Logiciel découpe texte en u.c.e. |
Nb total doccurrences, nb de mots distincts avant et après « lemmatisation » qui aboutit à « formes réduites », mais pbs avec corpus anglais |
Aboutit à « formes réduites » : problématique, au moins pour langlais, e.g. « pass+ »à pass, passage, passion(s) |
Oui, mais ds cadre des « classes » de vocab |
Concordance des mots analysés |
oui |
Non |
Co-occurrences= base de méthodol ds cadre des u.c.eè calcul des « classes » de vocab ; ambition sémiotique |
Oui, ds cadre des classes de vocabulailre |
Oui, + difficile à interpréter ds version 4.6 ; + autres graphes difficiles à interpréter |
u.c.e. représentatives de chaque classe, mais ne prétendent pas faire office de résumé |
Alceste |
|||||
Hyperbase 5.5 |
.txt ; &&&Nomlong, nomcourt, abrev&&& pages indiquées par $n sur une ligne à part |
>= 75 ou 82 textes maxi ds une base, par + de 500.000 mots par texte |
Indexation : soit respecte le découpage balisé e.g. en pages (lent), soit découpe en unités automatiques (rapide) |
Liste seult hautes fréquences ; liste de distribution des fréquences ; nb dhapax sans liste |
Oui |
Oui (bogue pour richesse vocab?) ; +chronologie |
Oui |
Oui : forme, lemme, expression, initial, final, chaîn, « tout » (max 360) |
oui |
Oui |
Fonction « liste » ; corrélats (lien avec Alceste ?) |
Internes ET/OU externes (BNC, TLF)) |
Tableau lexical entier pas accessible ; fonction « liste » à tableau de contingence |
Oui (mais pb ? avec base Valentin) |
Oui ; algorithme de Labbé : distribution réelle/écart maxi poss de cette distribution |
Phrases-clés « faisant office de résumé » |
Hyperbase 5.5 |
||
Lexico2 |
.txt; tout en minuscules; balises entre < > : <nomvariable = valeur_variable_sans_espace> |
oui |
non |
oui |
Oui, mais indique réf de ln° de ligne seulement |
non |
Oui, internes |
Lexico2 |
|||||||||||
Lexico3 |
Mm que pour Lexico2 |
chronologie |
Pts carrés à topographie textuelle |
Oui, bien sûr ! |
Ref au numéro de ligne ds le corpus è pas très commode |
types généralisés= nouveau ; + subjectif |
Oui, internes |
Lexico3 |
|||||||||||
(Win)Spad5.5 |
.txt; ----(4 traits dunion) suivi de nb; fin du texte ==== ; sous-parties ++++ |
Dépassement de capacité pour analyse des corres binaires à fichier Wesley 1-74 denviron 385.000 occurrences ou 2,2 Mo |
Récupérables Excel |
oui |
Pas automatique ; possible manuelle |
« SEGME » Par ordre alpha ou lexicom |
« CORDA » Oui, classée par ordre dapparition ds corpus |
Sans doute poss sous Excel |
« MOTEX » & « TALEX » Demander affichage tableur |
Oui, mais .dépassement de capacité à Wesley 1-74 |
(Win)Spad5.5 |
||||||||
MonoconcPro 2.2 |
.txt ; les balises peuvent être de type COCOA ou bien dautres étiquetages (en particulier morpho-syntaxiques) ; inutile de passer par une étage de constitution dun corpus figé |
« very high » ; no limit to the size of the corpus but « there may be a limit on the number of files loaded » |
Liste alpha/ lexico |
Etendue du texte (N) et nombre de mots distincts (V) |
Pas calculé automatiquement |
Non ; possible de chercher des lemmes définis grâce aux opérateurs de troncature |
Oui, avec visualisation de la répartition |
Concordance KWIC, |
Oui : localisation des occcurrences avec références à la structure du texte (e.g. n° de texte, n° de page) en bas de la fenêtre, grâce aux balises |
Oui, à gauche, à dte, ds ordre du texte ; collocations en différentes couleurs |
Uniquement exogène ; calcule uniquement une probabilité logarithmique |
Non |
Non |
Non |
MonoConcPro 2.2 |
||||
TACT 2.1.4 (juin 1995) sous DOS! |
.txt ; balises COCOA |
Sous DOS; ne convient pas aux grands corpus |
Oui |
oui |
Oui |
Non |
oui |
oui |
non |
TACT |
|||||||||
Weblex |
Envoyer corpus par Internet à re-codé en LML (variation sur SGML) |
Partitionnement défini par utilisateur avant usage du logiciel (e.g. auteur, date, titre chapitre, etc) , mais poss de segmentation automatique en pages |
Oui : Vocabulaire |
Oui : Dimensions |
Logiciel sait traiter corpus préalablement lemmatisé, mais pas de lemmatisation offerte |
Oui : Répartition (« rafales ») |
Oui (N-Grammes) |
Oui, contexte souple |
Oui |
Oui |
Oui -> « lexicogrammes » (affichage graphique possible) |
Oui, strictement endogènes |
Weblex |
||||||
Wordmapper 6.5 |
Pas nécessairement .txt ; aussi .doc, rtf,.htm etc ; [« variables signalétiques » ds cartouches] |
Sample=ok (1658 Ko) Mais pb ? avec Wesley 1-74 (2130 Ko, environ 380.000 mots)) |
En labsence de variable signalétique, découpe le texte en blocs numérotés ; Calculs ds fenêtres denviron 15 mots (longueur modulable) |
Tous les mots >= freq 3, en liste lexico (pas alpha), ds « statistiques » : fichier Excel |
Non |
Non |
Oui mais poss de modif manuelle |
Non |
signifiants |
Non |
Non |
Non |
clusters ou agrégats; 3 niveaux de cartographie ; ds « statistiques » calcul de co-occurrence à fichier Excel |
« mots signifiants » 600 par défaut, jusque 1000 pour graphique, sinon jusque 5000 endogène |
Matrice des associations de mots signifiants |
Oui, croise variables signalétiques & mots signifiants : graphique + fichier Excel |
non |
Bof !« classement automatique et résumé » ds « WordMap » cite phrases comportant mots-clés ou clusters signifiants par ordre de fréquence ou d »originalité » |
Wordmapper |
Wordsmith 3.0 |
Preferably .txt ; tags |
virtually unlimited; <8M word entries; need 10Mb spare on hard disk |
Wordlist |
Non seulement N/V, mais aussi « standardised type/token ratio » |
Not by default, but poss (manual or automatic) |
repeated word clusters, ds cadre de concordance, pas liste générale |
Concord |
En ppe, oui ; ms pas réussi ds exp. |
Oui: resort [retrier] concordance |
Key words & key key words! Tjs exogène |
Wordsmith 3.0 |
||||||||
Wordsmith4 |
Co ds Wordsmith3, inutile de passer par une étage de constitution dun corpus figé |
Maximum word frequency= 2 147M words |
Not by default, but poss (manual, or create a lemma file then compare) |
Wordsmith4 |
|||||||||||||||
Préparation du texte |
Limites |
Segmentation |
List alpha/ lexicom |
Etendue du texte (N) |
« richesse » vocab ; type/token |
Lemmatisation |
Répartition ds texte |
Segments répétés |
Concordance KWIC |
Références au texte ds concordance |
Concordance triée gauche/dte |
Co-occurrences, collocations &c, sémantique, thématique &c |
Spécificités |
Tableau lexical de contingences |
AFC |
Distance textuelle |
Résumé |