Proceedings of the Conference EUROPHRAS 2017 - Computational and Corpus-Based Phraseology: Recent Advances and Interdisciplinar 2017
DOI: 10.26615/978-2-9701095-2-5_001
|View full text |Cite
|
Sign up to set email alerts
|

A Comparison of Three Metrics for Detecting Cross- Linguistic Variations in Information Volume and Multiword Expressions Between Parallel Bitexts

Abstract: Abstract. This paper presents the results of a comparison of three metrics for measuring cross-linguistic variations in information volume between parallel segments of a bilingual corpus. The performance of each metric is compared with the results of a human annotation of multiword expressions (MWEs) in each segment. The first metric measures characters in source and target segments and compares the variation, if any, with the expected character count ratio based on averages for the entire source and target te… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
0
0
3

Year Published

2020
2020
2023
2023

Publication Types

Select...
3

Relationship

0
3

Authors

Journals

citations
Cited by 3 publications
(3 citation statements)
references
References 4 publications
0
0
0
3
Order By: Relevance
“…Une autre méthode empirique d'échantillonnage, que nous avons conçue et utilisée [Poirier, 2021] et qui s'avère prometteuse, est celle de la distance euclidienne entre deux segments, qui s'appuie sur la comparaison formelle de caractéristiques linguistiques comparables entre les segments source et cible et qui sont très fortement en corrélation dans les textes traduits, comme le nombre de caractères et le volume informationnel [Poirier, 2017]. Nos travaux ont montré l'intérêt de cette méthode d'échantillonnage pour les cas où les distances euclidiennes sont très grandes (par exemple, six fois l'écart-type de la distance euclidienne moyenne qui est comptabilisée dans un texte traduit).…”
Section: La Distance Euclidienneunclassified
See 1 more Smart Citation
“…Une autre méthode empirique d'échantillonnage, que nous avons conçue et utilisée [Poirier, 2021] et qui s'avère prometteuse, est celle de la distance euclidienne entre deux segments, qui s'appuie sur la comparaison formelle de caractéristiques linguistiques comparables entre les segments source et cible et qui sont très fortement en corrélation dans les textes traduits, comme le nombre de caractères et le volume informationnel [Poirier, 2017]. Nos travaux ont montré l'intérêt de cette méthode d'échantillonnage pour les cas où les distances euclidiennes sont très grandes (par exemple, six fois l'écart-type de la distance euclidienne moyenne qui est comptabilisée dans un texte traduit).…”
Section: La Distance Euclidienneunclassified
“…La partie saillante de ces méthodes (qui peuvent être déployées automatiquement ou manuellement) repose sur la comparaison de deux paramètres mesurables dans la plupart des langues naturelles, à savoir la longueur des segments en caractères et le nombre de mots lexicaux qu'ils contiennent. Nos travaux récents [Poirier, 2017 ; 2021] ont montré que ces paramètres ont une forte corrélation positive en traduction (supérieure à 0,9 en règle générale et dépassant le plus souvent 0,95) : plus le segment source contient de caractères ou de mots lexicaux, plus la traduction contient de caractères ou de mots lexicaux. La mesure des mots lexicaux et du volume informationnel des traductions permet de distinguer les traductions hétéromorphes (information en surplus ou en moins) des segments isomorphes (même contenu informationnel).…”
unclassified
“…La mesure du ratio PIT peut être faite de façon manuelle par le dénombrement des mots lexicaux, ou de façon automatique à l'aide de l'algorithme PML (précision des mots lexicaux). Les deux méthodes de calcul du ratio PIT sont décrites dans Poirier (2017b).…”
Section: Introductionunclassified