Resumen: Los corpus de textos son herramientas de larga tradición y numerosas aplicaciones. De todos los tipos existentes, este trabajo se centra en uno en concreto: el corpus paralelo alineado. Tomando como punto de partida un corpus paralelo alineado de textos museísticos escritos originariamente en inglés y traducidos al español, se propone una metodología que pasa por cuatro fases esenciales. Con el apoyo de trabajos previos al respecto, y tras el recurso a programas de software -de pago y gratuitos, específicos y creados con otros fines-, se comprueba que, si bien es posible llevar a cabo la compilación del corpus, el camino está lleno de obstáculos, algunos salvables y otros no, como ha sucedido con la conservación de repeticiones en el corpus alineado.Palabras clave: lingüística de corpus, textos museísticos, traducción, textos paralelos alineados, bitextos.
DESIGNING AND COMPILING PARALLEL ALIGNED CORPORA: PITFALLS AND (SOME) SOLUTIONS ON THE EXAMPLE OF A CORPUS OF TRANSLATED MUSEM TEXTS (ENGLISH-SPANISH)Abstract: Text corpora are tools having both a long tradition in research and a variety of applications. Of all existing types, this paper focuses specifically on parallel, aligned corpora. By taking one of this corpora as a starting point-a parallel, aligned corpus from museum texts originally written in English and subsequently translated into Spanish-, the aim of this article is to propose a methodology that consists of four basic stages. By the revision of previous literature on the topic, and by using multiple software programs-proprietary and free, specifically created for corpus compilation and created for other purposes-, it is concluded that, although the compilation of corpora such as the one that was intended is a feasible task, the procedure is full of obstacles. Some obstacles were overcome, while some were not; that is the case, for example, of the repetitions on the aligned corpus, which are not present in the corpus.Key words: corpus linguistics, museum texts, translation, parallel-aligned texts, bitexts.
S[ource texts] and T[arget texts] are usually published in separate volumes, or on separate pages […] so that making comparisons between the two requires a good deal of patience. (Harris, 1988, p. 8)
INTRODUCCIÓNLa opinión de que la lingüística de corpus ha sido un campo de estudio prolífico desde hace tiempo es unánime. Son numerosos los trabajos que se consideran clásicos en este campo, como es el caso de las contribuciones de Sinclair (1991), Baker (1995), EAGLES (1996) y McEnery y Wilson (2001, primera edición publicada en 1996), por citar solo unos pocos.1 Las investigaciones que hacen uso de los corpus como herramienta metodológica en los últimos años siguen siendo muy numerosas, como lo demuestran Zanettin, Saldanha y Harding (2015:180) en referencia a los estudios de traducción, ya que "in the last ten years or so about 1 out of 10 publications in the field has been concerned with or informed by corpus linguistics methods" (Fantinuoli y Zanettin, 2015:8). Un ejemplo más, ig...