MSD-Manuals DE-ES. A corpus of specialised medical communication as part of the Parallel Corpus of German and Spanish (PaGeS)
Main Article Content
Abstract
Abstract: This paper introduces the MSD Manuals DE-ES corpus, a bilingual German-Spanish supplement to the PaGeS corpus within the PaCorES project, focused on specialised medical communication. The corpus draws on both the professional and general-public versions of the Merck/MSD Manuals, renowned for their reliability and accessibility. Its primary aim is to document the compilation and alignment process of the corpus, which comprises over 500,000 bi-segments and 17.5 million words, distributed across two subcorpora (MSD Manual DE-ES home and MSD Manual DE-ES professional) that reflect distinct communicative registers: expert-to-layperson and expert-to-expert. The methodology combines tools from the MTUOC project with scripts developed using language models such as Copilot and LeChat, enabling the automation of complex tasks including text extraction, alignment, and metadata management. Technical challenges such as data cleaning and segmentation are addressed, and the potential of artificial intelligence in corpus linguistics is explored. The MSD-Manuals DE-ES corpus serves as a valuable resource for research in specialised translation, lexicography, and language teaching for specific purposes, while also helping to address the scarcity of parallel resources in the biomedical domain for the German-Spanish language pair. Its integration into PaGeS enhances the availability of freely accessible corpora for the research community.
Downloads
Article Details

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Política propuesta para revistas que ofrecen acceso abierto. Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
References
ANETI; ASPROSET, Situación y perspectivas del mercado de los servicios lingüísticos y la comunicación multilingüe en España. Análisis estratégico. Madrid: Universidad Complutense de Madrid, 2024.
ASETRAD, “Entrevista a Antoni Oliver, responsable del proyecto MTUOC para el entrenamiento, uso e integración local de la NMT”. En: La linterna del Traductor, 27, 2024. Disponible en línea en:
https://lalinternadeltraductor.org/n27/proyecto-mtuoc.html
BALBUENA TOREZANO, María del Carmen, “La adquisición del léxico veterinario (alemán-español): una propuesta basada en corpus para la traducción de textos”. En: Futhark. Revista de Investigación y Cultura, 14, 14, 2019, pp. 27-42. Disponible en línea en:
https://doi.org/10.12795/futhark.2019.i14.02 DOI: https://doi.org/10.12795/futhark.2019.i14.02
BULLERS, Krystal, “Merck Manuals”. En: Journal of the Medical Library Association, 104, 4, 2017, pp. 369-371. Disponible en línea en: DOI: https://doi.org/10.3163/1536-5050.104.4.028
https://doi.org/10.5195/jmla.2016.164 DOI: https://doi.org/10.5195/jmla.2016.164
CETTOLO, Mauro; GIRARDI, Christian et al., “Wit3: Web inventory of transcribed and translated talks”. En: Proceedings of the Conference of European Association for Machine Translation (EAMT), 2012, pp. 261-268. Disponible en línea en:
https://cris.fbk.eu/bitstream/11582/104409/1/WIT3-EAMT2012.pdf
DOVAL REIXA, Irene; SÁNCHEZ NIETO, M. Teresa, “Parallel Corpora Spanish (PaCorES): A Collection of Multifunctional Parallel Corpora”. En: RESLA. Revista Española de Lingüística Aplicada, 39, 2, 2026, en prensa. Disponible en línea en: https://uvadoc.uva.es/handle/10324/76308
ELRC, “ELRC3.0 Multilingual corpus made out of PDF documents from the European Medicines Agency (EMEA)”. 2020. Disponible en línea en:
GARCÍA JIMÉNEZ, Rocío; VARELA SALINAS, M. José, Aspectos de la traducción biosanitaria español-alemán / alemán-español. Berlín: Frank & Timme, 2021.
HOFFMANN, Michael, Funktionale Varietäten des Deutschen - kurz gefasst. Potsdam: Universitätsverlag Potsdam, 2007.
LIU, Lei; ZHU, Min, “Bertalign: Improved word embedding-based sentence alignment for Chinese-English parallel corpora of literary texts”. En: Digital Scholarship in the Humanities, 38, 2, 2023, pp. 621-634. Disponible en línea en: https://doi.org/10.1093/llc/fqac089 DOI: https://doi.org/10.1093/llc/fqac089
MAYOR SERRANO, Blanca; QUIJADA, Carmen et al., “¿Y por qué el alemán, a estas alturas?”. En: Panace@: Revista de Medicina, Lenguaje y Traducción, XII, 34, 201, pp. 159-160. Disponible en línea en:
http://tremedica.org/panacea.html
MERCK&CO, “Conocimiento Médico Global”. En: Manual Merck. Versión para el público general. 2025. Disponible en línea en:
https://www.merckmanuals.com/es-us/hogar/resourcespages/global-medical-knowledge
——, Manual Merck versión para profesionales. 2025. Disponible en línea en:
https://www.merckmanuals.com/es-us/professional
——, Manual MSD versión para público general. 2025. Disponible en línea en:
https://www.msdmanuals.com/es/hogar
——, MSDManual Ausgabe für Patienten. 2025. Disponible en línea en:
https://www.msdmanuals.com/de/heim
——, MSD Manual Profi-Ausgabe. 2025. Disponible en línea en:
https://www.msdmanuals.com/de/profi
NAVARRO, Fernando A., Libro Rojo. Diccionario de dudas y dificultades de traducción del inglés médico, Versión 4.07. Madrid: Cosnautas, 2025. Disponible en línea en: https://www.cosnautas.com/es/libro
——, Medizin. Gran diccionario médico alemán-español, Versión 1.17. Madrid: Cosnautas, 2025. Disponible en línea en: https://www-cosnautas-com.ponton.uva.es/es/medizin#
OLIVER GONZÁLEZ, Antoni, “Entrenamiento de motores de traducción automática”. En: Sánchez Ramos, María del Mar; Rico Pérez, Celia (eds.), Traducción automática en contextos especializados. Berlín: Peter Lang, 2023, pp. 33-70. Disponible en línea en:
https://doi.org/10.3726/b20144 DOI: https://doi.org/10.3726/b20144
——, MTUOC-download-from-sitemap.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-download-from-sitemap.py
——, MTUOC-segmenterDIR.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-segmenter/blob/main/MTUOC-segmenterDIR.py
——, MTUOC-sitemap.py. 2023. Disponible en línea en: https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-sitemap.py
——, MTUOC-downloadedweb2text.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-downloadedweb2text.py
——, MTUOC-create-batchfile.py. 2023. Disponible en línea en https://github.com/mtuoc/MTUOC-aligner/blob/main/MTUOC-create-batchfile.py
——, downloadMSDhtmls.py. 2024.
——, “GitHub - Mtuoc/MTUOC-Aligner: Scripts and Programs to Automatically Align Text Files Using Hunalign or SBERT”. 2024. Disponible en línea en:
https://github.com/mtuoc/MTUOC-aligner
——, Merk2Text_info.py”. 2024.
——, MTUOC-Create-Batchfile.py. 2024.
——, “Semana 3. Creación de corpus paralelos (II). Descarga de sitios web”. En: MTUOC. Seminario Online TAN. 2024. Disponible en línea en:
——, MTUOC project. 2024. Disponible en línea en: https://mtuoc.github.io/
PAQUOT, Magali, “Corpus research methods for language teaching and learning”. En: Aek Phakiti; Peter de Costa et al. (eds.), The Palgrave handbook of applied linguistics research methodology. Londres: Macmillan, 2018, pp. 359-374. DOI: https://doi.org/10.1057/978-1-137-59900-1_17
RAMÍREZ ALMANSA, Isidoro, “La traducción alemán-español de textos médico-jurídicos y su utilidad didáctica: el consentimiento informado”. En: Quaderns de Filologia: Estudis Lingüístics, XXIV, 2019, pp. 229-245. Disponible en línea en: https://doi.org/10.7203/QF.2 DOI: https://doi.org/10.7203/qf.24.16308
RICO PÉREZ, Celia; GARCÍA ARAGÓN, Álvaro, Análisis del sector de la traducción en España. Villaviciosa de Odón: Universidad Europea, 2016. Disponible en línea en:
TOMES, Nancy, Remaking the American Patient: How Madison Avenue and modern medicine turned patients into consumers. Chapel Hill: UNC Press Books, 2016. DOI: https://doi.org/10.5149/northcarolina/9781469622774.001.0001
———, “’Not just for doctors anymore’: How the Merck Manual became a consumer health ‘bible’”. En: Bulletin of the History of Medicine, 95, 1, 2021. Disponible en línea en: https://doi.org/10.1353/bhm.2021.0000 DOI: https://doi.org/10.1353/bhm.2021.0000
VARGA, Daniel; HALÁCSY, Peter et al., “Parallel corpora for medium density languages”. En: Recent advances in natural language processing IV: selected papers from RANLP 2005. Ámsterdam: Benjamins, 2008, pp. 247-258. DOI: https://doi.org/10.1075/cilt.292.32var