MSD-Manuals DE-ES. A corpus of specialised medical communication as part of the Parallel Corpus of German and Spanish (PaGeS)

Main Article Content

María Teresa Sánchez Nieto
https://orcid.org/0000-0002-0378-3720

Abstract

Abstract: This paper introduces the MSD Manuals DE-ES corpus, a bilingual German-Spanish supplement to the PaGeS corpus within the PaCorES project, focused on specialised medical communication. The corpus draws on both the professional and general-public versions of the Merck/MSD Manuals, renowned for their reliability and accessibility. Its primary aim is to document the compilation and alignment process of the corpus, which comprises over 500,000 bi-segments and 17.5 million words, distributed across two subcorpora (MSD Manual DE-ES home and MSD Manual DE-ES professional) that reflect distinct communicative registers: expert-to-layperson and expert-to-expert. The methodology combines tools from the MTUOC project with scripts developed using language models such as Copilot and LeChat, enabling the automation of complex tasks including text extraction, alignment, and metadata management. Technical challenges such as data cleaning and segmentation are addressed, and the potential of artificial intelligence in corpus linguistics is explored. The MSD-Manuals DE-ES corpus serves as a valuable resource for research in specialised translation, lexicography, and language teaching for specific purposes, while also helping to address the scarcity of parallel resources in the biomedical domain for the German-Spanish language pair. Its integration into PaGeS enhances the availability of freely accessible corpora for the research community.

Downloads

Download data is not yet available.

Article Details

How to Cite
Sánchez Nieto, M. T. (2026). MSD-Manuals DE-ES. A corpus of specialised medical communication as part of the Parallel Corpus of German and Spanish (PaGeS). Alfinge. Revista De Filología, 37, pp. 143–169. https://doi.org/10.21071/arf.v37i.18655
Section
Monographs

References

ANETI; ASPROSET, Situación y perspectivas del mercado de los servicios lingüísticos y la comunicación multilingüe en España. Análisis estratégico. Madrid: Universidad Complutense de Madrid, 2024.

ASETRAD, “Entrevista a Antoni Oliver, responsable del proyecto MTUOC para el entrenamiento, uso e integración local de la NMT”. En: La linterna del Traductor, 27, 2024. Disponible en línea en:

https://lalinternadeltraductor.org/n27/proyecto-mtuoc.html

BALBUENA TOREZANO, María del Carmen, “La adquisición del léxico veterinario (alemán-español): una propuesta basada en corpus para la traducción de textos”. En: Futhark. Revista de Investigación y Cultura, 14, 14, 2019, pp. 27-42. Disponible en línea en:

https://doi.org/10.12795/futhark.2019.i14.02 DOI: https://doi.org/10.12795/futhark.2019.i14.02

BULLERS, Krystal, “Merck Manuals”. En: Journal of the Medical Library Association, 104, 4, 2017, pp. 369-371. Disponible en línea en: DOI: https://doi.org/10.3163/1536-5050.104.4.028

https://doi.org/10.5195/jmla.2016.164 DOI: https://doi.org/10.5195/jmla.2016.164

CETTOLO, Mauro; GIRARDI, Christian et al., “Wit3: Web inventory of transcribed and translated talks”. En: Proceedings of the Conference of European Association for Machine Translation (EAMT), 2012, pp. 261-268. Disponible en línea en:

https://cris.fbk.eu/bitstream/11582/104409/1/WIT3-EAMT2012.pdf

DOVAL REIXA, Irene; SÁNCHEZ NIETO, M. Teresa, “Parallel Corpora Spanish (PaCorES): A Collection of Multifunctional Parallel Corpora”. En: RESLA. Revista Española de Lingüística Aplicada, 39, 2, 2026, en prensa. Disponible en línea en: https://uvadoc.uva.es/handle/10324/76308

ELRC, “ELRC3.0 Multilingual corpus made out of PDF documents from the European Medicines Agency (EMEA)”. 2020. Disponible en línea en:

https://acortarurl.es/bGljol

GARCÍA JIMÉNEZ, Rocío; VARELA SALINAS, M. José, Aspectos de la traducción biosanitaria español-alemán / alemán-español. Berlín: Frank & Timme, 2021.

HOFFMANN, Michael, Funktionale Varietäten des Deutschen - kurz gefasst. Potsdam: Universitätsverlag Potsdam, 2007.

LIU, Lei; ZHU, Min, “Bertalign: Improved word embedding-based sentence alignment for Chinese-English parallel corpora of literary texts”. En: Digital Scholarship in the Humanities, 38, 2, 2023, pp. 621-634. Disponible en línea en: https://doi.org/10.1093/llc/fqac089 DOI: https://doi.org/10.1093/llc/fqac089

MAYOR SERRANO, Blanca; QUIJADA, Carmen et al., “¿Y por qué el alemán, a estas alturas?”. En: Panace@: Revista de Medicina, Lenguaje y Traducción, XII, 34, 201, pp. 159-160. Disponible en línea en:

http://tremedica.org/panacea.html

MERCK&CO, “Conocimiento Médico Global”. En: Manual Merck. Versión para el público general. 2025. Disponible en línea en:

https://www.merckmanuals.com/es-us/hogar/resourcespages/global-medical-knowledge

——, Manual Merck versión para profesionales. 2025. Disponible en línea en:

https://www.merckmanuals.com/es-us/professional

——, Manual MSD versión para público general. 2025. Disponible en línea en:

https://www.msdmanuals.com/es/hogar

——, MSDManual Ausgabe für Patienten. 2025. Disponible en línea en:

https://www.msdmanuals.com/de/heim

——, MSD Manual Profi-Ausgabe. 2025. Disponible en línea en:

https://www.msdmanuals.com/de/profi

NAVARRO, Fernando A., Libro Rojo. Diccionario de dudas y dificultades de traducción del inglés médico, Versión 4.07. Madrid: Cosnautas, 2025. Disponible en línea en: https://www.cosnautas.com/es/libro

——, Medizin. Gran diccionario médico alemán-español, Versión 1.17. Madrid: Cosnautas, 2025. Disponible en línea en: https://www-cosnautas-com.ponton.uva.es/es/medizin#

OLIVER GONZÁLEZ, Antoni, “Entrenamiento de motores de traducción automática”. En: Sánchez Ramos, María del Mar; Rico Pérez, Celia (eds.), Traducción automática en contextos especializados. Berlín: Peter Lang, 2023, pp. 33-70. Disponible en línea en:

https://doi.org/10.3726/b20144 DOI: https://doi.org/10.3726/b20144

——, MTUOC-download-from-sitemap.py. 2023. Disponible en línea en:

https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-download-from-sitemap.py

——, MTUOC-segmenterDIR.py. 2023. Disponible en línea en:

https://github.com/mtuoc/MTUOC-segmenter/blob/main/MTUOC-segmenterDIR.py

——, MTUOC-sitemap.py. 2023. Disponible en línea en: https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-sitemap.py

——, MTUOC-downloadedweb2text.py. 2023. Disponible en línea en:

https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-downloadedweb2text.py

——, MTUOC-create-batchfile.py. 2023. Disponible en línea en https://github.com/mtuoc/MTUOC-aligner/blob/main/MTUOC-create-batchfile.py

——, downloadMSDhtmls.py. 2024.

——, “GitHub - Mtuoc/MTUOC-Aligner: Scripts and Programs to Automatically Align Text Files Using Hunalign or SBERT”. 2024. Disponible en línea en:

https://github.com/mtuoc/MTUOC-aligner

——, Merk2Text_info.py”. 2024.

——, MTUOC-Create-Batchfile.py. 2024.

——, “Semana 3. Creación de corpus paralelos (II). Descarga de sitios web”. En: MTUOC. Seminario Online TAN. 2024. Disponible en línea en:

https://github.com/mtuoc/seminario_online_TAN/wiki/Semana-3.-Creación-de-corpus-paralelos-(II).-Descarga-de-sitios-web

——, MTUOC project. 2024. Disponible en línea en: https://mtuoc.github.io/

PAQUOT, Magali, “Corpus research methods for language teaching and learning”. En: Aek Phakiti; Peter de Costa et al. (eds.), The Palgrave handbook of applied linguistics research methodology. Londres: Macmillan, 2018, pp. 359-374. DOI: https://doi.org/10.1057/978-1-137-59900-1_17

RAMÍREZ ALMANSA, Isidoro, “La traducción alemán-español de textos médico-jurídicos y su utilidad didáctica: el consentimiento informado”. En: Quaderns de Filologia: Estudis Lingüístics, XXIV, 2019, pp. 229-245. Disponible en línea en: https://doi.org/10.7203/QF.2 DOI: https://doi.org/10.7203/qf.24.16308

RICO PÉREZ, Celia; GARCÍA ARAGÓN, Álvaro, Análisis del sector de la traducción en España. Villaviciosa de Odón: Universidad Europea, 2016. Disponible en línea en:

https://abacus.universidadeuropea.com/rest/api/core/bitstreams/18e00a31-18c0-4c6d-911f-b5e78bc42e53/content

TOMES, Nancy, Remaking the American Patient: How Madison Avenue and modern medicine turned patients into consumers. Chapel Hill: UNC Press Books, 2016. DOI: https://doi.org/10.5149/northcarolina/9781469622774.001.0001

———, “’Not just for doctors anymore’: How the Merck Manual became a consumer health ‘bible’”. En: Bulletin of the History of Medicine, 95, 1, 2021. Disponible en línea en: https://doi.org/10.1353/bhm.2021.0000 DOI: https://doi.org/10.1353/bhm.2021.0000

VARGA, Daniel; HALÁCSY, Peter et al., “Parallel corpora for medium density languages”. En: Recent advances in natural language processing IV: selected papers from RANLP 2005. Ámsterdam: Benjamins, 2008, pp. 247-258. DOI: https://doi.org/10.1075/cilt.292.32var

Similar Articles

1 2 3 4 5 6 7 8 9 > >> 

You may also start an advanced similarity search for this article.