MSD-Manuals DE-ES. Un corpus de comunicación especializada mediada médica en el Parallel Corpus of German and Spanish (PaGeS)
Contenido principal del artículo
Resumen
Resumen: Este trabajo presenta el corpus MSD Manuals DE-ES, un suplemento del corpus PaGeS en el proyecto PaCorES, centrado en la comunicación especializada en medicina. El corpus se basa en las versiones profesional y para el público general de los Manuales Merck/MSD, reconocidos por su fiabilidad y accesibilidad. El objetivo principal es documentar el proceso de compilación y alineación del corpus, que, en su versión 1.0 incluye más de 500.000 bisegmentos y 17,5 millones de palabras, distribuidas en dos subcorpus (MSD Manual DE-ES home y MSD Manual DE-ES profesional) que reflejan registros comunicativos distintos: experto-lego y experto-experto. La metodología empleada combina herramientas del proyecto MTUOC y scripts desarrollados con ayuda de modelos de lenguaje como Copilot y LeChat, lo que permite automatizar tareas complejas como la extracción de texto, la alineación y la gestión de metadatos. Se detallan los retos técnicos, como la limpieza de datos y la segmentación, y se reflexiona sobre el potencial de la inteligencia artificial en la lingüística de corpus. El corpus MSD-Manuals DE-ES sirve a la investigación en traducción especializada, lexicografía y enseñanza de lenguas con fines específicos y contribuye a paliar la escasez de recursos paralelos en el ámbito biosanitario para el par de lenguas alemán-español. Su integración en PaGeS refuerza la oferta de corpus accesibles en línea para la comunidad investigadora.
Descargas
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Política propuesta para revistas que ofrecen acceso abierto. Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
Citas
ANETI; ASPROSET, Situación y perspectivas del mercado de los servicios lingüísticos y la comunicación multilingüe en España. Análisis estratégico. Madrid: Universidad Complutense de Madrid, 2024.
ASETRAD, “Entrevista a Antoni Oliver, responsable del proyecto MTUOC para el entrenamiento, uso e integración local de la NMT”. En: La linterna del Traductor, 27, 2024. Disponible en línea en:
https://lalinternadeltraductor.org/n27/proyecto-mtuoc.html
BALBUENA TOREZANO, María del Carmen, “La adquisición del léxico veterinario (alemán-español): una propuesta basada en corpus para la traducción de textos”. En: Futhark. Revista de Investigación y Cultura, 14, 14, 2019, pp. 27-42. Disponible en línea en:
https://doi.org/10.12795/futhark.2019.i14.02 DOI: https://doi.org/10.12795/futhark.2019.i14.02
BULLERS, Krystal, “Merck Manuals”. En: Journal of the Medical Library Association, 104, 4, 2017, pp. 369-371. Disponible en línea en: DOI: https://doi.org/10.3163/1536-5050.104.4.028
https://doi.org/10.5195/jmla.2016.164 DOI: https://doi.org/10.5195/jmla.2016.164
CETTOLO, Mauro; GIRARDI, Christian et al., “Wit3: Web inventory of transcribed and translated talks”. En: Proceedings of the Conference of European Association for Machine Translation (EAMT), 2012, pp. 261-268. Disponible en línea en:
https://cris.fbk.eu/bitstream/11582/104409/1/WIT3-EAMT2012.pdf
DOVAL REIXA, Irene; SÁNCHEZ NIETO, M. Teresa, “Parallel Corpora Spanish (PaCorES): A Collection of Multifunctional Parallel Corpora”. En: RESLA. Revista Española de Lingüística Aplicada, 39, 2, 2026, en prensa. Disponible en línea en: https://uvadoc.uva.es/handle/10324/76308
ELRC, “ELRC3.0 Multilingual corpus made out of PDF documents from the European Medicines Agency (EMEA)”. 2020. Disponible en línea en:
GARCÍA JIMÉNEZ, Rocío; VARELA SALINAS, M. José, Aspectos de la traducción biosanitaria español-alemán / alemán-español. Berlín: Frank & Timme, 2021.
HOFFMANN, Michael, Funktionale Varietäten des Deutschen - kurz gefasst. Potsdam: Universitätsverlag Potsdam, 2007.
LIU, Lei; ZHU, Min, “Bertalign: Improved word embedding-based sentence alignment for Chinese-English parallel corpora of literary texts”. En: Digital Scholarship in the Humanities, 38, 2, 2023, pp. 621-634. Disponible en línea en: https://doi.org/10.1093/llc/fqac089 DOI: https://doi.org/10.1093/llc/fqac089
MAYOR SERRANO, Blanca; QUIJADA, Carmen et al., “¿Y por qué el alemán, a estas alturas?”. En: Panace@: Revista de Medicina, Lenguaje y Traducción, XII, 34, 201, pp. 159-160. Disponible en línea en:
http://tremedica.org/panacea.html
MERCK&CO, “Conocimiento Médico Global”. En: Manual Merck. Versión para el público general. 2025. Disponible en línea en:
https://www.merckmanuals.com/es-us/hogar/resourcespages/global-medical-knowledge
——, Manual Merck versión para profesionales. 2025. Disponible en línea en:
https://www.merckmanuals.com/es-us/professional
——, Manual MSD versión para público general. 2025. Disponible en línea en:
https://www.msdmanuals.com/es/hogar
——, MSDManual Ausgabe für Patienten. 2025. Disponible en línea en:
https://www.msdmanuals.com/de/heim
——, MSD Manual Profi-Ausgabe. 2025. Disponible en línea en:
https://www.msdmanuals.com/de/profi
NAVARRO, Fernando A., Libro Rojo. Diccionario de dudas y dificultades de traducción del inglés médico, Versión 4.07. Madrid: Cosnautas, 2025. Disponible en línea en: https://www.cosnautas.com/es/libro
——, Medizin. Gran diccionario médico alemán-español, Versión 1.17. Madrid: Cosnautas, 2025. Disponible en línea en: https://www-cosnautas-com.ponton.uva.es/es/medizin#
OLIVER GONZÁLEZ, Antoni, “Entrenamiento de motores de traducción automática”. En: Sánchez Ramos, María del Mar; Rico Pérez, Celia (eds.), Traducción automática en contextos especializados. Berlín: Peter Lang, 2023, pp. 33-70. Disponible en línea en:
https://doi.org/10.3726/b20144 DOI: https://doi.org/10.3726/b20144
——, MTUOC-download-from-sitemap.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-download-from-sitemap.py
——, MTUOC-segmenterDIR.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-segmenter/blob/main/MTUOC-segmenterDIR.py
——, MTUOC-sitemap.py. 2023. Disponible en línea en: https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-sitemap.py
——, MTUOC-downloadedweb2text.py. 2023. Disponible en línea en:
https://github.com/mtuoc/MTUOC-web-downloader/blob/main/MTUOC-downloadedweb2text.py
——, MTUOC-create-batchfile.py. 2023. Disponible en línea en https://github.com/mtuoc/MTUOC-aligner/blob/main/MTUOC-create-batchfile.py
——, downloadMSDhtmls.py. 2024.
——, “GitHub - Mtuoc/MTUOC-Aligner: Scripts and Programs to Automatically Align Text Files Using Hunalign or SBERT”. 2024. Disponible en línea en:
https://github.com/mtuoc/MTUOC-aligner
——, Merk2Text_info.py”. 2024.
——, MTUOC-Create-Batchfile.py. 2024.
——, “Semana 3. Creación de corpus paralelos (II). Descarga de sitios web”. En: MTUOC. Seminario Online TAN. 2024. Disponible en línea en:
——, MTUOC project. 2024. Disponible en línea en: https://mtuoc.github.io/
PAQUOT, Magali, “Corpus research methods for language teaching and learning”. En: Aek Phakiti; Peter de Costa et al. (eds.), The Palgrave handbook of applied linguistics research methodology. Londres: Macmillan, 2018, pp. 359-374. DOI: https://doi.org/10.1057/978-1-137-59900-1_17
RAMÍREZ ALMANSA, Isidoro, “La traducción alemán-español de textos médico-jurídicos y su utilidad didáctica: el consentimiento informado”. En: Quaderns de Filologia: Estudis Lingüístics, XXIV, 2019, pp. 229-245. Disponible en línea en: https://doi.org/10.7203/QF.2 DOI: https://doi.org/10.7203/qf.24.16308
RICO PÉREZ, Celia; GARCÍA ARAGÓN, Álvaro, Análisis del sector de la traducción en España. Villaviciosa de Odón: Universidad Europea, 2016. Disponible en línea en:
TOMES, Nancy, Remaking the American Patient: How Madison Avenue and modern medicine turned patients into consumers. Chapel Hill: UNC Press Books, 2016. DOI: https://doi.org/10.5149/northcarolina/9781469622774.001.0001
———, “’Not just for doctors anymore’: How the Merck Manual became a consumer health ‘bible’”. En: Bulletin of the History of Medicine, 95, 1, 2021. Disponible en línea en: https://doi.org/10.1353/bhm.2021.0000 DOI: https://doi.org/10.1353/bhm.2021.0000
VARGA, Daniel; HALÁCSY, Peter et al., “Parallel corpora for medium density languages”. En: Recent advances in natural language processing IV: selected papers from RANLP 2005. Ámsterdam: Benjamins, 2008, pp. 247-258. DOI: https://doi.org/10.1075/cilt.292.32var