Fuentes del Diccionario y Método de Traducción
Esta página explica de dónde salen nuestros datos de diccionario, cómo unificamos varios conjuntos abiertos en inglés y cómo generamos entradas de glosario en español e indonesio cuando no existe un diccionario completo para esas rutas.
Estado de investigación al 1 de marzo de 2026.
Base Inglesa de Código Abierto
Existe cobertura léxica en inglés en varios conjuntos abiertos para nuestros idiomas fuente (griego, hebreo, latín y siríaco). Los incorporamos y normalizamos como capa principal del diccionario.
Léxico STEPBible TBESG
Cobertura lingüística: Griego (grc)
Uso en el sistema: Base léxica principal para griego.
Licencia/condiciones: CC BY (según términos del repositorio de origen).
Léxico STEPBible TBESH
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Estructura léxica principal para hebreo.
Licencia/condiciones: CC BY (según términos del repositorio de origen).
MACULA Greek
Cobertura lingüística: Griego (grc)
Uso en el sistema: Detalle morfológico y léxico para entradas griegas.
Licencia/condiciones: Términos open-source en el repositorio de origen.
MACULA Hebrew
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Detalle morfológico y léxico para entradas hebreas.
Licencia/condiciones: Términos open-source en el repositorio de origen.
MorphGNT SBLGNT
Cobertura lingüística: Griego (grc)
Uso en el sistema: Apoyo de morfología por palabra y normalización.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Open Scriptures morphhb
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Apoyo de morfología por palabra y normalización.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Diccionario Latín Kaikki (Wiktextract)
Cobertura lingüística: Latín (lat; código fuente la)
Uso en el sistema: Cobertura léxica abierta principal para latín.
Licencia/condiciones: Derivado de Wiktionary bajo sus términos.
Diccionario Siríaco Clásico Kaikki (Wiktextract)
Cobertura lingüística: Siríaco (syr; código fuente syc)
Uso en el sistema: Cobertura léxica abierta principal para siríaco clásico.
Licencia/condiciones: Derivado de Wiktionary bajo sus términos.
Corpus de Originales de Iglesia Primitiva de Systems Theology
Cobertura lingüística: Extracción de tokens latinos y siríacos
Uso en el sistema: Refuerzo léxico derivado del corpus local de textos originales.
Licencia/condiciones: Combinado según la licencia de cada fuente subyacente.
Conjunto local
Cómo Unificamos las Fuentes
Unificamos registros por idioma en un modelo canónico, conservando procedencia para cada testigo de fuente y cada instantánea de sentido.
- Normalizamos lemas, formas base, transliteración e identificadores Strong's cuando existen.
- Combinamos registros por idioma e identidad léxica con reglas determinísticas de prioridad de fuente.
- Conservamos evidencia por fuente en sourceRecords y senseRecords, no solo un gloss final.
- Publicamos JSONL canónico en data/our_dictionaries para análisis y carga en DynamoDB.
Por Qué Español e Indonesio Requirieron Generación con IA
No encontramos un conjunto abierto completo que cubra todos nuestros idiomas fuente directamente hacia español e indonesio con la profundidad requerida por este proyecto.
Nuestra auditoría de Kaikki/Wiktionary del 1 de marzo de 2026 mostró cobertura parcial en lenguas antiguas. Ejemplo: español tenía entradas antiguas limitadas (grc 258, hbo 14, la 6.923, syc 2), e indonesio era mucho menor (grc 1, hbo 0, la 10, syc 0).
Proceso de IA de Alta Confianza
- Creamos una clave determinística con idioma fuente + palabra original + gloss en inglés.
- Deducimos y cacheamos claves para traducir una vez y reutilizar en términos repetidos.
- Enviamos al modelo la señal léxica original y el ancla semántica en inglés.
- Exigimos salida JSON estricta por clave, con validación y reintentos.
- Por defecto solo rellenamos glosses faltantes en idioma destino, preservando datos ya verificados.
Por Qué Esto Mejora la Confianza
- Ejecutamos la traducción con el modelo de clase GPT-5 de mayor calidad disponible en nuestro entorno.
- Usar la palabra original más el gloss en inglés reduce desvíos frente a traducir directo de lengua fuente a español/indonesio.
- El cache determinístico mantiene consistencia en términos repetidos.
- Las entradas no resueltas quedan vacías en lugar de inventarse.
- La atribución a fuentes originales permanece unida a cada registro.
Aviso Importante
Los glosses en idioma destino generados con IA son traducciones de investigación de alta confianza, pero no ediciones finales infalibles. Para contextos críticos de publicación, deben revisarse contra testigos en lengua fuente e inglés.
Volver a Recursos