Fuentes del Diccionario y Método de Traducción

Esta página explica de dónde salen nuestros datos de diccionario, cómo unificamos varios conjuntos abiertos en inglés y cómo generamos entradas de glosario en español e indonesio cuando no existe un diccionario completo para esas rutas.

Estado de investigación al 1 de marzo de 2026.

Base Inglesa de Código Abierto

Existe cobertura léxica en inglés en varios conjuntos abiertos para nuestros idiomas fuente (griego, hebreo, latín y siríaco). Los incorporamos y normalizamos como capa principal del diccionario.

Léxico STEPBible TBESG
Cobertura lingüística: Griego (grc)
Uso en el sistema: Base léxica principal para griego.
Licencia/condiciones: CC BY (según términos del repositorio de origen).
Fuente
Léxico STEPBible TBESH
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Estructura léxica principal para hebreo.
Licencia/condiciones: CC BY (según términos del repositorio de origen).
Fuente
MACULA Greek
Cobertura lingüística: Griego (grc)
Uso en el sistema: Detalle morfológico y léxico para entradas griegas.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Fuente
MACULA Hebrew
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Detalle morfológico y léxico para entradas hebreas.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Fuente
MorphGNT SBLGNT
Cobertura lingüística: Griego (grc)
Uso en el sistema: Apoyo de morfología por palabra y normalización.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Fuente
Open Scriptures morphhb
Cobertura lingüística: Hebreo (hbo)
Uso en el sistema: Apoyo de morfología por palabra y normalización.
Licencia/condiciones: Términos open-source en el repositorio de origen.
Fuente
Diccionario Latín Kaikki (Wiktextract)
Cobertura lingüística: Latín (lat; código fuente la)
Uso en el sistema: Cobertura léxica abierta principal para latín.
Licencia/condiciones: Derivado de Wiktionary bajo sus términos.
Fuente
Diccionario Siríaco Clásico Kaikki (Wiktextract)
Cobertura lingüística: Siríaco (syr; código fuente syc)
Uso en el sistema: Cobertura léxica abierta principal para siríaco clásico.
Licencia/condiciones: Derivado de Wiktionary bajo sus términos.
Fuente
Corpus de Originales de Iglesia Primitiva de Systems Theology
Cobertura lingüística: Extracción de tokens latinos y siríacos
Uso en el sistema: Refuerzo léxico derivado del corpus local de textos originales.
Licencia/condiciones: Combinado según la licencia de cada fuente subyacente.
Conjunto local

Cómo Unificamos las Fuentes

Unificamos registros por idioma en un modelo canónico, conservando procedencia para cada testigo de fuente y cada instantánea de sentido.

Normalizamos lemas, formas base, transliteración e identificadores Strong's cuando existen.
Combinamos registros por idioma e identidad léxica con reglas determinísticas de prioridad de fuente.
Conservamos evidencia por fuente en sourceRecords y senseRecords, no solo un gloss final.
Publicamos JSONL canónico en data/our_dictionaries para análisis y carga en DynamoDB.

Por Qué Español e Indonesio Requirieron Generación con IA

No encontramos un conjunto abierto completo que cubra todos nuestros idiomas fuente directamente hacia español e indonesio con la profundidad requerida por este proyecto.

Nuestra auditoría de Kaikki/Wiktionary del 1 de marzo de 2026 mostró cobertura parcial en lenguas antiguas. Ejemplo: español tenía entradas antiguas limitadas (grc 258, hbo 14, la 6.923, syc 2), e indonesio era mucho menor (grc 1, hbo 0, la 10, syc 0).

Proceso de IA de Alta Confianza

Creamos una clave determinística con idioma fuente + palabra original + gloss en inglés.
Deducimos y cacheamos claves para traducir una vez y reutilizar en términos repetidos.
Enviamos al modelo la señal léxica original y el ancla semántica en inglés.
Exigimos salida JSON estricta por clave, con validación y reintentos.
Por defecto solo rellenamos glosses faltantes en idioma destino, preservando datos ya verificados.

Por Qué Esto Mejora la Confianza

Ejecutamos la traducción con el modelo de clase GPT-5 de mayor calidad disponible en nuestro entorno.
Usar la palabra original más el gloss en inglés reduce desvíos frente a traducir directo de lengua fuente a español/indonesio.
El cache determinístico mantiene consistencia en términos repetidos.
Las entradas no resueltas quedan vacías en lugar de inventarse.
La atribución a fuentes originales permanece unida a cada registro.

Aviso Importante

Los glosses en idioma destino generados con IA son traducciones de investigación de alta confianza, pero no ediciones finales infalibles. Para contextos críticos de publicación, deben revisarse contra testigos en lengua fuente e inglés.

Volver a Recursos

Fuentes del Diccionario y Método de Traducción

Base Inglesa de Código Abierto

Léxico STEPBible TBESG

Léxico STEPBible TBESH

MACULA Greek

MACULA Hebrew

MorphGNT SBLGNT

Open Scriptures morphhb

Diccionario Latín Kaikki (Wiktextract)

Diccionario Siríaco Clásico Kaikki (Wiktextract)

Corpus de Originales de Iglesia Primitiva de Systems Theology

Cómo Unificamos las Fuentes

Por Qué Español e Indonesio Requirieron Generación con IA

Proceso de IA de Alta Confianza

Por Qué Esto Mejora la Confianza

Aviso Importante