Fuentes del Diccionario y Método de Traducción

Esta página explica de dónde salen nuestros datos de diccionario, cómo unificamos varios conjuntos abiertos en inglés y cómo generamos entradas de glosario en español e indonesio cuando no existe un diccionario completo para esas rutas.

Estado de investigación al 1 de marzo de 2026.

Base Inglesa de Código Abierto

Existe cobertura léxica en inglés en varios conjuntos abiertos para nuestros idiomas fuente (griego, hebreo, latín y siríaco). Los incorporamos y normalizamos como capa principal del diccionario.

Cómo Unificamos las Fuentes

Unificamos registros por idioma en un modelo canónico, conservando procedencia para cada testigo de fuente y cada instantánea de sentido.

  • Normalizamos lemas, formas base, transliteración e identificadores Strong's cuando existen.
  • Combinamos registros por idioma e identidad léxica con reglas determinísticas de prioridad de fuente.
  • Conservamos evidencia por fuente en sourceRecords y senseRecords, no solo un gloss final.
  • Publicamos JSONL canónico en data/our_dictionaries para análisis y carga en DynamoDB.

Por Qué Español e Indonesio Requirieron Generación con IA

No encontramos un conjunto abierto completo que cubra todos nuestros idiomas fuente directamente hacia español e indonesio con la profundidad requerida por este proyecto.

Nuestra auditoría de Kaikki/Wiktionary del 1 de marzo de 2026 mostró cobertura parcial en lenguas antiguas. Ejemplo: español tenía entradas antiguas limitadas (grc 258, hbo 14, la 6.923, syc 2), e indonesio era mucho menor (grc 1, hbo 0, la 10, syc 0).

Proceso de IA de Alta Confianza

  • Creamos una clave determinística con idioma fuente + palabra original + gloss en inglés.
  • Deducimos y cacheamos claves para traducir una vez y reutilizar en términos repetidos.
  • Enviamos al modelo la señal léxica original y el ancla semántica en inglés.
  • Exigimos salida JSON estricta por clave, con validación y reintentos.
  • Por defecto solo rellenamos glosses faltantes en idioma destino, preservando datos ya verificados.

Por Qué Esto Mejora la Confianza

  • Ejecutamos la traducción con el modelo de clase GPT-5 de mayor calidad disponible en nuestro entorno.
  • Usar la palabra original más el gloss en inglés reduce desvíos frente a traducir directo de lengua fuente a español/indonesio.
  • El cache determinístico mantiene consistencia en términos repetidos.
  • Las entradas no resueltas quedan vacías en lugar de inventarse.
  • La atribución a fuentes originales permanece unida a cada registro.

Aviso Importante

Los glosses en idioma destino generados con IA son traducciones de investigación de alta confianza, pero no ediciones finales infalibles. Para contextos críticos de publicación, deben revisarse contra testigos en lengua fuente e inglés.

Volver a Recursos