Sumber Kamus dan Metode Terjemahan
Halaman ini menjelaskan asal data kamus kami, cara kami menggabungkan beberapa dataset Inggris open-source, dan cara kami menghasilkan entri glosari Spanyol dan Indonesia ketika kamus lengkap lintas bahasa sumber tidak tersedia.
Status riset per 1 Maret 2026.
Basis Kamus Inggris Open-Source
Cakupan leksikal berbahasa Inggris tersedia di beberapa dataset terbuka untuk bahasa sumber kami (Yunani, Ibrani, Latin, dan Suryani). Dataset ini kami ingest dan normalisasi sebagai lapisan inti kamus.
Leksikon STEPBible TBESG
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Backbone glosari leksikal Yunani.
Lisensi/ketentuan: CC BY (sesuai ketentuan repositori hulu).
Leksikon STEPBible TBESH
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Struktur leksikal Ibrani dan anchor referensi silang.
Lisensi/ketentuan: CC BY (sesuai ketentuan repositori hulu).
MACULA Greek
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Detail morfologi dan leksikal untuk entri Yunani.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
MACULA Hebrew
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Detail morfologi dan leksikal untuk entri Ibrani.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
MorphGNT SBLGNT
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Dukungan morfologi level kata dan normalisasi.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Open Scriptures morphhb
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Dukungan morfologi level kata dan normalisasi.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Kamus Latin Kaikki (Wiktextract)
Cakupan bahasa: Latin (lat; kode sumber la)
Peran dalam sistem: Cakupan gloss leksikal terbuka utama untuk Latin.
Lisensi/ketentuan: Turunan dari Wiktionary mengikuti ketentuan Wiktionary.
Kamus Suryani Klasik Kaikki (Wiktextract)
Cakupan bahasa: Suryani (syr; kode sumber syc)
Peran dalam sistem: Cakupan gloss leksikal terbuka utama untuk Suryani Klasik.
Lisensi/ketentuan: Turunan dari Wiktionary mengikuti ketentuan Wiktionary.
Korpus Asli Gereja Awal Systems Theology
Cakupan bahasa: Ekstraksi token Latin dan Suryani
Peran dalam sistem: Penguatan leksikal berbasis korpus dari saksi teks asli lokal.
Lisensi/ketentuan: Komposit sesuai lisensi masing-masing sumber hulu.
Dataset lokal
Cara Kami Menggabungkan Sumber
Kami menggabungkan record per bahasa ke satu model kamus kanonis sambil menjaga provenance untuk setiap saksi sumber dan snapshot sense.
- Normalisasi headword, lemma, transliterasi, dan identifier Strong's saat tersedia.
- Gabungkan record berdasarkan bahasa dan identitas leksikal dengan aturan prioritas sumber yang deterministik.
- Simpan bukti per sumber di sourceRecords dan senseRecords, bukan hanya gloss akhir.
- Publikasikan JSONL kanonis di data/our_dictionaries untuk analisis dan seeding DynamoDB.
Mengapa Spanyol dan Indonesia Perlu Dihasilkan dengan AI
Kami belum menemukan set kamus open-source yang lengkap untuk semua bahasa sumber kami langsung ke Spanyol dan Indonesia pada kedalaman yang dibutuhkan proyek ini.
Audit Kaikki/Wiktionary kami pada 1 Maret 2026 menunjukkan cakupan bahasa kuno yang parsial. Contoh: Spanyol memiliki entri kuno terbatas (grc 258, hbo 14, la 6.923, syc 2), sedangkan Indonesia jauh lebih kecil (grc 1, hbo 0, la 10, syc 0).
Proses Terjemahan AI Berkepercayaan Tinggi
- Bangun kunci terjemahan deterministik dari bahasa sumber + headword asli + gloss Inggris.
- Lakukan deduplikasi dan cache agar gloss berulang diterjemahkan sekali lalu dipakai ulang.
- Kirim sinyal leksikal asli bersama jangkar makna bahasa Inggris ke model.
- Wajibkan output JSON ketat per item dengan validasi dan logika retry.
- Secara default hanya isi field gloss bahasa target yang masih kosong, tanpa menimpa data terverifikasi.
Mengapa Ini Lebih Terpercaya
- Kami menjalankan terjemahan dengan model GPT-5 kelas kualitas tertinggi yang tersedia di environment kami.
- Menggunakan data kata asli + gloss Inggris mengurangi drift dibanding terjemahan langsung bahasa sumber ke Spanyol/Indonesia.
- Cache deterministik menjaga konsistensi istilah yang berulang di seluruh dataset.
- Entri yang belum terpecahkan tetap kosong, bukan dibuat-buat diam-diam.
- Atribusi sumber hulu tetap melekat pada setiap record kamus.
Catatan Penting
Gloss bahasa target yang dihasilkan AI adalah terjemahan riset berkepercayaan tinggi, tetapi bukan edisi final yang tidak bisa salah. Untuk konteks publikasi kritikal, hasil ini tetap perlu ditinjau terhadap saksi bahasa sumber dan Inggris.
Kembali ke Sumber Daya