Sumber Kamus dan Metode Terjemahan

Halaman ini menjelaskan asal data kamus kami, cara kami menggabungkan beberapa dataset Inggris open-source, dan cara kami menghasilkan entri glosari Spanyol dan Indonesia ketika kamus lengkap lintas bahasa sumber tidak tersedia.

Status riset per 1 Maret 2026.

Basis Kamus Inggris Open-Source

Cakupan leksikal berbahasa Inggris tersedia di beberapa dataset terbuka untuk bahasa sumber kami (Yunani, Ibrani, Latin, dan Suryani). Dataset ini kami ingest dan normalisasi sebagai lapisan inti kamus.

Leksikon STEPBible TBESG
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Backbone glosari leksikal Yunani.
Lisensi/ketentuan: CC BY (sesuai ketentuan repositori hulu).
Sumber
Leksikon STEPBible TBESH
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Struktur leksikal Ibrani dan anchor referensi silang.
Lisensi/ketentuan: CC BY (sesuai ketentuan repositori hulu).
Sumber
MACULA Greek
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Detail morfologi dan leksikal untuk entri Yunani.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Sumber
MACULA Hebrew
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Detail morfologi dan leksikal untuk entri Ibrani.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Sumber
MorphGNT SBLGNT
Cakupan bahasa: Yunani (grc)
Peran dalam sistem: Dukungan morfologi level kata dan normalisasi.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Sumber
Open Scriptures morphhb
Cakupan bahasa: Ibrani (hbo)
Peran dalam sistem: Dukungan morfologi level kata dan normalisasi.
Lisensi/ketentuan: Ketentuan open-source di repositori hulu.
Sumber
Kamus Latin Kaikki (Wiktextract)
Cakupan bahasa: Latin (lat; kode sumber la)
Peran dalam sistem: Cakupan gloss leksikal terbuka utama untuk Latin.
Lisensi/ketentuan: Turunan dari Wiktionary mengikuti ketentuan Wiktionary.
Sumber
Kamus Suryani Klasik Kaikki (Wiktextract)
Cakupan bahasa: Suryani (syr; kode sumber syc)
Peran dalam sistem: Cakupan gloss leksikal terbuka utama untuk Suryani Klasik.
Lisensi/ketentuan: Turunan dari Wiktionary mengikuti ketentuan Wiktionary.
Sumber
Korpus Asli Gereja Awal Systems Theology
Cakupan bahasa: Ekstraksi token Latin dan Suryani
Peran dalam sistem: Penguatan leksikal berbasis korpus dari saksi teks asli lokal.
Lisensi/ketentuan: Komposit sesuai lisensi masing-masing sumber hulu.
Dataset lokal

Cara Kami Menggabungkan Sumber

Kami menggabungkan record per bahasa ke satu model kamus kanonis sambil menjaga provenance untuk setiap saksi sumber dan snapshot sense.

Normalisasi headword, lemma, transliterasi, dan identifier Strong's saat tersedia.
Gabungkan record berdasarkan bahasa dan identitas leksikal dengan aturan prioritas sumber yang deterministik.
Simpan bukti per sumber di sourceRecords dan senseRecords, bukan hanya gloss akhir.
Publikasikan JSONL kanonis di data/our_dictionaries untuk analisis dan seeding DynamoDB.

Mengapa Spanyol dan Indonesia Perlu Dihasilkan dengan AI

Kami belum menemukan set kamus open-source yang lengkap untuk semua bahasa sumber kami langsung ke Spanyol dan Indonesia pada kedalaman yang dibutuhkan proyek ini.

Audit Kaikki/Wiktionary kami pada 1 Maret 2026 menunjukkan cakupan bahasa kuno yang parsial. Contoh: Spanyol memiliki entri kuno terbatas (grc 258, hbo 14, la 6.923, syc 2), sedangkan Indonesia jauh lebih kecil (grc 1, hbo 0, la 10, syc 0).

Proses Terjemahan AI Berkepercayaan Tinggi

Bangun kunci terjemahan deterministik dari bahasa sumber + headword asli + gloss Inggris.
Lakukan deduplikasi dan cache agar gloss berulang diterjemahkan sekali lalu dipakai ulang.
Kirim sinyal leksikal asli bersama jangkar makna bahasa Inggris ke model.
Wajibkan output JSON ketat per item dengan validasi dan logika retry.
Secara default hanya isi field gloss bahasa target yang masih kosong, tanpa menimpa data terverifikasi.

Mengapa Ini Lebih Terpercaya

Kami menjalankan terjemahan dengan model GPT-5 kelas kualitas tertinggi yang tersedia di environment kami.
Menggunakan data kata asli + gloss Inggris mengurangi drift dibanding terjemahan langsung bahasa sumber ke Spanyol/Indonesia.
Cache deterministik menjaga konsistensi istilah yang berulang di seluruh dataset.
Entri yang belum terpecahkan tetap kosong, bukan dibuat-buat diam-diam.
Atribusi sumber hulu tetap melekat pada setiap record kamus.

Catatan Penting

Gloss bahasa target yang dihasilkan AI adalah terjemahan riset berkepercayaan tinggi, tetapi bukan edisi final yang tidak bisa salah. Untuk konteks publikasi kritikal, hasil ini tetap perlu ditinjau terhadap saksi bahasa sumber dan Inggris.

Kembali ke Sumber Daya

Sumber Kamus dan Metode Terjemahan

Basis Kamus Inggris Open-Source

Leksikon STEPBible TBESG

Leksikon STEPBible TBESH

MACULA Greek

MACULA Hebrew

MorphGNT SBLGNT

Open Scriptures morphhb

Kamus Latin Kaikki (Wiktextract)

Kamus Suryani Klasik Kaikki (Wiktextract)

Korpus Asli Gereja Awal Systems Theology

Cara Kami Menggabungkan Sumber

Mengapa Spanyol dan Indonesia Perlu Dihasilkan dengan AI

Proses Terjemahan AI Berkepercayaan Tinggi

Mengapa Ini Lebih Terpercaya

Catatan Penting