Yandex mengajarkan jaringan saraf untuk menguraikan catatan arsip dengan ejaan yang rumit
Miscellanea / / April 03, 2023
Manuskrip sejarah, yang sulit diurai oleh seseorang, hampir secara instan diubah oleh kecerdasan buatan menjadi teks cetak.
Yandex telah meluncurkan layanan baru yang disebut Pencarian Arsip, yang menggunakan jaringan saraf untuk menguraikan catatan arsip dengan ejaan pra-revolusioner yang kompleks.
Layanan ini menyediakan akses ke lebih dari 2,5 juta halaman dokumen sejarah dengan transkrip teks. Algoritmanya, dibangun berdasarkan sistem pengenalan karakter optik, memperhitungkan kekhasan tulisan tangan, mengenali huruf yang telah kehilangan relevansinya, dan memahami struktur khusus dokumen arsip.
Spesialis perusahaan melatih jaringan saraf pada susunan data ratusan ribu baris tulisan tangan dari teks asli abad ke-18 hingga ke-19 dan puluhan juta contoh yang dihasilkan.
Naskah yang sulit diurai oleh orang yang tidak siap, teknologi Yandex hampir secara instan berubah menjadi teks cetak. Berkat ini, dalam basis data layanan, Anda dapat dengan cepat menemukan dokumen dengan penyebutan nama belakang, lokalitas, atau kata lain.
"Cari di arsip" akan meningkatkan efisiensi kerja sejarawan, sosiolog, ahli demografi, ahli silsilah dan akan membantu mereka yang mencari informasi tentang keluarga mereka.
Dana pertama yang disajikan dalam layanan ini adalah Arsip Utama Moskow - pada materinya para pengembang melatih jaringan saraf. Basis data juga berisi dokumen dari arsip wilayah Orenburg dan Novgorod. Seiring waktu, jumlah penyimpanan dan file pindaian yang tersedia akan meningkat.
Anda dapat mencari materi dari abad ke-18 - awal abad ke-20, yang paling populer di kalangan pengguna. Ini adalah register paroki, lembar pengakuan dan cerita revisi dengan hasil sensus penduduk. Dokumen dapat ditemukan di katalog atau melalui bilah pencarian. Ada filter berdasarkan tahun, arsip, dana, dan inventaris.
Di samping pemindaian setiap halaman, decoding baris demi baris yang dibuat oleh jaringan saraf ditampilkan. Jika Anda mengarahkan kursor ke fragmen yang diinginkan, itu akan segera disorot pada salinan digital.