Google, Apple, Microsoft, dan bahkan Amazon secara aktif mengembangkan layanan suara mereka. Baru dipanggang di iOS 7 adalah sama Siri, hanya fungsi baru dan... suara. Apakah Anda bertanya-tanya bagaimana proses ini? Seperti komputer yang diajarkan pidato? ini seni yang nyata.
Untuk setiap suara Siri - Aktor Anda. Setelah selesai perannya dalam artikulasi, pekerjaan baru saja dimulai... Suara pria itu terus perjalanannya. Kisah perjalanan ini, baik manusia dan robot - salah satu proses teknologi paling kompleks, yang tidak bisa dilakukan sepuluh tahun yang lalu.
Mari berkenalan dengan direktur desain dan pengembangan suara Nuansa, itu adalah salah satu perusahaan independen terbesar di dunia berurusan dengan pengenalan suara dan teks pidato. Brant Ward (J. Brant Ward) digunakan untuk menjadi seorang komposer, menulis partai untuk kuartet string untuk synthesizer, dan sekarang ia menyusun dengan menggunakan suara-suara sintetis. Dia bekerja di industri pidato sintesis di Silicon Valley selama lebih dari satu dekade.
Text to Speech - industri yang sangat kompetitif, dan karyawan sangat rahasia. Meskipun dunia dan percaya bahwa Nuance menciptakan suara Siri untuk, Ward dan rekannya David Vasquez (David Vazquez) menghindari jawaban langsung. Namun demikian, mereka sepakat untuk menjelaskan, setidaknya secara umum, bagaimana proses menciptakan penilaian mesin menakjubkan.
Tak perlu dikatakan, tidak perlu mengartikulasikan dan menulis setiap kata dari kamus. Tapi ketika datang ke aplikasi, yang harus membaca berita apapun dalam newsletter Anda, atau menemukan sesuatu untuk Anda di Internet, itu hanya diwajibkan untuk berbicara setiap kata dalam kamus.
Sebagian besar proposal yang dipilih pada "kekayaan fonetik" - yaitu, mereka mengandung banyak kombinasi yang berbeda dari fonem. "Faktanya adalah, semakin banyak data yang kita miliki, lebih realistis hasilnya akan," - kata Ward.
Setelah teks dicatat aktor suara hidup (proses yang membosankan yang bisa memakan waktu beberapa bulan), bekerja sangat keras dimulai. Kata dan kalimat dianalisis, dibagi berdasarkan kategori dan dicatat dalam database besar. Dalam pekerjaan yang kompleks ini melibatkan tim ahli bahasa berdedikasi, serta menggunakan perangkat lunak bahasa mereka sendiri.
Ketika semua ini dilakukan, unit Nuance untuk menerjemahkan teks pidato menciptakan kata-kata bit dan frase yang aktor mungkin Saya pernah benar-benar diucapkan, tapi kedengarannya sangat mirip dengan pidato dari aktor, karena secara teknis adalah suara aktor.
Proses berbicara tidak sadar. Kami melakukannya tanpa berpikir tentang bagaimana proses ini terjadi: situasi di mana adalah bahasa kita, yang hubungan yang dibangun antara fonem, dan sebagainya - dengan mudah dan efektif mengekspresikan ide yang kompleks dan emosi. Tapi agar komputer mengambil suara dari suara manusia, semua faktor ini harus diperhitungkan. Sebagai salah satu profesor linguistik, adalah tugas "Titanic."
Anda tidak harus berpikir: "Saya sedang berbicara dengan komputer." Anda biasanya tidak perlu berpikir tentang hal itu.
"Anak-anak saya berinteraksi dengan Siri, seolah-olah makhluk hidup... Mereka tidak merasakan perbedaan," - kata Ward.
Sejauh ini, dan untuk persahabatan antara manusia dan robot - seperti manusia. Banyak orang akan suka jika Siri dapat mengenali keadaan emosional pembicara, dan entah bagaimana bereaksi (misalnya, termasuk modus suara menenangkan). Bayangkan - untuk berbicara dengan robot, yang secara moral menepuk kepala. Mungkin, Nuansa sudah berpikir tentang hal itu ...