Kursus "Insinyur Data" - kursus 95.000 gosok. dari Yandex Workshop, pelatihan 6,5 bulan, Tanggal: 11 Desember 2023.
Miscellanea / / November 30, 2023
Untuk pengembang yang berlatih
Pelajari cara membangun infrastruktur untuk bekerja dengan data dan mensistematisasikan pengetahuan Anda untuk menggunakannya dalam peran Anda saat ini atau mengubah arah menjadi insinyur data.
Untuk calon insinyur data
Penataan pengetahuan: selain teori yang jelas, akan banyak praktek. Anda akan mendapatkan pengalaman mengerjakan proyek - ini akan membantu Anda membangun portofolio, menonjol dari kandidat lain, dan tidak tersesat dalam pekerjaan nyata.
Spesialis dan Analis Ilmu Data
Kuasai keterampilan yang akan membantu Anda menangani tugas dengan lebih efektif: membangun jalur data, mendesain etalase, membangun ETL, dan mengumpulkan data mentah dalam volume besar.
Memperbarui model data
1 modul 2 minggu
Perusahaan terus membenamkan Anda dalam prosesnya. Data yang Anda kerjakan telah diperbarui, jadi Anda perlu mengubah model datanya.
Dalam kursus ini Anda:
- memahami bagaimana perusahaan membangun database;
- memperbarui struktur database saat ini sesuai dengan kebutuhan bisnis baru;
- menyiapkan tampilan dan metrik baru untuk analis dan manajer.
Teknologi dan alat:
- PostgreSQL
+1 proyek dalam portofolio
Bangun data mart dengan pemuatan tambahan untuk analisis audiens toko online.
DWH: revisi model data
Modul 2 3 minggu
Perusahaan semakin berkembang, arsitektur data menjadi semakin kompleks. Anda diberi tugas - untuk mengoptimalkan proses dengan data.
Dalam kursus ini Anda:
- memikirkan proses peralihan dari skema database lama ke skema baru sambil meminimalkan kerugian bisnis (penyebaran zero-downtime);
- menyiapkan migrasi data;
- memperhitungkan kemungkinan masalah dan merancang opsi untuk mengembalikan perubahan;
- mengimplementasikan struktur database baru dan menyesuaikannya dengan proses yang ada di sekitar data.
Teknologi dan alat:
- PosgreSQL
- ular piton
+1 proyek dalam portofolio
Anda akan mengurutkan model data dan memigrasikan data dalam penyimpanan toko online saat ini.
ETL: otomatisasi persiapan data
Modul 3 3 minggu
Anda sekarang mengetahui hampir segalanya tentang gudang data perusahaan. Saatnya memikirkan kembali proses ETL.
Dalam kursus ini Anda:
- mengotomatiskan jalur data;
- konfigurasikan pengunduhan otomatis data dari sumber;
- belajar memuat data secara teratur dan bertahap ke dalam database.
Teknologi dan alat:
- ular piton
- Aliran udara
- PostgreSQL
+1 proyek dalam portofolio
Bangun jalur untuk penerimaan otomatis, pemrosesan, dan pemuatan data dari sumber ke etalase untuk proyek e-commerce.
Pemeriksaan kualitas data
Modul 4 1 minggu
Anda ingin memastikan bahwa saluran pipa pertama Anda berfungsi dengan baik. Kualitas data harus diperiksa, dan kerusakannya harus dilacak pada waktu yang tepat.
Dalam kursus ini Anda:
- memahami cara menggunakan metainformasi dan dokumentasi;
- mengevaluasi kualitas data.
DWH untuk berbagai sumber
Modul 5 2 minggu
Anda terus meneliti DWH karena perkembangan perusahaan dan peningkatan volume data tidak dapat dihentikan.
Dalam kursus ini Anda:
- membangun DWH dari awal pada DBMS relasional;
- mengenal MongoDB sebagai sumber data.
Teknologi dan alat:
- PostgreSQL
- MongoDB
+1 proyek dalam portofolio
Anda akan merancang dan mengimplementasikan DWH untuk startup in-house.
Basis data analitis
Modul 6 2 minggu
Ada semakin banyak data tidak terstruktur spesifik yang juga perlu disimpan dan diproses. Oleh karena itu, kami akan memperkenalkan Anda pada konsep database analitik menggunakan Vertica DBMS sebagai contoh.
Dalam kursus ini Anda:
- mempelajari organisasi penyimpanan di Vertica;
- pelajari cara melakukan operasi dasar dengan data di Vertica;
- membangun gudang data sederhana di Vertica.
Teknologi dan alat:
- vertikal
- PostgreSQL
- Aliran udara
- S3
+1 proyek dalam portofolio
Bangun DWH untuk sistem data messenger berstruktur rendah dengan beban tinggi menggunakan Vertica.
Organisasi Danau Data
Modul 7 4 minggu
Solusi klasik tidak membantu mengatasi volume data. Untuk mengatasi tantangan bisnis baru, Anda akan membangun dan mengisi Data Lake.
Dalam kursus ini Anda:
- pertimbangkan arsitektur Data Lake (trans. "danau data");
- belajar mengolah data dalam sistem MPP;
- mengisi Data Lake dengan data dari sumber;
- berlatih pemrosesan data menggunakan PySpark dan Airflow.
Teknologi dan alat:
- Hadoop
- Pengurangan Peta
- HDFS
- Apache Spark (PySpark)
+1 proyek dalam portofolio
Bangun Data Lake dan otomatisasi pemuatan dan pemrosesan data di dalamnya.
Pemrosesan aliran
Modul 8 3 minggu
Anda telah mengatasi kesulitan dengan sejumlah besar data, namun tugas baru telah muncul - Anda perlu membantu bisnis membuat keputusan lebih cepat. Di sini Anda akan memerlukan pengetahuan tentang pemrosesan data aliran. mengalir).
Dalam kursus ini Anda:
- pertimbangkan fitur pemrosesan data aliran;
- bangun sistem streaming Anda sendiri;
- membangun etalase menggunakan data waktu nyata.
Teknologi dan alat:
- Kafka
- Percikan Streaming
+1 proyek dalam portofolio
Anda akan mengembangkan sistem pemrosesan data waktu nyata.
Teknologi awan
Modul 9 3 minggu
Sekarang Anda dapat bekerja dengan data dan streaming dalam jumlah besar. Yang tersisa hanyalah mengotomatiskan penskalaan sistem menggunakan layanan cloud.
Dalam kursus ini Anda akan mempelajari cara mengimplementasikan solusi yang sudah dipelajari, tetapi di cloud (menggunakan Yandex Cloud sebagai contoh).
Teknologi dan alat:
- Yandex. Awan
- Kubernet
- kubectl
- ulang
- PostgreSQL
+1 proyek dalam portofolio
Anda akan mengembangkan infrastruktur untuk menyimpan dan memproses data di cloud.
Proyek kelulusan
Modul 10 3 minggu
Konfirmasikan bahwa Anda telah mempelajari keterampilan baru.
Di sini Anda perlu memilih dan menerapkan solusi untuk masalah bisnis secara mandiri. Ini akan membantu Anda sekali lagi memperkuat penggunaan alat yang telah Anda pelajari, serta kemandirian Anda.