Kursus "Analis Data" - kursus 96.000 gosok. dari Yandex Workshop, pelatihan 7 bulan, tanggal 7 Desember 2023.
Miscellanea / / December 02, 2023
Seorang analis data mengekstrak makna dari angka dan nilai: dia melihat tren, memprediksi peristiwa, dan membantu perusahaan memahami pelanggan, mengoptimalkan proses, dan berkembang.
Pasar membutuhkan spesialis yang dapat menggunakan data dengan bermanfaat. Sebuah studi yang dilakukan oleh perusahaan personalia Ancor pada September 2022 menunjukkan bahwa 45% perusahaan Rusia mencari analis untuk bergabung dengan tim mereka.
Keterampilan yang akan Anda pelajari di kursus
Judul pekerjaan
Analis, Analis Data, Analis Data
Peluang pengembangan: Analis Produk, Analis Pemasaran, Analis BI, Spesialis Ilmu Data
Berikut adalah teknologi dan alat yang akan Anda gunakan:
ular piton
Buku Catatan Jupyter
SQL
PostgreSQL
Tablo
Tes A/B
Mulailah menghasilkan uang dengan menganalisis
Anda akan mulai dari posisi junior, dan kemudian maju terus. Anda akan menaiki tangga karier dan meningkatkan nilai. Dan suatu hari tidak akan ada harga lagi untukmu.
Program Kursus Analisis Data Lengkap
Kami memperbaruinya secara berkala untuk memastikannya memenuhi kebutuhan industri dan pemberi kerja.
Dengan kata lain, Anda hanya mempelajari apa yang pasti berguna dalam pekerjaan Anda.
Bagian gratis - 1 minggu
Pengenalan Gratis: Dasar-dasar Python dan Analisis Data
Pelajari konsep dasar analisis data dan pahami apa yang dilakukan analis data dan ilmuwan data.
• Catnamyc Moskow. Menampilkan data di layar. file CSV. Bekerja dengan tabel. Peta panas. Mengalikan kolom dengan bilangan bulat.
• Kesalahan dalam kode. Kesalahan sintaksis. Kesalahan penamaan. Kesalahan saat membagi dengan nol. Kesalahan saat mengimpor modul.
• Variabel dan tipe data. Variabel. Tipe data. Operasi aritmatika dengan angka dan string.
• Bagaimana membuat hipotesis. Hipotesis. siklus HADI. Pemikiran analitis. Membaca grafik.
• Apa yang dilakukan data scientist. Tugas analis. Klarifikasi tugas. Penguraian. Tahapan proyek.
• Memeriksa konversi. Konversi. Eksplorasi data. Pembentukan kesimpulan.
• Pengembalian kampanye iklan. Bagan kolom. Perbedaan elemen. Pengindeksan dalam kolom.
• Pembelajaran mesin dan Ilmu Data. Pelatihan pembelajaran mesin. Menemukan nilai unik di kolom. Pengindeksan logis. Mengelompokkan nilai dalam sebuah tabel. Kesalahan prediksi.
• Tugas Akhir. Segmentasi pengguna.
PythonPandasErrorsSeabornHypothesesConversionVariablesJenis DataPeta Panas
1 sprint 3 minggu
Python Dasar
Selami lebih dalam bahasa pemrograman Python dan perpustakaan Pandas.
• Variabel dan tipe data. bahasa piton. Variabel. Menampilkan data di layar. Menampilkan objek di layar. Penanganan kesalahan, coba...kecuali operator. Tipe data. Konversi tipe data.
• Garis. Indeks dalam baris. Pemotongan garis. Operasi pada string. Metode string. Memformat string, metode format(), f-string.
• Daftar. Indeks dalam daftar. Daftar irisan. Menambahkan item ke daftar. Menghapus item daftar. Penjumlahan dan perkalian daftar. • Menyortir daftar. Cari item dalam daftar. Memisahkan string menjadi daftar string, menggabungkan daftar string menjadi string.
• Untuk putaran. Siklus. Pencacahan elemen. Mengulangi indeks elemen. Memproses elemen daftar menggunakan loop: menemukan jumlah dan produk elemen.
• Daftar bersarang. Mengulangi daftar bersarang dengan nilai penghitungan. Menambahkan elemen ke daftar bersarang. Menyortir daftar bersarang.
• Operator bersyarat. Lingkaran sementara. Tipe data Boolean. Nilai Boolean. Ekspresi logis. Ekspresi logika majemuk. Pernyataan bersyarat if...elif...else. Percabangan. Memfilter daftar menggunakan operator kondisional. Lingkaran sementara.
• Fungsi. Penugasan fungsi. Parameter dan argumen. Parameter dengan nilai default. Argumen posisi dan nama. Mengembalikan hasil dari suatu fungsi.
• Kamus. Kunci dan nilai. Mencari nilai berdasarkan kunci. Menambahkan item ke kamus. Daftar kamus. Keluaran kamus yang indah.
• Perpustakaan Panda. Membaca file csv. Kerangka Data. Konstruktor kerangka data. Mencetak baris pertama dan terakhir dari kerangka data. Pengindeksan dalam kerangka data. Pengindeksan pada kolom Seri.
• Pemrosesan awal data. Prinsip GIGO. Mengganti nama kolom kerangka data. Menangani nilai-nilai yang hilang. Menangani duplikat eksplisit dan implisit.
• Analisis data dan presentasi hasil. Mengelompokkan data. Menyortir data. Dasar-dasar statistik deskriptif.
• Jupyter Notebook - buku catatan di dalam sel. Antarmuka Buku Catatan Jupyter. Pintasan Buku Catatan Jupyter.
LoopsPythonPandasStringsListFunctionsDictionariesDataFrameVariablesDataTypesPernyataan Kondisional
Proyek
Bandingkan data pengguna Yandex Music berdasarkan kota dan hari dalam seminggu.
2 sprint 2 minggu
Pemrosesan awal data
Pelajari cara membersihkan data dari outlier, kelalaian, dan duplikat, serta mengonversi berbagai format data.
• Bekerja dengan izin. Konversi. Kue. Variabel kategoris dan kuantitatif. Menangani kesenjangan dalam variabel kategori. Menangani kesenjangan dalam variabel kuantitatif. Menangani kesenjangan dalam variabel kuantitatif berdasarkan kategori.
• Mengubah tipe data. Membaca file Excel. Konversi Seri ke tipe numerik. Modul angka, metode abs(). Bekerja dengan tanggal dan waktu. Penanganan kesalahan, coba...kecuali operator. Menggabungkan kerangka data, metode merge(). Tabel pivot.
• Cari duplikat. Cari duplikat, peka huruf besar-kecil.
• Kategorisasi data. Dekomposisi tabel. Kategorisasi berdasarkan rentang numerik. Kategorikan berdasarkan beberapa nilai per baris.
• Berpikir sistematis dan kritis dalam pekerjaan seorang analis. Sistem berpikir. Penyebab kesalahan data. Berpikir kritis.
PythonPandasGap menangani Pemrosesan data Pemrosesan duplikat Kategorisasi data
Proyek
Analisis data tentang nasabah bank dan tentukan bagian nasabah yang layak kredit.
3 sprint 2 minggu
Analisis data eksplorasi
Pelajari dasar-dasar probabilitas dan statistik. Gunakan mereka untuk menjelajahi sifat dasar data, mencari pola, distribusi, dan anomali. Kenali perpustakaan Matplotlib. Menggambar diagram dan berlatih menganalisis grafik.
• Grafik dan kesimpulan pertama. Menggunakan Tabel Pivot. Grafik batang. Distribusi. Diagram rentang.
• Mempelajari irisan data. Metode kueri(). Bekerja dengan tanggal dan waktu. Merencanakan grafik menggunakan metode plot(). Pisau cukur Occam.
• Bekerja dengan berbagai sumber data. Irisan data berdasarkan objek eksternal. Menambahkan kolom baru ke kerangka data. Menambahkan data dari kerangka data lain. Mengganti nama kolom. Menggabungkan tabel menggunakan metode merge() dan join().
• Hubungan data. plot sebar. Korelasi variabel. Matriks plot sebar.
• Validasi hasil. Konsolidasi kelompok. Membagi data menjadi beberapa kelompok.
PythonPandasMatplotlibHistogramsData SlicesAnalisis DataScatterplotScatterplotVisualisasi DataStatistik Deskriptif
Proyek
Jelajahi arsip iklan penjualan real estat di St. Petersburg dan wilayah Leningrad.
4 sprint 3 minggu
Analisis data statistik
Belajar menganalisis hubungan dalam data menggunakan metode statistik. Pelajari apa itu signifikansi statistik dan hipotesis.
• Kombinatorik. Kombinasi. Aturan perkalian. Penataan ulang. Jumlah permutasi. Penempatan. Jumlah penempatan. Kombinasi. Jumlah kombinasi.
• Teori probabilitas. Percobaan. Ruang probabilitas. Acara. Kemungkinan. Peristiwa-peristiwa yang berpotongan dan saling lepas. Diagram Euler-Venn. Hukum bilangan besar.
• Statistik deskriptif. Variabel kategoris dan kuantitatif. Modus dan median. Nilai rata-rata. Penyebaran. Deviasi standar. Kuartil dan persentil. Diagram rentang. Bagan kolom. Kepadatan frekuensi. Grafik batang.
• Variabel acak. Variabel acak diskrit. Distribusi probabilitas untuk variabel acak diskrit. Fungsi kumulatif (fungsi distribusi) dari variabel acak diskrit. Ekspektasi matematis dari variabel acak diskrit. Dispersi variabel acak diskrit.
• Distribusi. percobaan Bernoulli. Eksperimen binomial. Distribusi binomial. Distribusi seragam yang berkelanjutan. Distribusi normal. Distribusi normal standar. CDF dan PPF untuk distribusi normal. Distribusi racun. Perkiraan satu distribusi dengan distribusi lainnya.
• Menguji hipotesis. Populasi umum. Sampel. Distribusi pengambilan sampel. Teorema limit pusat. Hipotesis satu sisi dan dua sisi. Nilai-P. Menguji hipotesis satu sisi dan dua sisi untuk satu sampel. Menguji hipotesis tentang persamaan rata-rata dua populasi umum. Menguji hipotesis kesetaraan mean untuk sampel dependen.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionsPengujian hipotesisTeori probabilitas
Proyek
Uji hipotesis layanan persewaan skuter untuk membantu mengembangkan bisnis Anda.
Sprint Ekstra
Teori probabilitas
Ingat atau kenali istilah-istilah dasar dalam teori probabilitas: peristiwa independen, berlawanan, tidak kompatibel, dll. Dengan menggunakan contoh sederhana dan soal menyenangkan, Anda akan berlatih bekerja dengan angka dan membangun logika solusi.
Ini adalah sprint opsional. Artinya setiap siswa sendiri yang memilih salah satu pilihan:
• Kuasai sprint tambahan yang terdiri dari 10 pelajaran singkat, pelajari teori, dan pecahkan masalah.
• Buka hanya blok dengan tugas wawancara, ingat latihan tanpa teori.
• Melewatkan kursus sepenuhnya atau kembali mengikuti kursus bila ada waktu dan kebutuhan.
PythonEventsProbabilityTeorema BayesVariabel AcakTeori ProbabilitasAnalisis Data Statistik
5 sprint 1 minggu
Tugas akhir modul pertama
Pelajari cara melakukan penelitian data awal dan merumuskan serta menguji hipotesis.
ScipyNumpyPythonPandasMatplotlibAnalisis dataPengujian hipotesisPemrosesan data
Proyek
Temukan pola dalam data penjualan game.
6 sprint 2 minggu
SQL Dasar
Pelajari dasar-dasar bahasa kueri terstruktur SQL dan aljabar relasional untuk bekerja dengan database. Kenali fitur-fitur bekerja di PostgreSQL, sistem manajemen basis data (DBMS) yang populer. Belajar menulis kueri dengan berbagai tingkat kerumitan dan menerjemahkan masalah bisnis ke dalam SQL. Anda akan bekerja dengan database toko online yang berspesialisasi dalam film dan musik.
• Pengenalan database. Sistem manajemen basis data (DBMS). bahasa SQL. Kueri SQL. Memformat kueri SQL.
• Irisan data dalam SQL. Tipe data di PostgreSQL. Konversi tipe data. klausa WHERE. Operator logika. Irisan data. Operator DALAM, SEPERTI, ANTARA. Bekerja dengan tanggal dan waktu. Menangani nilai-nilai yang hilang. Konstruksi KASUS bersyarat.
• Fungsi agregasi. Mengelompokkan dan menyortir data. Operasi matematika. Fungsi agregasi. Mengelompokkan data. Menyortir data. Memfilter berdasarkan data agregat, operator HAVING.
• Hubungan antar tabel. Jenis gabungan tabel. diagram ER. Mengganti nama bidang dan tabel. Alias. Menggabungkan tabel. Jenis-jenis join: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Jenis serikat pekerja alternatif UNION dan UNION ALL.
• Subkueri dan ekspresi tabel umum. Subkueri. Subkueri di FROM. Subkueri di WHERE. Kombinasi gabungan dan subkueri. Ekspresi Tabel Umum (CTE). Variabilitas permintaan.
SQLDBMSPostgreSQLSubqueriesDatabasesSQL queriesFiltering dataSorting dataPengelompokan dataMenggabungkan tabelEkspresi tabel umum
Proyek
Anda akan menulis serangkaian pertanyaan dengan kompleksitas yang berbeda-beda ke database yang menyimpan data tentang investor ventura, startup, dan investasi di dalamnya.
7 sprint 3 minggu
Analisis indikator bisnis
Pelajari metrik apa saja yang ada dalam bisnis. Pelajari cara menggunakan alat untuk analisis data dalam bisnis: analisis kelompok, saluran penjualan, dan ekonomi unit.
• Metrik dan corong. Konversi. corong. Saluran pemasaran. Tayangan. Klik. RKT. Corong produk.
• Analisis kelompok. Profil pengguna. tingkat retensi. Tingkat churn. Cakrawala analisis. Visualisasi analisis kohort. Analisis retensi kelompok acak. Konversi dalam analisis kohort. Menghitung metrik dengan Python.
• Unit ekonomi. Metrik LTV, CAC, ROI. ARPU, ARPU. Menghitung metrik dengan Python. Visualisasi metrik tingkat lanjut. Parameter berbagi. Rata-rata bergerak.
• Metrik khusus. Penilaian aktivitas pengguna. Sesi pengguna. Investigasi anomali.
MetrikCorongKonversiEkonomi unitAnalisis kelompokMetrik produkMetrik pemasaran
Proyek
Berdasarkan data, pahami perilaku pengguna, serta analisis profitabilitas pelanggan dan ROI iklan untuk membuat rekomendasi bagi departemen pemasaran.
8 sprint 2 minggu
SQL tingkat lanjut
Anda akan mengambil kursus tambahan tentang bekerja dengan database dan menjadi lebih dekat dengan bisnis. Dengan menggunakan bahasa SQL, Anda akan menganalisis penghitungan metrik bisnis utama yang Anda ketahui di sprint “Analisis Indikator Bisnis”. Pertimbangkan untuk bekerja dengan alat yang kompleks seperti fungsi jendela. Pelajari cara mengubah konten database secara lokal, tanpa simulator, menggunakan program klien dan pustaka khusus untuk Python.
• Perhitungan indikator bisnis. Skema data. Konversi. LTV. ARPU. ARPU. ROI. Perhitungan menggunakan SQL.
• Menggabungkan fungsi-fungsi jendela. Ekspresi LEBIH. PARTISI OLEH parameter jendela.
• Fungsi peringkat jendela. Fungsi peringkat. Jendela ORDER BY operator. BARIS_NUMBER(). PANGKAT(). PADAT_RANK(). NTILE(). Operator jendela beserta fungsi pemeringkatan.
• Fungsi offset jendela. Nilai kumulatif. Fungsi offset. MEMIMPIN(). KETINGGALAN(). Fungsi jendela dan alias.
• Analisis kelompok. Tingkat Retensi, Tingkat Churn. LTV.
• Instalasi dan konfigurasi database dan database klien. Klien basis data. Menginstal PostgreSQL. Menginstal DBeaver. Antarmuka DBeaver. Pembuatan basis data. Menyebarkan dump database. Mengunggah hasil kueri. Presentasi hasil kueri.
SQLDBMSMetricsPostgreSQLDatabasesSQL queriesFungsi jendelaAnalisis kelompok
Proyek
Menggunakan Python dan SQL, sambungkan ke database, hitung dan visualisasikan metrik utama dalam sistem layanan Tanya Jawab pemrograman.
9 sprint 2 minggu
Pengambilan keputusan dalam bisnis
Anda akan mempelajari apa itu pengujian A/B dan memahami dalam kasus apa pengujian tersebut digunakan. Pelajari cara merancang pengujian A/B dan mengevaluasi hasilnya.
• Dasar-dasar pengujian hipotesis dalam bisnis. Metrik terkemuka. Dasar eksperimen. Generasi hipotesis. Prioritas metrik. Memilih metode untuk melakukan percobaan. Metode kualitatif untuk menguji hipotesis. Metode kuantitatif untuk menguji hipotesis. Keuntungan dan kerugian pengujian A/B.
• Prioritas hipotesis. kerangka BERAS. Parameter jangkauan. Parameter dampak. Parameter kepercayaan diri. Parameter upaya.
• Bersiap untuk melakukan pengujian A/B. tes A/A. Kesalahan tipe I dan II. Kekuatan uji statistik. Signifikansi uji statistik. Perbandingan berganda, metode untuk mengurangi kemungkinan kesalahan. Perhitungan ukuran sampel dan durasi pengujian A/B. Analisis grafis metrik.
• Analisis hasil pengujian A/B. Menguji hipotesis kesetaraan saham. Uji Shapiro-Wilk untuk menguji normalitas data. Uji statistik nonparametrik. Tes Mann-Whitney. Stabilitas metrik kumulatif. Analisis outlier dan semburan.
• Algoritma perilaku. Fakta, emosi, penilaian. Jelaskan sudut pandang Anda.
Pengujian A/B Prioritas hipotesis Mempersiapkan pengujian A/B Analisis hasil pengujian A/B Analisis hasil pengujian A/B
Proyek
Analisis hasil pengujian A/B di toko online besar.
10 sprint 1 minggu
Tugas akhir modul kedua
Belajar menguji hipotesis statistik menggunakan pengujian A/B dan menyiapkan kesimpulan dan rekomendasi dalam format laporan analitis.
Saluran penjualanPengujian A/BPemrosesan dataAnalisis data penelitian
Proyek
Jelajahi saluran penjualan dan analisis hasil pengujian A/B di aplikasi seluler.
11 sprint 2 minggu
Bagaimana menceritakan sebuah cerita dengan data
Anda akan belajar bagaimana menyajikan hasil penelitian Anda dengan benar menggunakan grafik, angka-angka terpenting dan interpretasinya yang benar. Kenali perpustakaan Seaborn dan Plotly.
• Kepada siapa, bagaimana, apa dan mengapa harus diceritakan. Presentasi hasil penelitian. Target audiens narator. Apa dan mengapa harus diberitahukan kepada analis data.
• Perpustakaan Seaborn. Perpustakaan Seaborn sebagai perpanjangan dari perpustakaan Matplotlib. plot bersama() metode. Rentang warna. Gaya bagan. Visualisasi distribusi.
• Perpustakaan plot. Grafik interaktif. Grafik garis. Bagan kolom. Pie chart. Bagan corong.
• Visualisasi data dalam geoanalitik. Geoanalisis. Perpustakaan Folium. Tampilan peta. Menetapkan penanda dengan koordinat tertentu. Membuat cluster titik. Ikon khusus untuk penanda. Horoplet.
• Mempersiapkan presentasi. Kesimpulan berdasarkan penelitian. Musiman dan faktor eksternal. Nilai absolut dan relatif. Paradoks Simpson. Prinsip membangun presentasi. Laporan di Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsData visualisasi
Proyek
Siapkan studi pasar berdasarkan data terbuka tentang perusahaan katering publik di Moskow, visualisasikan data yang diperoleh.
12 sprint 2 minggu
Membangun dasbor di Tableau
Dalam sprint ini Anda akan bekerja dengan sistem Tableau BI. Pelajari cara terhubung ke data dan memodifikasinya, membuat berbagai jenis grafik, menyusun dasbor dan presentasi.
• Dasar-dasar bekerja dengan Tableau. sistem BI. Tablo. Membuat dokumen. Menyimpan dokumen. Publikasi dokumen.
• Bekerja dengan sumber data. Sumber data. Penggabungan data. Metode hubungan. Metode bergabung. Metode campuran. Metode persatuan. Mengubah format tabel.
• Tipe data. Tipe data dasar. Pengukuran. Pengukuran. Bekerja dengan tanggal dan waktu. Set. Grup. Pilihan. Mengubah format variabel. Variabel Nama Ukur, Nilai Ukur, Hitung.
• Tabel dan perhitungan. Antarmuka pengeditan lembar. Tabel pivot. Bidang terhitung. ekspresi LOD.
• Filter dan penyortiran. Tindakan penyortiran. Dimensi penyortiran. Jenis bersarang. Menyortir menggunakan parameter. Filter.
• Visualisasi. Kontrol visualisasi. Peta panas. Diagram lingkaran. Bagan kolom. Histogram. Diagram rentang. Diagram sebar. Grafik garis. Grafik gabungan. Grafik area.
• Visualisasi dan tooltip khusus. Kartu-kartu. Peta karakter. Bagan gelembung. Peta pohon. Diagram tampilan lingkaran. Diagram peluru. Bagan Gantt. Ukur nama dan ukur nilai dalam visualisasi. Rekayasa terbalik. Keterangan alat. Tooltip dengan visualisasi. Nilai ambang batas pada grafik. Alat analisis di Custom.
• Presentasi. Opsi tambahan. Studi tentang parameter tipikal. Membuat presentasi.
• Dasbor. Memuat dan menyiapkan data. Mempersiapkan visualisasi. Perakitan dasbor. Tindakan. Demonstrasi dasbor. Menerbitkan dasbor.
TableauDashboardsBI-toolsBI-toolsVisualisasi data
Proyek
Teliti sejarah konferensi TED dan buat dasbor di Tableau berdasarkan data yang diperoleh.
Sprint Ekstra
Dasar-dasar Pembelajaran Mesin
Kenali dasar-dasar pembelajaran mesin dan pelajari tentang tugas utama pembelajaran mesin dalam bisnis.
PythonPandasSklearnPembelajaran mesinTugas pembelajaran mesinAlgoritma pembelajaran mesin
Sprint Ekstra
Berlatih Python
Anda akan mengambil beberapa kelas laboratorium dengan tugas tambahan dalam bahasa pemrograman Python. Anda juga akan mempelajari cara mengekstrak data dari sumber daya web.
Kamu akan:
• dalam struktur halaman HTML dan pengoperasian permintaan GET,
• belajar menulis ekspresi reguler sederhana,
• mengenal API dan JSON,
• membuat beberapa permintaan ke situs dan mengumpulkan data.
Pengikisan web JSONPythonREST API
13 lari cepat 3 minggu
Proyek kelulusan
Di proyek terakhir, konfirmasikan bahwa Anda telah menguasai profesi baru. Perjelas tugas pelanggan dan lalui semua tahapan analisis data. Sekarang tidak ada pelajaran atau pekerjaan rumah - semuanya seperti di pekerjaan nyata.
Sprint terakhir mencakup pekerjaan proyek, pengujian A/B dan tugas SQL, serta tugas tambahan. Proyek berisi pernyataan masalah, hasil yang diharapkan, kumpulan data dan deskripsinya.
Tugas tersebut berkaitan dengan salah satu dari lima bidang bisnis:
• bank,
• pengecer,
• permainan,
• aplikasi seluler,
• perdagangan elektronik.
Tidak akan ada penjelasan biasa tentang langkah-langkah dalam proyek ini. Anda akan mengerjakannya sendiri.
Dasbor SQ LPython PandasTableau Pengujian A/B Dekomposisi SQL Postgre