Parsing WEB dengan Python - kursus 4350 gosok. dari Stepik, pelatihan 63 pelajaran, Tanggal 29 Oktober 2023.
Miscellanea / / December 04, 2023
Scraping, atau seperti yang mereka katakan di RuNet, penguraian data, berarti pengumpulan informasi secara otomatis dengan penyimpanan, pemrosesan, dan analisis data selanjutnya.
Dengan bantuan parser, kita dapat mengekstrak gigabyte data dalam hitungan detik, sepanjang waktu dan secara otomatis. Setelah menguasai keterampilan parsing, kita dapat mengumpulkan informasi dari bursa, mengurai berbagai sumber, artikel, dan berdasarkan pada mereka menulis algoritma untuk melatih bot perdagangan.
Foto Anda, alamat akun media sosial, nomor telepon, dan informasi kontak lainnya akan selalu berisiko terkikis jika sembarangan ditempatkan di situs web.
Di bursa freelance, sebagian besar pesanan terdiri dari proposal untuk menulis parser. Setelah menguasai profesi yang sekilas tampak rumit, Anda dapat dengan mudah mendapatkan beberapa ratus tanaman hijau. Setuju, ini adalah tambahan yang bagus untuk pekerjaan utama Anda.
Mengumpulkan, memproses, dan mengklasifikasikan informasi menggunakan jaringan saraf. belajar membuat keputusan untuk kita.
Perusahaan dapat menganalisis produk, harga, diskon dari pesaing dan terus-menerus berebut perhatian pelanggan, saling mencuri informasi tentang produk baru.
Penguraian tidak selalu merupakan sisi gelap dari cookie. Dalam praktik saya, saya sering menemukan perintah yang tidak berbahaya, misalnya, untuk menguraikan ulasan atau komentar. Sederhananya, pembuat situs tidak mau mengisinya secara manual, karena panjang dan membosankan. Lebih mudah untuk membayar $100 untuk pangkalan yang sudah jadi dan membebaskan diri Anda dari pekerjaan yang monoton dan rutin.
Pengikisan data sepenuhnya legal. Kemungkinan alat ini, ditambah dengan analisis dan klasifikasi data yang diperoleh, pada dasarnya tidak terbatas. Anda dapat menguraikan semuanya, Anda hanya perlu mengetahui bagaimana dunia informasi yang menarik, data besar, pembelajaran mendalam, dan jaringan saraf akan terbuka di hadapan Anda. Hal utama adalah jangan berhenti, pelajari sesuatu yang baru, terus bergerak maju.
Tujuan kursus ini:
- Memperkenalkan Anda pada alat dasar yang digunakan untuk parsing/scraping;
- Belajarlah untuk menggunakan alat-alat ini dalam praktik;
- Tunjukkan kepada Anda fitur-fitur yang akan membantu Anda mengurai informasi apa pun dari situs web;
- Saat mengikuti kursus, Anda akan memiliki akses ke obrolan umum di mana Anda dapat mengajukan pertanyaan jika ada sesuatu yang tiba-tiba menjadi tidak jelas;
- Dan banyak lagi.
Perkenalan
1. Perkenalan
2. Berapa banyak yang bisa Anda peroleh dari scraping?
3. Umpan balik dari siswa
4. Konten kursusĀ
HTML pohon DOM
1. Pengantar DOM
2. Elemen dan tipenya
3. Atribut HTML
4. Menemukan elemen pada halaman
Permintaan
1. Pengantar Permintaan
2. Menginstal perpustakaan permintaan
3. metode permintaan.get()
4. Kode status
5. Mendapatkan konten objek respons
6. Kesimpulan
Sup Cantik
1. Pengantar BeautifulSoup4
2. Instalasi dan Impor
3. Membuat sup
4. Cari node dan elemen
5. Paginasi
6. penguraian AJAX
7. Mengurai data tabel
8. Simpan hasilnya di Excel
9. Kami menyimpan hasilnya di JSON
10. Parsing JSON
Selenium
1. Perkenalan
2. Menginstal Selenium Webdriver
3. Pilihan dan Argumen
4. Menemukan Unsur Selenium
5. Metode Selenium
6. Menggulir halaman
7. Windows dan Tab
8. Harapan eksplisit dan implisit
Bonusnya
1. Contoh parser
Parsim Telegram
1. Perkenalan
2. Instalasi, konfigurasi dan impor
3. Metode Telethon Dasar
4. Mengurai data anggota kelompok
5. Mengurai pesan grup
6. Kirim hasil parsing ke telegram
7. Masukan
Penguraian asinkron
1. Pengantar Asincio
2. Instalasi, konfigurasi, impor
3. mulai asinkron
4. Lingkaran peristiwa
5. Objek yang ditunggu-tunggu
6. Metode dan Fungsi Dasar Asyncio
7. aiohttp
8. Memasak sup asinkron
9. aiofile
Lewati captcha
1. Pengantar CAPTCHA
2. Instalasi, konfigurasi, impor
3. Melewati captcha biasa
4. Lewati captcha teks
5. Lewati reCAPTCHA V2
6. Lewati reCAPTCHA V2 yang Tak Terlihat
7. Lewati reCAPTCHA V3
8. Lewati reCAPTCHA Enterprise
9. Lewati Jaringan
10. Lewati Koordinat
11. Lewati Geetest Geetest v4
12. Lewati hCaptcha
13. Lewati Captcha Cerdas Yandex
14. Lewati Captcha yang Dipotong LeminĀ