50 Soalan dan Jawapan Temu Bual Sains Data Teratas

Anonim

Berikut adalah soalan yang sering diajukan dalam wawancara kerja untuk pelajar baru dan juga Saintis Data yang berpengalaman.

1. Apa itu Sains Data?

Sains Data adalah gabungan algoritma, alat, dan teknik pembelajaran mesin yang membantu anda mencari corak tersembunyi yang biasa dari data mentah yang diberikan.

2. Apakah regresi logistik dalam Sains Data?

Regresi Logistik juga disebut sebagai model logit. Ini adalah kaedah untuk meramalkan hasil binari dari kombinasi linear pemboleh ubah peramal.

3. Namakan tiga jenis bias yang boleh berlaku semasa persampelan

Dalam proses pensampelan, terdapat tiga jenis bias, iaitu:

  • Bias pemilihan
  • Di bawah liputan berat sebelah
  • Bias bertahan hidup

4. Bincangkan algoritma Pokok Keputusan

Pokok keputusan adalah algoritma pembelajaran mesin yang diselia yang popular. Ia digunakan terutamanya untuk Regresi dan Klasifikasi. Ia membolehkan pemecahan set data menjadi subset yang lebih kecil. Pokok keputusan dapat menangani data kategorik dan berangka.

5. Apakah kebarangkalian dan kemungkinan sebelumnya?

Kebarangkalian sebelumnya adalah bahagian pemboleh ubah bersandar dalam kumpulan data sementara kemungkinan adalah kemungkinan mengklasifikasikan pemerhati tertentu dengan adanya beberapa pemboleh ubah lain.

6. Terangkan Sistem Pengesyoran?

Ini adalah subkelas teknik penyaringan maklumat. Ini membantu anda meramalkan pilihan atau penilaian yang cenderung diberikan pengguna kepada sesuatu produk.

7. Namakan tiga kelemahan penggunaan model linear

Tiga kelemahan model linear adalah:

  • Anggapan lineariti kesalahan.
  • Anda tidak boleh menggunakan model ini untuk hasil binari atau hitung
  • Terdapat banyak masalah yang tidak dapat diselesaikan

8. Mengapa anda perlu melakukan pengambilan sampel semula?

Pengambilan sampel dilakukan dalam kes yang diberikan di bawah:

  • Menganggar ketepatan statistik sampel dengan menarik secara rawak dengan penggantian dari satu set titik data atau menggunakan sebagai subset data yang dapat diakses
  • Mengganti label pada titik data semasa melakukan ujian yang diperlukan
  • Mengesahkan model dengan menggunakan subset rawak

9. Senaraikan perpustakaan di Python yang digunakan untuk Analisis Data dan Pengiraan Ilmiah.

  • SciPy
  • Panda
  • Matplotlib
  • NumPy
  • SciKit
  • Laut Laut

10. Apa itu Analisis Daya?

Analisis daya adalah bahagian tidak terpisahkan dari reka bentuk eksperimen. Ini membantu anda menentukan ukuran sampel yang diperlukan untuk mengetahui kesan ukuran tertentu dari sebab dengan tahap kepastian tertentu. Ini juga membolehkan anda menggunakan kebarangkalian tertentu dalam batasan ukuran sampel.

11. Terangkan penapisan kolaboratif

Penapisan kolaboratif digunakan untuk mencari corak yang betul dengan cara bekerjasama, pelbagai sumber data, dan pelbagai ejen.

12. Apakah berat sebelah?

Bias adalah ralat yang diperkenalkan dalam model anda kerana penyederhanaan yang berlebihan dari algoritma pembelajaran mesin. "Ini boleh menyebabkan kekurangan.

13. Bincangkan 'Naive' dalam algoritma Naive Bayes?

Model Algoritma Naive Bayes berdasarkan Teorema Bayes. Ia menerangkan kebarangkalian kejadian. Ini berdasarkan pengetahuan sebelumnya mengenai keadaan yang mungkin berkaitan dengan peristiwa tertentu itu.

14. Apakah Regresi Linear?

Regresi linier adalah kaedah pengaturcaraan statistik di mana skor pemboleh ubah 'A' diramalkan dari skor pemboleh ubah kedua 'B'. B disebut sebagai pemboleh ubah peramal dan A sebagai pemboleh ubah kriteria.

15. Nyatakan perbezaan antara nilai jangkaan dan nilai min

Mereka tidak banyak perbezaan, tetapi kedua-dua istilah ini digunakan dalam konteks yang berbeza. Nilai min umumnya disebut ketika anda membincangkan taburan kebarangkalian sedangkan nilai yang diharapkan disebut dalam konteks pemboleh ubah rawak.

16. Apakah tujuan menjalankan Ujian A / B?

Ujian AB digunakan untuk melakukan eksperimen rawak dengan dua pemboleh ubah, A dan B. Matlamat kaedah pengujian ini adalah untuk mengetahui perubahan pada laman web untuk memaksimumkan atau meningkatkan hasil strategi.

17. Apakah Pembelajaran Ensembel?

Ensemble adalah kaedah menggabungkan kumpulan pelajar yang pelbagai untuk meningkatkan kestabilan dan kekuatan ramalan model. Dua jenis kaedah pembelajaran Ensemble adalah:

Bagging

Kaedah mengemas membantu anda untuk menerapkan pelajar yang serupa pada populasi sampel kecil. Ini membantu anda membuat ramalan yang lebih dekat.

Meningkatkan

Meningkatkan adalah kaedah berulang yang membolehkan anda menyesuaikan berat pemerhatian bergantung pada klasifikasi terakhir. Meningkatkan mengurangkan ralat bias dan membantu anda membina model ramalan yang kuat.

18. Terangkan Eigenvalue dan Eigenvector

Eigen vektor adalah untuk memahami transformasi linear. Saintis data perlu mengira vektor eigen untuk matriks atau korelasi kovarians. Nilai eigen adalah arah sepanjang menggunakan tindakan transformasi linear tertentu dengan memampatkan, membalikkan, atau meregangkan.

19. Tentukan istilah pengesahan silang

Cross-validation adalah teknik pengesahan untuk menilai bagaimana hasil analisis statistik akan digeneralisasikan untuk set data Bebas. Kaedah ini digunakan di latar belakang di mana objektif diramalkan, dan seseorang perlu menganggarkan seberapa tepat model akan dapat dicapai.

20. Terangkan langkah-langkah untuk projek analisis Data

Berikut adalah langkah penting yang terlibat dalam projek analisis:

  • Fahami masalah Perniagaan
  • Terokai data dan kaji dengan teliti.
  • Siapkan data untuk pemodelan dengan mencari nilai yang hilang dan mengubah pemboleh ubah.
  • Mula jalankan model dan analisis hasil Big data.
  • Sahkan model dengan set data baru.
  • Laksanakan model dan lacak hasilnya untuk menganalisis prestasi model untuk jangka masa tertentu.

21. Bincangkan Rangkaian Neural Buatan

Rangkaian Neural Buatan (ANN) adalah sekumpulan algoritma khas yang telah merevolusikan pembelajaran mesin. Ini membantu anda menyesuaikan diri mengikut perubahan input. Oleh itu, rangkaian menghasilkan hasil yang terbaik tanpa merancang semula kriteria output.

22. Apakah Penyebaran Kembali?

Penyebaran balik adalah inti pati latihan jaring saraf. Ini adalah kaedah penyesuaian bobot jaring saraf bergantung pada kadar ralat yang diperoleh pada zaman sebelumnya. Penalaan yang betul dapat membantu anda mengurangkan kadar ralat dan menjadikan model boleh dipercayai dengan meningkatkan generalisasi.

23. Apa itu Hutan Rawak?

Hutan rawak adalah kaedah pembelajaran mesin yang membantu anda melakukan semua jenis tugas regresi dan klasifikasi. Ini juga digunakan untuk mengobati nilai yang hilang dan nilai luar.

24. Apakah kepentingan mempunyai bias pemilihan?

Pemilihan Bias berlaku apabila tidak ada rawak khusus yang dicapai semasa memilih individu atau kumpulan atau data yang akan dianalisis. Ini menunjukkan bahawa sampel yang diberikan tidak benar-benar mewakili populasi yang dimaksudkan untuk dianalisis.

25. Apakah kaedah pengelompokan K-means?

K-bermaksud pengelompokan adalah kaedah pembelajaran tanpa pengawasan yang penting. Ini adalah teknik mengklasifikasikan data menggunakan kumpulan kluster tertentu yang disebut kluster K. Ia digunakan untuk pengelompokan untuk mengetahui kesamaan data.

26. Terangkan perbezaan antara Sains Data dan Analisis Data

Saintis Data perlu memotong data untuk mendapatkan pandangan berharga yang dapat digunakan oleh penganalisis data untuk senario perniagaan dunia nyata. Perbezaan utama antara keduanya adalah bahawa saintis data mempunyai lebih banyak pengetahuan teknikal daripada penganalisis perniagaan. Selain itu, mereka tidak memerlukan pemahaman mengenai perniagaan yang diperlukan untuk visualisasi data.

27. Terangkan nilai p?

Semasa anda menjalankan ujian hipotesis dalam statistik, nilai p membolehkan anda menentukan kekuatan keputusan anda. Ini adalah nombor berangka antara 0 dan 1. Berdasarkan nilai itu akan membantu anda menunjukkan kekuatan hasil tertentu.

28. Tentukan istilah pembelajaran mendalam

Pembelajaran Dalam adalah subtipe pembelajaran mesin. Ini berkaitan dengan algoritma yang diilhami oleh struktur yang disebut jaringan saraf tiruan (ANN).

29. Terangkan kaedah untuk mengumpulkan dan menganalisis data untuk menggunakan media sosial untuk meramalkan keadaan cuaca.

Anda boleh mengumpulkan data media sosial menggunakan Facebook, twitter, API Instagram. Sebagai contoh, untuk tweeter, kita dapat membina satu ciri dari setiap tweet seperti tarikh tweet, retweet, senarai pengikut, dan lain-lain. Kemudian anda boleh menggunakan model siri masa multivariate untuk meramalkan keadaan cuaca.

30. Bilakah anda perlu mengemas kini algoritma dalam sains Data?

Anda perlu mengemas kini algoritma dalam situasi berikut:

  • Anda mahu model data anda berkembang sebagai aliran data menggunakan infrastruktur
  • Sumber data yang mendasari sedang berubah

    Sekiranya ia tidak stabil

31. Apakah Taburan Biasa

Taburan normal adalah sekumpulan pemboleh ubah berterusan yang tersebar di lekukan normal atau dalam bentuk lengkung loceng. Anda boleh menganggapnya sebagai taburan kebarangkalian berterusan yang berguna dalam statistik. Adalah berguna untuk menganalisis pemboleh ubah dan hubungannya ketika kita menggunakan kurva taburan normal.

32. Bahasa mana yang terbaik untuk analisis teks? R atau Python?

Python akan lebih sesuai untuk analisis teks kerana terdiri daripada perpustakaan kaya yang dikenali sebagai panda. Ini membolehkan anda menggunakan alat analisis data dan struktur data peringkat tinggi, sementara R tidak menawarkan fitur ini.

33. Terangkan faedah menggunakan statistik oleh Saintis Data

Statistik membantu saintis Data untuk mendapatkan idea yang lebih baik mengenai harapan pelanggan. Dengan menggunakan kaedah statistik, Saintis Data dapat memperoleh pengetahuan mengenai minat, tingkah laku, keterlibatan, pengekalan pengguna, dan lain-lain. Ia juga membantu anda membina model data yang kuat untuk mengesahkan kesimpulan dan ramalan tertentu.

34. Namakan pelbagai jenis Kerangka Pembelajaran Dalam

  • Pytorch
  • Perisian Kognitif Microsoft
  • TensorFlow
  • Kafe
  • Rantai
  • Keras

35. Jelaskan Pengekodan Auto

Autoencoder adalah rangkaian pembelajaran. Ini membantu anda mengubah input menjadi output dengan bilangan kesalahan yang lebih sedikit. Ini bermaksud bahawa anda akan mendapat output sedekat mungkin dengan input.

36. Tentukan Mesin Boltzmann

Mesin Boltzmann adalah algoritma pembelajaran sederhana. Ini membantu anda menemui ciri-ciri yang mewakili keteraturan kompleks dalam data latihan. Algoritma ini membolehkan anda mengoptimumkan berat dan kuantiti untuk masalah yang diberikan.

37. Terangkan mengapa Pembersihan Data sangat penting dan kaedah mana yang anda gunakan untuk mengekalkan data yang bersih

Data yang kotor sering menyebabkan bahagian dalam yang salah, yang boleh merosakkan prospek organisasi mana pun. Contohnya, jika anda ingin menjalankan kempen pemasaran yang disasarkan. Walau bagaimanapun, data kami dengan tidak betul memberitahu bahawa produk tertentu akan diminati oleh khalayak sasaran anda; kempen akan gagal.

38. Apakah sebaran miring & sebaran seragam?

Pembahagian condong berlaku apabila data diedarkan di satu sisi plot sedangkan sebaran seragam dikenal pasti ketika data tersebar sama dalam julat.

39. Apabila kekurangan pemasangan berlaku dalam model statik?

Underfitting berlaku apabila model statistik atau algoritma pembelajaran mesin tidak dapat menangkap trend data yang mendasari.

40. Apakah pembelajaran pengukuhan?

Pembelajaran Pengukuhan adalah mekanisme pembelajaran tentang cara memetakan situasi kepada tindakan. Hasil akhirnya akan membantu anda meningkatkan isyarat ganjaran binari. Dalam kaedah ini, pelajar tidak diberitahu tindakan yang harus diambil tetapi sebaliknya harus mengetahui tindakan mana yang memberikan ganjaran maksimum. Seperti kaedah ini berdasarkan mekanisme ganjaran / penalti.

41. Namakan algoritma yang biasa digunakan.

Empat algoritma yang paling biasa digunakan oleh saintis Data adalah:

  • Regresi linear
  • Regresi logistik
  • Hutan Rawak
  • KNN

42. Apakah ketepatan itu?

Ketepatan adalah metrik ralat yang paling biasa digunakan ialah mekanisme klasifikasi. Julatnya dari 0 hingga 1, di mana 1 mewakili 100%

43. Apakah analisis univariat?

Analisis yang tidak diterapkan pada atribut sekaligus dikenal sebagai analisis univariate. Boxplot digunakan secara meluas, model univariat.

44. Bagaimana anda mengatasi cabaran penemuan anda?

Untuk mengatasi cabaran penemuan saya, seseorang perlu mendorong perbincangan, Menunjukkan kepemimpinan dan menghormati pilihan yang berbeza.

45. Terangkan teknik persampelan kluster dalam sains Data

Metode persampelan kluster digunakan ketika menantang untuk mengkaji populasi sasaran yang tersebar, dan persampelan rawak sederhana tidak dapat diterapkan.

46. ​​Nyatakan perbezaan antara Set Pengesahan dan Set Ujian

Satu set Pengesahan yang kebanyakannya dianggap sebagai bagian dari set latihan kerana ia digunakan untuk pemilihan parameter yang membantu anda untuk mengelakkan pemasangan model yang terlalu banyak.

Sementara Set Uji digunakan untuk menguji atau menilai prestasi model pembelajaran mesin terlatih.

47. Terangkan istilah Formula Kebarangkalian Binomial?

"Taburan binomial mengandungi kebarangkalian setiap kemungkinan kejayaan pada percubaan N untuk peristiwa bebas yang mempunyai kebarangkalian π berlaku."

48. Apakah penarikan semula?

Ingatan adalah nisbah kadar positif sebenar dengan kadar positif sebenar. Ia berkisar antara 0 hingga 1.

49. Bincangkan taburan normal

Taburan normal sama rata, rata-rata dan mod adalah sama.

50. Semasa mengerjakan set data, bagaimana anda boleh memilih pemboleh ubah penting? Terangkan

Berikut kaedah pemilihan pemboleh ubah yang boleh anda gunakan:

  • Keluarkan pemboleh ubah berkorelasi sebelum memilih pemboleh ubah penting
  • Gunakan regresi linier dan pilih pemboleh ubah yang bergantung pada nilai p tersebut.
  • Gunakan Pemilihan Mundur, Maju, dan Selangkah
  • Gunakan Xgboost, Random Forest, dan plot carta kepentingan pemboleh ubah.
  • Ukur perolehan maklumat untuk sekumpulan ciri tertentu dan pilih ciri-ciri teratas yang sesuai.

51. Adakah mungkin untuk menangkap hubungan antara pemboleh ubah berterusan dan kategoris?

Ya, kita boleh menggunakan analisis teknik kovarians untuk menangkap perkaitan antara pemboleh ubah berterusan dan kategoris.

52. Memperlakukan pemboleh ubah kategori sebagai pemboleh ubah berterusan akan menghasilkan model ramalan yang lebih baik?

Ya, nilai kategorik harus dianggap sebagai pemboleh ubah berterusan hanya apabila pemboleh ubahnya bersifat ordinal. Oleh itu, ia adalah model ramalan yang lebih baik.