25 Soalan Temuduga Pengujian ETL Teratas & Jawapan

Anonim

Berikut adalah soalan yang sering diajukan dalam wawancara untuk penyegar dan penguji ETL yang berpengalaman.

1) Apa itu ETL?

Dalam seni bina pergudangan data, ETL adalah komponen penting, yang menguruskan data untuk sebarang proses perniagaan. ETL bermaksud Extract, Transform and Load . Ekstrak melakukan proses membaca data dari pangkalan data. Transform melakukan penukaran data menjadi format yang sesuai untuk pelaporan dan analisis. Sementara, beban melakukan proses penulisan data ke dalam pangkalan data sasaran.

2) Terangkan apa yang merangkumi operasi pengujian ETL?

Ujian ETL merangkumi

  • Sahkan sama ada data berubah dengan betul mengikut keperluan perniagaan
  • Sahkan bahawa data yang diproyeksikan dimuat ke gudang data tanpa pemotongan dan kehilangan data
  • Pastikan aplikasi ETL melaporkan data yang tidak sah dan diganti dengan nilai lalai
  • Pastikan data dimuat pada jangka masa yang diharapkan untuk meningkatkan skalabilitas dan prestasi

3) Sebutkan apa jenis aplikasi gudang data dan apakah perbezaan antara perlombongan data dan pergudangan data?

Jenis aplikasi gudang data adalah

  • Pemprosesan Maklumat
  • Pemprosesan Analitik
  • Perlombongan Data

Perlombongan data dapat didefinisikan sebagai proses pengekstrakan maklumat ramalan tersembunyi dari pangkalan data besar dan menafsirkan data sementara pergudangan data dapat menggunakan lombong data untuk pemprosesan analitik data dengan cara yang lebih cepat. Pergudangan data adalah proses mengumpulkan data dari pelbagai sumber menjadi satu repositori biasa

4) Apakah pelbagai alat yang digunakan dalam ETL?

  • Aliran Keputusan Cognos
  • Pembina Gudang Oracle
  • Objek Perniagaan XI
  • Gudang perniagaan SAS
  • Pelayan ETL SAS Enterprise

5) Apakah fakta? Apakah jenis fakta?

Ia adalah komponen utama model multi-dimensi yang mengandungi ukuran yang akan dianalisis. Fakta berkaitan dengan dimensi.

Jenis fakta adalah

  • Fakta Tambahan
  • Fakta Separuh Tambahan
  • Fakta Bukan Tambahan

6) Terangkan apa itu kubus dan kubus OLAP?

Kubus adalah unit pemprosesan data yang terdiri daripada jadual fakta dan dimensi dari gudang data. Ia memberikan analisis pelbagai dimensi.

OLAP bermaksud Pemprosesan Analisis Dalam Talian, dan kubus OLAP menyimpan data besar dalam bentuk dimensi muti untuk tujuan pelaporan. Ini terdiri daripada fakta yang disebut sebagai ukuran yang dikategorikan berdasarkan dimensi.

7) Terangkan apakah tahap penjejakan dan apakah jenisnya?

Tracing level adalah jumlah data yang disimpan dalam fail log. Tahap penjejakan dapat dikelaskan dalam dua Normal dan Verbose. Tahap normal menerangkan tahap penjejakan secara terperinci sementara tahap verbose menerangkan tahap penjejakan pada setiap baris.

8) Terangkan apa itu Grain of Fact?

Fakta butir dapat didefinisikan sebagai tahap di mana maklumat fakta disimpan. Ia juga dikenali sebagai Fact Granularity

9) Terangkan apa itu skema fakta tanpa fakta dan apa itu Langkah?

Jadual fakta tanpa ukuran dikenali sebagai Jadual fakta tanpa fakta. Ia dapat melihat jumlah kejadian yang berlaku. Sebagai contoh, ia digunakan untuk merakam peristiwa seperti jumlah pekerja di sebuah syarikat.

Data berangka berdasarkan lajur dalam tabel fakta dikenal sebagai Ukuran

10) Terangkan apa itu transformasi?

Transformasi adalah objek repositori yang menghasilkan, mengubah atau menyebarkan data. Transformasi terdiri daripada dua jenis Aktif dan Pasif

11) Terangkan penggunaan Lookup Transformation?

Transformasi Lookup berguna untuk

  • Mendapatkan nilai yang berkaitan dari jadual menggunakan nilai lajur
  • Kemas kini jadual dimensi yang perlahan-lahan berubah
  • Sahkan sama ada rekod sudah ada dalam jadual

12) Terangkan apa itu partitioning, hash partitioning dan round robin partitioning?

Untuk meningkatkan prestasi, urus niaga dibahagikan, ini disebut sebagai Partitioning. Pemisahan membolehkan Pelayan Informatik untuk membuat pelbagai sambungan ke pelbagai sumber

Jenis partition adalah

Pembahagian Round-Robin:

  • Dengan maklumat, data diedarkan secara merata di antara semua partisi
  • Pada setiap partisi di mana bilangan baris untuk diproses hampir sama, pembahagian ini berlaku

Partition Hash:

  • Untuk tujuan kunci partisi untuk mengelompokkan data di antara partisi, pelayan Informatica menggunakan fungsi hash
  • Ia digunakan semasa memastikan kumpulan proses baris dengan kunci partisi yang sama dalam partisi yang sama perlu dipastikan

13) Sebutkan apakah kelebihan menggunakan DataReader Destination Adapter?

Kelebihan menggunakan DataReader Destination Adapter adalah bahawa ia mengisi set rakaman ADO (terdiri dari catatan dan lajur) dalam memori dan memperlihatkan data dari tugas DataFlow dengan menerapkan antara muka DataReader, sehingga aplikasi lain dapat menggunakan data.

14) Menggunakan SSIS (SQL Server Integration Service) apakah cara yang mungkin untuk mengemas kini jadual?

Untuk mengemas kini jadual menggunakan SSIS cara yang mungkin adalah:

  • Gunakan arahan SQL
  • Gunakan meja pementasan
  • Gunakan Cache
  • Gunakan Tugas Skrip
  • Gunakan nama pangkalan data penuh untuk mengemas kini jika MSSQL digunakan

15) Sekiranya anda mempunyai sumber bukan OLEDB (Objek Menghubungkan dan Memasukkan Pangkalan Data) untuk mencari apa yang akan anda lakukan?

Sekiranya anda mempunyai sumber bukan OLEBD untuk pencarian maka anda harus menggunakan Cache untuk memuat data dan menggunakannya sebagai sumber

16) Dalam kes apa anda menggunakan cache dinamik dan cache statik dalam transformasi yang bersambung dan tidak bersambung?

  • Cache dinamik digunakan apabila anda perlu mengemas kini jadual induk dan perlahan-lahan mengubah dimensi (SCD) jenis 1
  • Untuk fail rata Cache statik digunakan

17) Terangkan apa perbezaan antara pencarian Tidak Terhubung dan Bersambung?

Pencarian Terhubung

Pencarian Tidak Terhubung

  • Pencarian bersambung mengambil bahagian dalam pemetaan

- Digunakan ketika fungsi pencarian digunakan dan bukannya transformasi ekspresi ketika pemetaan

  • Pelbagai nilai dapat dikembalikan

- Hanya mengembalikan satu port output

  • Ia boleh dihubungkan dengan transformasi lain dan mengembalikan nilai
  • Transformasi lain tidak dapat dihubungkan
  • Cache statik atau dinamik boleh digunakan untuk Lookup yang disambungkan
  • Tidak disambungkan sebagai cache statik sahaja
  • Pencarian bersambung menyokong nilai lalai yang ditentukan pengguna
  • Pencarian yang tidak bersambung tidak menyokong nilai lalai yang ditentukan pengguna
  • Dalam Connected Lookup, lajur boleh kembali dari baris yang sama atau memasukkan ke dalam cache carian dinamik
  • Pencarian yang tidak bersambung menetapkan satu port kembali dan mengembalikan satu lajur dari setiap baris

18) Terangkan apakah pandangan sumber data?

Paparan sumber data memungkinkan untuk menentukan skema hubungan yang akan digunakan dalam pangkalan data perkhidmatan analisis. Daripada langsung dari objek sumber data, dimensi dan kubus dibuat dari pandangan sumber data.

19) Terangkan apa perbezaan antara alat OLAP dan alat ETL?

Perbezaan antara alat ETL dan OLAP adalah bahawa

Alat ETL dimaksudkan untuk pengambilan data dari sistem warisan dan memuatkan ke pangkalan data yang ditentukan dengan beberapa proses pembersihan data.

Contoh: Peringkat data, Informatica dll.

Sementara OLAP dimaksudkan untuk tujuan pelaporan dalam data OLAP yang tersedia dalam model multi arah.

Contoh: Objek Perniagaan, Cognos dll.

20) Bagaimana anda boleh mengekstrak data SAP menggunakan Informatica?

  • Dengan pilihan power connect anda mengekstrak data SAP menggunakan informatica
  • Pasang dan konfigurasikan alat PowerConnect
  • Import sumber ke dalam Source Analyzer. Antara Informatica dan SAP Powerconnect bertindak sebagai pintu masuk. Langkah seterusnya adalah menghasilkan kod ABAP untuk pemetaan maka hanya informatica yang dapat menarik data dari SAP
  • Untuk menyambung dan mengimport sumber dari sistem luaran Power Connect digunakan

21) Sebutkan apa perbezaan antara Power Mart dan Power Center?

Pusat Kuasa

Power Mart

  • Katakan untuk memproses jumlah data yang besar
  • Katakan untuk memproses jumlah data yang rendah
  • Ia menyokong sumber ERP seperti SAP, orang lembut dll.
  • Ia tidak menyokong sumber ERP
  • Ia menyokong repositori tempatan dan global
  • Ia menyokong repositori tempatan
  • Ia menukar tempatan menjadi repositori global
  • Tidak memiliki spesifikasi untuk mengubah lokal menjadi repositori global

22) Jelaskan apa itu kawasan pementasan dan apakah tujuan kawasan pementasan?

Pementasan data adalah kawasan di mana anda menyimpan data sementara pada pelayan gudang data. Pementasan data merangkumi langkah-langkah berikut

  • Pengekstrakan data sumber dan transformasi data (penyusunan semula)
  • Transformasi data (pembersihan data, transformasi nilai)
  • Tugaskan kunci pengganti

23) Apa itu Skema Bas?

Untuk pelbagai proses perniagaan untuk mengenal pasti dimensi umum, skema BUS digunakan. Ia dilengkapi dengan dimensi yang sesuai dengan definisi standard maklumat

24) Terangkan apa itu pembersihan data?

Pembersihan data adalah proses menghapus data dari gudang data. Ia menghapus baris seperti data sampah dengan nilai kosong atau ruang tambahan.

25) Terangkan apa itu Objek Skema?

Objek skema adalah struktur logik yang secara langsung merujuk kepada data pangkalan data. Objek skema merangkumi jadual, pandangan, sinonim urutan, indeks, kluster, pakej fungsi dan pautan pangkalan data

26) Terangkan istilah ini Sesi, Worklet, Mapplet dan Workflow?

  • Mapplet: Ia mengatur atau membuat set transformasi
  • Worklet: Ini mewakili sekumpulan tugas tertentu yang diberikan
  • Aliran Kerja: Ini adalah sekumpulan arahan yang memberitahu pelayan cara melaksanakan tugas
  • Sesi: Ini adalah sekumpulan parameter yang memberitahu pelayan cara memindahkan data dari sumber ke sasaran

Muat turun PDF percuma: Soalan & Jawapan Temuduga Pengujian ETL