200+ câu hỏi trắc nghiệm Khai phá dữ liệu (Có đáp án)

📜 Đọc lưu ý & miễn trừ trách nhiệm trước khi làm bài (Click để đọc)

⚠️ Xin lưu ý và đọc kỹ phần miễn trừ trách nhiệm: Các câu hỏi và đáp án được cung cấp trong bộ trắc nghiệm này mang tính chất tham khảo, phục vụ cho mục đích học tập và luyện tập kiến thức. Đây KHÔNG phải là đề thi chính thức, cũng không đại diện cho tài liệu chuẩn hoặc kỳ thi chứng chỉ do bất kỳ cơ quan giáo dục hay tổ chức cấp chứng chỉ nào ban hành. Website không chịu trách nhiệm về tính chính xác của nội dung cũng như các quyết định được đưa ra dựa trên kết quả làm bài.

Bộ số 1

Câu 1

Thuật toán 'K-Means' là một thuật toán phân cụm thuộc loại nào?

A. Phân cụm dựa trên mật độ (Density-based clustering).
B. Phân cụm dựa trên mô hình (Model-based clustering).
C. Phân cụm dựa trên phân hoạch (Partition-based clustering).
D. Phân cụm dựa trên phân cấp (Hierarchical clustering).

Câu 2

Trong thuật toán Apriori, 'Minimum Support' (hỗ trợ tối thiểu) được sử dụng để:

A. Xác định độ tin cậy của luật kết hợp.
B. Giới hạn số lượng tập mục được tạo ra, chỉ giữ lại các tập mục xuất hiện đủ thường xuyên.
C. Đo lường sự thú vị của một luật kết hợp.
D. Kiểm soát số lượng các cụm trong phân tích cụm.

Câu 3

Trong khai phá dữ liệu, các thuật toán phân cụm dựa trên mật độ (density-based clustering) như DBSCAN có ưu điểm gì?

A. Nhạy cảm với các giá trị ngoại lệ và có thể tạo ra các cụm có hình dạng bất kỳ.
B. Yêu cầu số lượng cụm phải được xác định trước.
C. Chỉ hiệu quả với các cụm có hình dạng hình cầu.
D. Dễ bị ảnh hưởng bởi việc lựa chọn K trong thuật toán K-Means.

Câu 4

Mục tiêu của 'Data Reduction' (giảm thiểu dữ liệu) là gì?

A. Tăng kích thước tập dữ liệu để có nhiều thông tin hơn.
B. Giảm kích thước tập dữ liệu để tăng tốc độ xử lý và lưu trữ, đồng thời vẫn giữ được các mẫu hình quan trọng.
C. Loại bỏ hoàn toàn các giá trị ngoại lệ.
D. Tập trung vào việc trực quan hóa dữ liệu.

Câu 5

Mục tiêu của 'Data Discretization' (rời rạc hóa dữ liệu) là gì?

A. Tăng độ chính xác của các giá trị số.
B. Chuyển đổi các biến liên tục thành các biến phân loại để phù hợp với một số thuật toán khai phá dữ liệu.
C. Giảm thiểu số lượng thuộc tính.
D. Loại bỏ các mối quan hệ phi tuyến tính.

Câu 6

Mục đích của 'Data Integration' (tích hợp dữ liệu) trong quy trình khai phá dữ liệu là gì?

A. Giảm kích thước của tập dữ liệu.
B. Phát hiện các mẫu hình ẩn.
C. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một nguồn thống nhất.
D. Đánh giá hiệu suất của mô hình.

Câu 7

Thuật toán Apriori được sử dụng chủ yếu cho loại bài toán nào trong khai phá dữ liệu?

A. Phân tích cụm.
B. Phân loại.
C. Phát hiện luật kết hợp (Association Rule Mining).
D. Giảm chiều dữ liệu.

Câu 8

Quá trình tiền xử lý dữ liệu nào sau đây giúp xử lý các giá trị bị thiếu (missing values) trong tập dữ liệu?

A. Làm sạch dữ liệu (Data Cleaning).
B. Tích hợp dữ liệu (Data Integration).
C. Chuyển đổi dữ liệu (Data Transformation).
D. Giảm chiều dữ liệu (Data Reduction).

Câu 9

Mục tiêu chính của phân tích cụm (Cluster Analysis) trong khai phá dữ liệu là gì?

A. Dự đoán giá trị liên tục của biến mục tiêu.
B. Phân loại dữ liệu vào các nhóm đã biết trước.
C. Tìm kiếm các mối quan hệ giữa các biến.
D. Nhóm các đối tượng tương tự nhau thành các cụm mà không có nhãn trước.

Câu 10

Trong khai phá dữ liệu, 'Association Rule Mining' (khai phá luật kết hợp) thường được ứng dụng trong kịch bản nào sau đây?

A. Dự đoán giá nhà.
B. Phân tích hành vi mua sắm của khách hàng (ví dụ: 'market basket analysis').
C. Phân loại email spam.
D. Nhóm các khách hàng có hành vi tương tự.

Câu 11

Kỹ thuật 'Data Transformation' (chuyển đổi dữ liệu) có thể bao gồm những hoạt động nào?

A. Xóa bỏ các bản ghi trùng lặp.
B. Chuẩn hóa (Normalization) và làm mịn (Smoothing) dữ liệu.
C. Gộp nhiều tập dữ liệu lại.
D. Phát hiện các giá trị ngoại lệ.

Câu 12

Trong khai phá dữ liệu, 'Pattern Evaluation' (đánh giá mẫu hình) là bước dùng để:

A. Tìm kiếm các mẫu hình tiềm năng.
B. Lọc ra các mẫu hình thú vị hoặc có ý nghĩa từ các mẫu hình được phát hiện.
C. Tiền xử lý dữ liệu.
D. Xây dựng mô hình dự đoán.

Câu 13

Trong khai phá dữ liệu, 'Outlier' (ngoại lệ) là gì?

A. Điểm dữ liệu có giá trị trung bình cao.
B. Điểm dữ liệu có giá trị gần với các điểm dữ liệu khác.
C. Điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Điểm dữ liệu bị thiếu.

Câu 14

Độ đo nào sau đây được sử dụng để đánh giá chất lượng của một luật kết hợp (association rule) như 'X -> Y'?

A. Độ chính xác (Accuracy).
B. Độ tin cậy (Confidence).
C. Độ lỗi trung bình bình phương (Mean Squared Error).
D. Tỷ lệ phát hiện sai (False Positive Rate).

Câu 15

Kỹ thuật 'Data Normalization' (chuẩn hóa dữ liệu) có mục đích chính là gì?

A. Tăng số lượng thuộc tính.
B. Đưa các thuộc tính về cùng một thang đo hoặc phạm vi giá trị, tránh việc thuộc tính có thang đo lớn hơn áp đảo thuộc tính có thang đo nhỏ hơn.
C. Phát hiện các mối quan hệ nhân quả.
D. Loại bỏ các giá trị trùng lặp.

Câu 16

Kỹ thuật 'Data Smoothing' (làm mịn dữ liệu) thường được sử dụng để:

A. Tăng cường sự khác biệt giữa các điểm dữ liệu.
B. Giảm thiểu tác động của nhiễu hoặc sự biến động ngẫu nhiên trong dữ liệu.
C. Phát hiện các mối quan hệ tuyến tính.
D. Tạo ra các nhóm dữ liệu mới.

Câu 17

Mục tiêu của 'Data Sampling' (lấy mẫu dữ liệu) là gì?

A. Tăng cường độ chi tiết của dữ liệu.
B. Tạo ra một tập con dữ liệu nhỏ hơn, đại diện cho tập dữ liệu gốc, để giảm thời gian xử lý.
C. Loại bỏ tất cả các giá trị ngoại lệ.
D. Phát hiện các quy luật ẩn.

Câu 18

Trong khai phá dữ liệu, một 'transaction' (giao dịch) thường đề cập đến:

A. Một điểm dữ liệu đơn lẻ.
B. Một tập hợp các mục hoặc sự kiện xảy ra đồng thời hoặc trong một khoảng thời gian nhất định.
C. Một thuộc tính của tập dữ liệu.
D. Một kết quả dự đoán của mô hình.

Câu 19

Trong các thuật toán phân loại, thuật toán K-Nearest Neighbors (KNN) phân loại một điểm dữ liệu mới dựa trên:

A. Trung bình cộng của các điểm dữ liệu trong tập huấn luyện.
B. Số lượng các điểm dữ liệu gần nhất trong tập huấn luyện có cùng nhãn.
C. Phần lớn nhãn của các điểm dữ liệu gần nhất trong tập huấn luyện.
D. Khoảng cách từ điểm dữ liệu mới đến điểm dữ liệu gần nhất trong tập huấn luyện.

Câu 20

Trong mô hình cây quyết định, nút lá (leaf node) đại diện cho điều gì?

A. Một thuộc tính để phân chia dữ liệu.
B. Một quy tắc phân loại hoặc dự đoán cuối cùng.
C. Một điều kiện để rẽ nhánh.
D. Một tập hợp con của dữ liệu.

Câu 21

Trong khai phá dữ liệu, 'Lift' của một luật kết hợp (association rule) dùng để đo lường điều gì?

A. Tỷ lệ giao dịch chỉ chứa X.
B. Tỷ lệ giao dịch chứa Y, với điều kiện đã chứa X, so với tỷ lệ giao dịch chứa Y nói chung.
C. Xác suất xảy ra X và Y cùng lúc.
D. Độ mạnh của mối quan hệ giữa X và Y.

Câu 22

Trong học máy, 'overfitting' (quá khớp) xảy ra khi mô hình:

A. Hoạt động kém trên cả tập huấn luyện và tập kiểm tra.
B. Hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra.
C. Hoạt động tốt trên tập kiểm tra nhưng kém trên tập huấn luyện.
D. Hoạt động tốt trên cả tập huấn luyện và tập kiểm tra.

Câu 23

Mục tiêu của 'Data Generalization' (tổng quát hóa dữ liệu) trong khai phá dữ liệu là gì?

A. Làm cho dữ liệu trở nên chi tiết hơn.
B. Trừu tượng hóa dữ liệu từ các dạng chi tiết lên các dạng tổng quát hơn.
C. Loại bỏ các thuộc tính không liên quan.
D. Phát hiện các mối quan hệ giữa các thuộc tính.

Câu 24

Kỹ thuật 'Data Aggregation' (tổng hợp dữ liệu) trong khai phá dữ liệu liên quan đến việc:

A. Chia nhỏ dữ liệu thành các phần nhỏ hơn.
B. Tóm tắt dữ liệu bằng cách tính toán các thống kê tổng hợp (ví dụ: tổng, trung bình) trên các nhóm dữ liệu.
C. Loại bỏ các thuộc tính không cần thiết.
D. Chuyển đổi dữ liệu sang định dạng khác.

Câu 25

Kỹ thuật 'Data Visualization' (trực quan hóa dữ liệu) giúp ích gì cho quá trình khai phá dữ liệu?

A. Tăng tốc độ tính toán của các thuật toán.
B. Giúp con người hiểu và khám phá các mẫu hình, xu hướng và ngoại lệ trong dữ liệu một cách trực quan.
C. Thay thế hoàn toàn các thuật toán khai phá dữ liệu.
D. Tự động làm sạch tất cả các giá trị thiếu.

Câu 26

Trong khai phá dữ liệu, 'bias' (thiên vị) trong một mô hình thường đề cập đến:

A. Sai số hệ thống do giả định sai trong mô hình.
B. Sự thay đổi trong dự đoán của mô hình khi dữ liệu huấn luyện thay đổi nhỏ.
C. Độ phức tạp của mô hình.
D. Khả năng tổng quát hóa của mô hình trên dữ liệu mới.

Câu 27

Kỹ thuật 'Data Transformation' nào sau đây thường được sử dụng để đưa các giá trị của một thuộc tính về khoảng [0, 1]?

A. Z-score standardization.
B. Min-Max normalization.
C. Logarithmic transformation.
D. Box-Cox transformation.

Câu 28

Trong khai phá dữ liệu, 'Support' của một tập mục (itemset) 'X' được định nghĩa là:

A. Tỷ lệ giao dịch chứa cả X và một tập mục Y nào đó.
B. Tỷ lệ giao dịch chứa X, tính trên tổng số giao dịch.
C. Tỷ lệ giao dịch chỉ chứa X, tính trên tổng số giao dịch.
D. Xác suất để một giao dịch bất kỳ chứa X.

Câu 29

Trong các thuật toán phân loại, 'Accuracy' (độ chính xác) được tính như thế nào?

A. (Số lượng dự đoán đúng) / (Tổng số dự đoán).
B. (Số lượng dự đoán đúng) / (Tổng số dự đoán sai).
C. (Số lượng dự đoán sai) / (Tổng số dự đoán).
D. (Số lượng dự đoán đúng) / (Số lượng dự đoán đúng + Số lượng dự đoán sai).

Câu 30

Mục tiêu của kỹ thuật 'feature selection' (lựa chọn đặc trưng) là gì?

A. Tạo ra các đặc trưng mới từ các đặc trưng gốc.
B. Loại bỏ các đặc trưng không quan trọng hoặc dư thừa để cải thiện hiệu suất mô hình.
C. Tăng số lượng đặc trưng trong tập dữ liệu.
D. Tập trung vào việc làm sạch dữ liệu.

Câu 31

Trong các thuật toán cây quyết định, tiêu chí phân chia nào sau đây thường được sử dụng để lựa chọn thuộc tính tốt nhất cho mỗi nút?

A. Độ đo chi phí (Cost Measure).
B. Độ đo Entropy hoặc Gain Information (Thông tin thu được).
C. Độ đo Tương quan (Correlation Measure).
D. Độ đo Tỷ lệ lỗi (Error Rate Measure).

Câu 32

Thuật toán nào sau đây là một thuật toán học không giám sát (unsupervised learning)?

A. Hồi quy tuyến tính (Linear Regression).
B. Máy vector hỗ trợ (Support Vector Machine - SVM).
C. K-Means.
D. Cây quyết định (Decision Tree).

Câu 33

Trong khai phá dữ liệu, thuật ngữ nào sau đây dùng để chỉ quá trình khám phá các mẫu hình ẩn, có ý nghĩa và tiềm năng trong tập dữ liệu lớn?

A. Phân tích dữ liệu (Data Analysis)
B. Trực quan hóa dữ liệu (Data Visualization)
C. Khai phá dữ liệu (Data Mining)
D. Quản lý dữ liệu (Data Management)

Câu 34

Thuật toán nào sau đây thường được sử dụng cho bài toán phân loại và có thể xử lý tốt dữ liệu phi tuyến tính?

A. Hồi quy tuyến tính (Linear Regression).
B. K-Means.
C. Máy vector hỗ trợ (Support Vector Machine - SVM) với kernel.
D. Phân tích thành phần chính (PCA).

Câu 35

Trong khai phá dữ liệu, 'Data Warehousing' (kho dữ liệu) đóng vai trò gì?

A. Trực tiếp thực hiện các thuật toán khai phá.
B. Là nguồn dữ liệu tập trung, tích hợp và đã được xử lý, sẵn sàng cho các hoạt động phân tích và khai phá.
C. Chỉ lưu trữ dữ liệu thô.
D. Tự động hóa toàn bộ quy trình khai phá dữ liệu.

Câu 36

Trong khai phá dữ liệu, thuật toán Naive Bayes dựa trên nguyên lý nào?

A. Nguyên lý của cây quyết định.
B. Định lý Bayes và giả định về tính độc lập có điều kiện của các đặc trưng.
C. Nguyên lý của các cụm gần nhất.
D. Nguyên lý của luật kết hợp.

Câu 37

Kỹ thuật nào thường được sử dụng để giảm số chiều của dữ liệu bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc, đồng thời giữ lại phần lớn phương sai?

A. Phân tích cụm (Cluster Analysis)
B. Phân tích thành phần chính (Principal Component Analysis - PCA)
C. Hồi quy logistic (Logistic Regression)
D. Cây quyết định (Decision Tree)

Câu 38

Kỹ thuật 'Discretization' (rời rạc hóa) trong khai phá dữ liệu là gì?

A. Chia dữ liệu thành các nhóm nhỏ hơn.
B. Chuyển đổi các biến liên tục thành các biến phân loại (categorical).
C. Loại bỏ các giá trị ngoại lệ.
D. Gộp các biến phân loại thành một biến duy nhất.

Câu 39

Kỹ thuật 'Feature Engineering' (kỹ thuật đặc trưng) là gì?

A. Quá trình loại bỏ các đặc trưng không cần thiết.
B. Quá trình tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất của mô hình.
C. Quá trình chuẩn hóa tất cả các đặc trưng về một phạm vi.
D. Quá trình phân loại dữ liệu thành các nhóm.

Câu 40

Kỹ thuật nào thường được dùng để phát hiện các điểm bất thường (anomalies) trong dữ liệu chuỗi thời gian?

A. Phân tích luật kết hợp.
B. Phân tích cụm.
C. Phân tích độ lệch (Deviation Analysis).
D. Cây quyết định.

Or check our Popular Categories...

Or check our Popular Categories...