1. Thuật toán ‘K-Means’ là một thuật toán phân cụm thuộc loại nào?
A. Phân cụm dựa trên mật độ (Density-based clustering).
B. Phân cụm dựa trên mô hình (Model-based clustering).
C. Phân cụm dựa trên phân hoạch (Partition-based clustering).
D. Phân cụm dựa trên phân cấp (Hierarchical clustering).
2. Trong thuật toán Apriori, ‘Minimum Support’ (hỗ trợ tối thiểu) được sử dụng để:
A. Xác định độ tin cậy của luật kết hợp.
B. Giới hạn số lượng tập mục được tạo ra, chỉ giữ lại các tập mục xuất hiện đủ thường xuyên.
C. Đo lường sự thú vị của một luật kết hợp.
D. Kiểm soát số lượng các cụm trong phân tích cụm.
3. Trong khai phá dữ liệu, các thuật toán phân cụm dựa trên mật độ (density-based clustering) như DBSCAN có ưu điểm gì?
A. Nhạy cảm với các giá trị ngoại lệ và có thể tạo ra các cụm có hình dạng bất kỳ.
B. Yêu cầu số lượng cụm phải được xác định trước.
C. Chỉ hiệu quả với các cụm có hình dạng hình cầu.
D. Dễ bị ảnh hưởng bởi việc lựa chọn K trong thuật toán K-Means.
4. Mục tiêu của ‘Data Reduction’ (giảm thiểu dữ liệu) là gì?
A. Tăng kích thước tập dữ liệu để có nhiều thông tin hơn.
B. Giảm kích thước tập dữ liệu để tăng tốc độ xử lý và lưu trữ, đồng thời vẫn giữ được các mẫu hình quan trọng.
C. Loại bỏ hoàn toàn các giá trị ngoại lệ.
D. Tập trung vào việc trực quan hóa dữ liệu.
5. Mục tiêu của ‘Data Discretization’ (rời rạc hóa dữ liệu) là gì?
A. Tăng độ chính xác của các giá trị số.
B. Chuyển đổi các biến liên tục thành các biến phân loại để phù hợp với một số thuật toán khai phá dữ liệu.
C. Giảm thiểu số lượng thuộc tính.
D. Loại bỏ các mối quan hệ phi tuyến tính.
6. Mục đích của ‘Data Integration’ (tích hợp dữ liệu) trong quy trình khai phá dữ liệu là gì?
A. Giảm kích thước của tập dữ liệu.
B. Phát hiện các mẫu hình ẩn.
C. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một nguồn thống nhất.
D. Đánh giá hiệu suất của mô hình.
7. Thuật toán Apriori được sử dụng chủ yếu cho loại bài toán nào trong khai phá dữ liệu?
A. Phân tích cụm.
B. Phân loại.
C. Phát hiện luật kết hợp (Association Rule Mining).
D. Giảm chiều dữ liệu.
8. Quá trình tiền xử lý dữ liệu nào sau đây giúp xử lý các giá trị bị thiếu (missing values) trong tập dữ liệu?
A. Làm sạch dữ liệu (Data Cleaning).
B. Tích hợp dữ liệu (Data Integration).
C. Chuyển đổi dữ liệu (Data Transformation).
D. Giảm chiều dữ liệu (Data Reduction).
9. Mục tiêu chính của phân tích cụm (Cluster Analysis) trong khai phá dữ liệu là gì?
A. Dự đoán giá trị liên tục của biến mục tiêu.
B. Phân loại dữ liệu vào các nhóm đã biết trước.
C. Tìm kiếm các mối quan hệ giữa các biến.
D. Nhóm các đối tượng tương tự nhau thành các cụm mà không có nhãn trước.
10. Trong khai phá dữ liệu, ‘Association Rule Mining’ (khai phá luật kết hợp) thường được ứng dụng trong kịch bản nào sau đây?
A. Dự đoán giá nhà.
B. Phân tích hành vi mua sắm của khách hàng (ví dụ: ‘market basket analysis’).
C. Phân loại email spam.
D. Nhóm các khách hàng có hành vi tương tự.
11. Kỹ thuật ‘Data Transformation’ (chuyển đổi dữ liệu) có thể bao gồm những hoạt động nào?
A. Xóa bỏ các bản ghi trùng lặp.
B. Chuẩn hóa (Normalization) và làm mịn (Smoothing) dữ liệu.
C. Gộp nhiều tập dữ liệu lại.
D. Phát hiện các giá trị ngoại lệ.
12. Trong khai phá dữ liệu, ‘Pattern Evaluation’ (đánh giá mẫu hình) là bước dùng để:
A. Tìm kiếm các mẫu hình tiềm năng.
B. Lọc ra các mẫu hình thú vị hoặc có ý nghĩa từ các mẫu hình được phát hiện.
C. Tiền xử lý dữ liệu.
D. Xây dựng mô hình dự đoán.
13. Trong khai phá dữ liệu, ‘Outlier’ (ngoại lệ) là gì?
A. Điểm dữ liệu có giá trị trung bình cao.
B. Điểm dữ liệu có giá trị gần với các điểm dữ liệu khác.
C. Điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Điểm dữ liệu bị thiếu.
14. Độ đo nào sau đây được sử dụng để đánh giá chất lượng của một luật kết hợp (association rule) như ‘X -> Y’?
A. Độ chính xác (Accuracy).
B. Độ tin cậy (Confidence).
C. Độ lỗi trung bình bình phương (Mean Squared Error).
D. Tỷ lệ phát hiện sai (False Positive Rate).
15. Kỹ thuật ‘Data Normalization’ (chuẩn hóa dữ liệu) có mục đích chính là gì?
A. Tăng số lượng thuộc tính.
B. Đưa các thuộc tính về cùng một thang đo hoặc phạm vi giá trị, tránh việc thuộc tính có thang đo lớn hơn áp đảo thuộc tính có thang đo nhỏ hơn.
C. Phát hiện các mối quan hệ nhân quả.
D. Loại bỏ các giá trị trùng lặp.
16. Kỹ thuật ‘Data Smoothing’ (làm mịn dữ liệu) thường được sử dụng để:
A. Tăng cường sự khác biệt giữa các điểm dữ liệu.
B. Giảm thiểu tác động của nhiễu hoặc sự biến động ngẫu nhiên trong dữ liệu.
C. Phát hiện các mối quan hệ tuyến tính.
D. Tạo ra các nhóm dữ liệu mới.
17. Mục tiêu của ‘Data Sampling’ (lấy mẫu dữ liệu) là gì?
A. Tăng cường độ chi tiết của dữ liệu.
B. Tạo ra một tập con dữ liệu nhỏ hơn, đại diện cho tập dữ liệu gốc, để giảm thời gian xử lý.
C. Loại bỏ tất cả các giá trị ngoại lệ.
D. Phát hiện các quy luật ẩn.
18. Trong khai phá dữ liệu, một ‘transaction’ (giao dịch) thường đề cập đến:
A. Một điểm dữ liệu đơn lẻ.
B. Một tập hợp các mục hoặc sự kiện xảy ra đồng thời hoặc trong một khoảng thời gian nhất định.
C. Một thuộc tính của tập dữ liệu.
D. Một kết quả dự đoán của mô hình.
19. Trong các thuật toán phân loại, thuật toán K-Nearest Neighbors (KNN) phân loại một điểm dữ liệu mới dựa trên:
A. Trung bình cộng của các điểm dữ liệu trong tập huấn luyện.
B. Số lượng các điểm dữ liệu gần nhất trong tập huấn luyện có cùng nhãn.
C. Phần lớn nhãn của các điểm dữ liệu gần nhất trong tập huấn luyện.
D. Khoảng cách từ điểm dữ liệu mới đến điểm dữ liệu gần nhất trong tập huấn luyện.
20. Trong mô hình cây quyết định, nút lá (leaf node) đại diện cho điều gì?
A. Một thuộc tính để phân chia dữ liệu.
B. Một quy tắc phân loại hoặc dự đoán cuối cùng.
C. Một điều kiện để rẽ nhánh.
D. Một tập hợp con của dữ liệu.
21. Trong khai phá dữ liệu, ‘Lift’ của một luật kết hợp (association rule) dùng để đo lường điều gì?
A. Tỷ lệ giao dịch chỉ chứa X.
B. Tỷ lệ giao dịch chứa Y, với điều kiện đã chứa X, so với tỷ lệ giao dịch chứa Y nói chung.
C. Xác suất xảy ra X và Y cùng lúc.
D. Độ mạnh của mối quan hệ giữa X và Y.
22. Trong học máy, ‘overfitting’ (quá khớp) xảy ra khi mô hình:
A. Hoạt động kém trên cả tập huấn luyện và tập kiểm tra.
B. Hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra.
C. Hoạt động tốt trên tập kiểm tra nhưng kém trên tập huấn luyện.
D. Hoạt động tốt trên cả tập huấn luyện và tập kiểm tra.
23. Mục tiêu của ‘Data Generalization’ (tổng quát hóa dữ liệu) trong khai phá dữ liệu là gì?
A. Làm cho dữ liệu trở nên chi tiết hơn.
B. Trừu tượng hóa dữ liệu từ các dạng chi tiết lên các dạng tổng quát hơn.
C. Loại bỏ các thuộc tính không liên quan.
D. Phát hiện các mối quan hệ giữa các thuộc tính.
24. Kỹ thuật ‘Data Aggregation’ (tổng hợp dữ liệu) trong khai phá dữ liệu liên quan đến việc:
A. Chia nhỏ dữ liệu thành các phần nhỏ hơn.
B. Tóm tắt dữ liệu bằng cách tính toán các thống kê tổng hợp (ví dụ: tổng, trung bình) trên các nhóm dữ liệu.
C. Loại bỏ các thuộc tính không cần thiết.
D. Chuyển đổi dữ liệu sang định dạng khác.
25. Kỹ thuật ‘Data Visualization’ (trực quan hóa dữ liệu) giúp ích gì cho quá trình khai phá dữ liệu?
A. Tăng tốc độ tính toán của các thuật toán.
B. Giúp con người hiểu và khám phá các mẫu hình, xu hướng và ngoại lệ trong dữ liệu một cách trực quan.
C. Thay thế hoàn toàn các thuật toán khai phá dữ liệu.
D. Tự động làm sạch tất cả các giá trị thiếu.
26. Trong khai phá dữ liệu, ‘bias’ (thiên vị) trong một mô hình thường đề cập đến:
A. Sai số hệ thống do giả định sai trong mô hình.
B. Sự thay đổi trong dự đoán của mô hình khi dữ liệu huấn luyện thay đổi nhỏ.
C. Độ phức tạp của mô hình.
D. Khả năng tổng quát hóa của mô hình trên dữ liệu mới.
27. Kỹ thuật ‘Data Transformation’ nào sau đây thường được sử dụng để đưa các giá trị của một thuộc tính về khoảng [0, 1]?
A. Z-score standardization.
B. Min-Max normalization.
C. Logarithmic transformation.
D. Box-Cox transformation.
28. Trong khai phá dữ liệu, ‘Support’ của một tập mục (itemset) ‘X’ được định nghĩa là:
A. Tỷ lệ giao dịch chứa cả X và một tập mục Y nào đó.
B. Tỷ lệ giao dịch chứa X, tính trên tổng số giao dịch.
C. Tỷ lệ giao dịch chỉ chứa X, tính trên tổng số giao dịch.
D. Xác suất để một giao dịch bất kỳ chứa X.
29. Trong các thuật toán phân loại, ‘Accuracy’ (độ chính xác) được tính như thế nào?
A. (Số lượng dự đoán đúng) / (Tổng số dự đoán).
B. (Số lượng dự đoán đúng) / (Tổng số dự đoán sai).
C. (Số lượng dự đoán sai) / (Tổng số dự đoán).
D. (Số lượng dự đoán đúng) / (Số lượng dự đoán đúng + Số lượng dự đoán sai).
30. Mục tiêu của kỹ thuật ‘feature selection’ (lựa chọn đặc trưng) là gì?
A. Tạo ra các đặc trưng mới từ các đặc trưng gốc.
B. Loại bỏ các đặc trưng không quan trọng hoặc dư thừa để cải thiện hiệu suất mô hình.
C. Tăng số lượng đặc trưng trong tập dữ liệu.
D. Tập trung vào việc làm sạch dữ liệu.
31. Trong các thuật toán cây quyết định, tiêu chí phân chia nào sau đây thường được sử dụng để lựa chọn thuộc tính tốt nhất cho mỗi nút?
A. Độ đo chi phí (Cost Measure).
B. Độ đo Entropy hoặc Gain Information (Thông tin thu được).
C. Độ đo Tương quan (Correlation Measure).
D. Độ đo Tỷ lệ lỗi (Error Rate Measure).
32. Thuật toán nào sau đây là một thuật toán học không giám sát (unsupervised learning)?
A. Hồi quy tuyến tính (Linear Regression).
B. Máy vector hỗ trợ (Support Vector Machine – SVM).
C. K-Means.
D. Cây quyết định (Decision Tree).
33. Trong khai phá dữ liệu, thuật ngữ nào sau đây dùng để chỉ quá trình khám phá các mẫu hình ẩn, có ý nghĩa và tiềm năng trong tập dữ liệu lớn?
A. Phân tích dữ liệu (Data Analysis)
B. Trực quan hóa dữ liệu (Data Visualization)
C. Khai phá dữ liệu (Data Mining)
D. Quản lý dữ liệu (Data Management)
34. Thuật toán nào sau đây thường được sử dụng cho bài toán phân loại và có thể xử lý tốt dữ liệu phi tuyến tính?
A. Hồi quy tuyến tính (Linear Regression).
B. K-Means.
C. Máy vector hỗ trợ (Support Vector Machine – SVM) với kernel.
D. Phân tích thành phần chính (PCA).
35. Trong khai phá dữ liệu, ‘Data Warehousing’ (kho dữ liệu) đóng vai trò gì?
A. Trực tiếp thực hiện các thuật toán khai phá.
B. Là nguồn dữ liệu tập trung, tích hợp và đã được xử lý, sẵn sàng cho các hoạt động phân tích và khai phá.
C. Chỉ lưu trữ dữ liệu thô.
D. Tự động hóa toàn bộ quy trình khai phá dữ liệu.
36. Trong khai phá dữ liệu, thuật toán Naive Bayes dựa trên nguyên lý nào?
A. Nguyên lý của cây quyết định.
B. Định lý Bayes và giả định về tính độc lập có điều kiện của các đặc trưng.
C. Nguyên lý của các cụm gần nhất.
D. Nguyên lý của luật kết hợp.
37. Kỹ thuật nào thường được sử dụng để giảm số chiều của dữ liệu bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc, đồng thời giữ lại phần lớn phương sai?
A. Phân tích cụm (Cluster Analysis)
B. Phân tích thành phần chính (Principal Component Analysis – PCA)
C. Hồi quy logistic (Logistic Regression)
D. Cây quyết định (Decision Tree)
38. Kỹ thuật ‘Discretization’ (rời rạc hóa) trong khai phá dữ liệu là gì?
A. Chia dữ liệu thành các nhóm nhỏ hơn.
B. Chuyển đổi các biến liên tục thành các biến phân loại (categorical).
C. Loại bỏ các giá trị ngoại lệ.
D. Gộp các biến phân loại thành một biến duy nhất.
39. Kỹ thuật ‘Feature Engineering’ (kỹ thuật đặc trưng) là gì?
A. Quá trình loại bỏ các đặc trưng không cần thiết.
B. Quá trình tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất của mô hình.
C. Quá trình chuẩn hóa tất cả các đặc trưng về một phạm vi.
D. Quá trình phân loại dữ liệu thành các nhóm.
40. Kỹ thuật nào thường được dùng để phát hiện các điểm bất thường (anomalies) trong dữ liệu chuỗi thời gian?
A. Phân tích luật kết hợp.
B. Phân tích cụm.
C. Phân tích độ lệch (Deviation Analysis).
D. Cây quyết định.
41. Mục tiêu chính của bước ‘Model Evaluation’ (Đánh giá mô hình) là gì?
A. Chuẩn bị dữ liệu cho mô hình
B. Đo lường hiệu suất và chất lượng của mô hình đã xây dựng
C. Tìm kiếm các mẫu dữ liệu mới
D. Chuyển đổi dữ liệu sang định dạng khác
42. Mục tiêu của kỹ thuật ‘Outlier Detection’ (Phát hiện ngoại lệ) là gì?
A. Tìm kiếm các mẫu lặp lại trong dữ liệu
B. Nhóm các điểm dữ liệu tương tự nhau
C. Xác định các điểm dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu
D. Dự đoán giá trị của biến mục tiêu
43. Trong khai phá dữ liệu, ‘Cross-validation’ (Kiểm định chéo) là một kỹ thuật được sử dụng để làm gì?
A. Làm sạch dữ liệu
B. Tăng tốc độ huấn luyện mô hình
C. Đánh giá hiệu suất của mô hình một cách đáng tin cậy hơn và phát hiện overfitting
D. Giảm số lượng thuộc tính
44. Mục tiêu chính của kỹ thuật ‘Association Rule Mining’ (Khai phá luật kết hợp) là gì?
A. Dự đoán giá trị của một biến liên tục
B. Phân loại dữ liệu vào các nhóm đã định trước
C. Khám phá các mối quan hệ hoặc mẫu ‘nếu-thì’ có ý nghĩa trong dữ liệu
D. Giảm số chiều của tập dữ liệu
45. Trong khai phá dữ liệu, ‘Ensemble Methods’ (Phương pháp tổ hợp) là gì?
A. Một kỹ thuật để làm sạch dữ liệu
B. Kết hợp nhiều mô hình học máy yếu hoặc trung bình để tạo ra một mô hình mạnh hơn
C. Một thuật toán phân cụm mới
D. Kỹ thuật để giảm thiểu dữ liệu
46. Mục tiêu của việc ‘Data Discretization’ (Rời rạc hóa dữ liệu) là gì?
A. Giảm số lượng thuộc tính
B. Chuyển đổi các thuộc tính liên tục thành các thuộc tính rời rạc hoặc khoảng
C. Loại bỏ các giá trị ngoại lai
D. Tăng độ chính xác của dữ liệu
47. Thuật toán nào sau đây là một ví dụ về kỹ thuật phân cụm (clustering)?
A. Hồi quy tuyến tính
B. Naive Bayes
C. K-Means
D. Cây quyết định
48. Thuật toán nào sau đây là một ví dụ điển hình cho kỹ thuật phân loại (classification)?
A. K-Means
B. PCA
C. Cây quyết định (Decision Tree)
D. Học liên kết (Association Learning)
49. Thuật toán ‘Apriori’ được sử dụng phổ biến cho loại hình khai phá dữ liệu nào?
A. Phân loại
B. Phân cụm
C. Khai phá luật kết hợp (Association Rule Mining)
D. Phát hiện ngoại lệ
50. Trong khai phá dữ liệu, ‘Feature Engineering’ (Kỹ thuật đặc trưng) là quá trình gì?
A. Xóa bỏ các đặc trưng không liên quan
B. Áp dụng các thuật toán khai phá lên dữ liệu thô
C. Tạo ra các đặc trưng mới từ dữ liệu gốc để cải thiện hiệu suất mô hình
D. Đánh giá độ quan trọng của từng đặc trưng
51. Khi xây dựng mô hình dự đoán, ‘Bias’ (Độ chệch) đề cập đến sai số do đâu?
A. Sự phức tạp của mô hình, khiến nó không thể nắm bắt được mối quan hệ thực sự trong dữ liệu
B. Sự nhạy cảm của mô hình với các thay đổi nhỏ trong dữ liệu huấn luyện
C. Sai số do dữ liệu huấn luyện có quá nhiều nhiễu
D. Sai số do việc lựa chọn sai tập dữ liệu kiểm tra
52. Trong khai phá dữ liệu, ‘Data Warehousing’ (Kho dữ liệu) có vai trò gì?
A. Chỉ lưu trữ dữ liệu thô chưa qua xử lý
B. Cung cấp một nguồn dữ liệu tập trung, tích hợp và có cấu trúc để hỗ trợ phân tích và khai phá
C. Thực hiện các thuật toán khai phá dữ liệu trực tiếp
D. Chỉ lưu trữ dữ liệu giao dịch
53. Trong khai phá dữ liệu, khái niệm ‘Lift’ (Độ nâng) của một luật kết hợp ‘X => Y’ đo lường điều gì?
A. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch
B. Tỷ lệ các giao dịch chứa X trên tổng số giao dịch
C. So sánh xác suất Y xảy ra khi X xảy ra so với xác suất Y xảy ra nói chung
D. Độ tin cậy của luật
54. Trong khai phá dữ liệu, ‘Feature Selection’ (Lựa chọn đặc trưng) khác với ‘Feature Extraction’ (Trích xuất đặc trưng) ở chỗ nào?
A. Feature Selection tạo đặc trưng mới, Feature Extraction giữ nguyên đặc trưng gốc
B. Feature Selection chọn tập con các đặc trưng gốc, Feature Extraction tạo đặc trưng mới từ tập hợp các đặc trưng gốc
C. Feature Selection chỉ áp dụng cho dữ liệu số, Feature Extraction cho dữ liệu văn bản
D. Không có sự khác biệt, chúng là hai thuật ngữ đồng nghĩa
55. Thuật toán K-Means thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Học giám sát (Supervised Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học tăng cường (Reinforcement Learning)
D. Học bán giám sát (Semi-supervised Learning)
56. Thuật toán ‘Random Forest’ là một ví dụ của kỹ thuật nào?
A. Phân cụm
B. Học luật kết hợp
C. Phương pháp tổ hợp (Ensemble Method)
D. Phát hiện ngoại lệ
57. Trong quy trình khai phá dữ liệu, bước nào thường được thực hiện đầu tiên để hiểu rõ về dữ liệu và xác định mục tiêu của dự án?
A. Tiền xử lý dữ liệu
B. Trực quan hóa dữ liệu
C. Hiểu biết về dữ liệu và kinh doanh
D. Đánh giá mô hình
58. Kỹ thuật ‘Data Visualization’ (Trực quan hóa dữ liệu) đóng vai trò gì quan trọng nhất trong khai phá dữ liệu?
A. Chỉ dùng để trình bày kết quả cuối cùng
B. Giúp hiểu sâu hơn về dữ liệu, khám phá mẫu và truyền đạt kết quả
C. Thay thế hoàn toàn cho các thuật toán khai phá dữ liệu
D. Chỉ áp dụng cho các tập dữ liệu có kích thước nhỏ
59. Thuật toán nào sau đây thường được sử dụng để thực hiện phân tích hồi quy?
A. K-Means
B. Hồi quy tuyến tính (Linear Regression)
C. PCA
D. Apriori
60. Mục đích của ‘Data Normalization’ (Chuẩn hóa dữ liệu) trong khai phá dữ liệu là gì?
A. Tăng số lượng thuộc tính
B. Đưa các thuộc tính về cùng một thang đo hoặc phạm vi giá trị
C. Phát hiện các mẫu lặp lại
D. Loại bỏ các giá trị trùng lặp
61. Độ đo ‘Confidence’ (Độ tin cậy) của một luật kết hợp ‘X => Y’ cho biết điều gì?
A. Tỷ lệ các giao dịch chứa cả X và Y trên tổng số giao dịch
B. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch
C. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch có chứa X
D. Tỷ lệ các giao dịch chứa X trên tổng số giao dịch có chứa Y
62. Mục đích của ‘Data Transformation’ (Chuyển đổi dữ liệu) bao gồm việc áp dụng các phép biến đổi để làm cho mô hình hoạt động tốt hơn, ví dụ như:
A. Xóa bỏ các dòng dữ liệu không phù hợp
B. Áp dụng hàm logarit cho các biến có phân phối lệch
C. Phát hiện các mẫu bất thường
D. Phân loại dữ liệu
63. Thuật toán Naive Bayes thuộc nhóm thuật toán nào trong khai phá dữ liệu?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Khám phá luật kết hợp (Association Rule Mining)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
64. Trong khai phá dữ liệu, ‘Data Mining Process’ (Quy trình khai phá dữ liệu) thường bao gồm các giai đoạn chính nào?
A. Thu thập dữ liệu, làm sạch dữ liệu, khai phá dữ liệu, đánh giá mô hình
B. Hiểu biết kinh doanh, hiểu biết dữ liệu, tiền xử lý, mô hình hóa, đánh giá, triển khai
C. Trực quan hóa, phân tích, báo cáo
D. Thiết kế thuật toán, huấn luyện mô hình, kiểm tra mô hình
65. Mục đích của ‘Data Reduction’ (Giảm thiểu dữ liệu) trong khai phá dữ liệu là gì?
A. Tăng kích thước tập dữ liệu để có nhiều thông tin hơn
B. Giúp cho việc khai phá dữ liệu hiệu quả hơn về mặt tính toán và lưu trữ
C. Loại bỏ hoàn toàn các giá trị ngoại lai
D. Chỉ áp dụng cho dữ liệu văn bản
66. Kỹ thuật nào sau đây được sử dụng để giảm số chiều của tập dữ liệu bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc, đồng thời giữ lại phần lớn phương sai?
A. Phân tích tương quan
B. Phân tích cụm
C. Phân tích thành phần chính (PCA)
D. Hồi quy tuyến tính
67. Kỹ thuật ‘Dimensionality Reduction’ (Giảm chiều dữ liệu) được sử dụng để làm gì?
A. Tăng số lượng thuộc tính để có nhiều thông tin hơn
B. Giảm số lượng thuộc tính để tránh ‘lời nguyền chiều dữ liệu’ (curse of dimensionality) và cải thiện hiệu quả tính toán
C. Loại bỏ hoàn toàn các giá trị ngoại lai
D. Tăng cường khả năng diễn giải của mô hình
68. Trong các kỹ thuật tiền xử lý dữ liệu, ‘Data Transformation’ (Chuyển đổi dữ liệu) có thể bao gồm hành động nào sau đây?
A. Xóa bỏ các giá trị ngoại lai
B. Chuẩn hóa (Normalization) hoặc co giãn (Scaling) dữ liệu
C. Điền giá trị thiếu
D. Phát hiện các mẫu trùng lặp
69. Mục đích của việc sử dụng tập dữ liệu kiểm tra (Test Set) trong quá trình xây dựng mô hình khai phá dữ liệu là gì?
A. Để huấn luyện mô hình với nhiều dữ liệu hơn
B. Để đánh giá hiệu suất thực tế của mô hình trên dữ liệu chưa từng thấy
C. Để tinh chỉnh các tham số của mô hình trong quá trình huấn luyện
D. Để phát hiện các giá trị ngoại lai
70. Khi gặp phải các giá trị bị thiếu (missing values) trong tập dữ liệu, phương pháp nào sau đây là một cách tiếp cận hợp lý để xử lý mà không làm mất đi nhiều thông tin?
A. Xóa bỏ hoàn toàn các hàng chứa giá trị thiếu
B. Thay thế giá trị thiếu bằng một giá trị ngẫu nhiên
C. Điền giá trị thiếu bằng giá trị trung bình hoặc trung vị của cột
D. Bỏ qua tất cả các cột có chứa giá trị thiếu
71. Mục tiêu của kỹ thuật ‘Data Integration’ (Tích hợp dữ liệu) trong khai phá dữ liệu là gì?
A. Xóa bỏ các giá trị ngoại lai
B. Giảm số chiều dữ liệu
C. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một nguồn dữ liệu thống nhất
D. Rời rạc hóa dữ liệu
72. Thuật toán ‘Decision Tree’ có nhược điểm nào sau đây?
A. Khó diễn giải
B. Dễ bị quá khớp (overfitting) với dữ liệu huấn luyện
C. Không xử lý được dữ liệu phân loại
D. Yêu cầu dữ liệu phải được chuẩn hóa
73. Trong khai phá dữ liệu, ‘Data Mining’ (Khai phá dữ liệu) khác với ‘Information Retrieval’ (Truy vấn thông tin) ở điểm nào?
A. Data Mining tìm kiếm các mẫu ẩn, Information Retrieval tìm kiếm tài liệu cụ thể
B. Information Retrieval là bước đầu tiên của Data Mining
C. Data Mining chỉ áp dụng cho dữ liệu số, Information Retrieval cho văn bản
D. Không có sự khác biệt cơ bản
74. Thuật toán ‘K-Nearest Neighbors’ (KNN) là một thuật toán thuộc loại nào?
A. Phân cụm
B. Học không giám sát
C. Phân loại và hồi quy (dựa trên các láng giềng gần nhất)
D. Khai phá luật kết hợp
75. Trong khai phá dữ liệu, ‘Pattern Evaluation’ (Đánh giá mẫu) là bước dùng để làm gì?
A. Xác định các mẫu dữ liệu bị thiếu
B. Lọc ra các mẫu khai phá được có ý nghĩa, hữu ích và mới lạ
C. Áp dụng các thuật toán khai phá dữ liệu
D. Tiền xử lý dữ liệu
76. Trong khai phá dữ liệu, ‘Overfitting’ (Quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản, không nắm bắt được quy luật của dữ liệu
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình học không đủ trên dữ liệu huấn luyện
D. Dữ liệu huấn luyện có quá nhiều nhiễu
77. Thuật toán Support Vector Machine (SVM) chủ yếu được sử dụng cho bài toán nào?
A. Phân cụm
B. Giảm chiều dữ liệu
C. Phân loại và hồi quy
D. Phát hiện luật kết hợp
78. Kỹ thuật ‘Data Cleaning’ (Làm sạch dữ liệu) bao gồm các hoạt động nào sau đây?
A. Tạo các đặc trưng mới
B. Xử lý các giá trị thiếu, sai lệch, nhiễu và không nhất quán
C. Giảm số chiều dữ liệu
D. Trực quan hóa dữ liệu
79. Thuật toán ‘Principal Component Analysis’ (PCA) thuộc loại kỹ thuật nào?
A. Phân loại
B. Giảm chiều dữ liệu (Dimensionality Reduction)
C. Phân cụm
D. Học luật kết hợp
80. Độ đo ‘Support’ (Độ hỗ trợ) trong khai phá luật kết hợp đo lường điều gì?
A. Tỷ lệ các giao dịch chứa một mục hoặc một tập hợp các mục
B. Độ tin cậy của luật kết hợp
C. Tỷ lệ các giao dịch mà luật kết hợp đúng
D. Độ quan trọng của mục trong tập dữ liệu
81. Trong khai phá dữ liệu, ‘data sampling’ (lấy mẫu dữ liệu) có thể được sử dụng để làm gì?
A. Giảm kích thước tập dữ liệu để tăng tốc độ xử lý và thử nghiệm mô hình.
B. Tăng cường độ chính xác của mô hình.
C. Loại bỏ tất cả các giá trị thiếu.
D. Khám phá các luật kết hợp.
82. Khái niệm ‘data mining process’ (quy trình khai phá dữ liệu) thường tuân theo mô hình nào?
A. CRISP-DM (Cross-Industry Standard Process for Data Mining)
B. ACID (Atomicity, Consistency, Isolation, Durability)
C. SQL (Structured Query Language)
D. ETL (Extract, Transform, Load)
83. Kỹ thuật ‘data transformation’ (chuyển đổi dữ liệu) có thể bao gồm những hành động nào?
A. Chuẩn hóa (Normalization), làm mịn (Smoothing), tổng hợp (Aggregation), và khái quát hóa (Generalization).
B. Xóa bỏ các giá trị ngoại lai.
C. Lựa chọn các thuộc tính quan trọng.
D. Tạo cây quyết định.
84. Trong giai đoạn đánh giá mô hình khai phá dữ liệu, độ đo ‘precision’ (độ chính xác) thường được sử dụng trong trường hợp nào?
A. Khi muốn giảm thiểu các dự đoán sai là dương tính (false positives).
B. Khi muốn giảm thiểu các dự đoán sai là âm tính (false negatives).
C. Khi số lượng các lớp trong dữ liệu là cân bằng.
D. Khi muốn đo lường tỷ lệ các trường hợp đúng trên tổng số trường hợp.
85. Trong các thuật toán phân cụm, thuật toán nào dựa trên mô hình mật độ để xác định các cụm?
A. DBSCAN
B. K-Means
C. Hierarchical Clustering
D. Agglomerative Clustering
86. Trong khai phá dữ liệu, độ đo ‘confidence’ (độ tin cậy) của một luật kết hợp {A} -> {B} được tính như thế nào?
A. Support({A} và {B}) / Support({A})
B. Support({A} và {B}) / Support({B})
C. Support({A} và {B})
D. Support({A}) / Support({B})
87. Kỹ thuật ‘association rule mining’ (khai phá luật kết hợp) chủ yếu được sử dụng để tìm kiếm mối quan hệ nào trong tập dữ liệu?
A. Các mục thường xuyên xuất hiện cùng nhau trong các giao dịch.
B. Các điểm dữ liệu tương tự nhau.
C. Các mẫu chuỗi thời gian.
D. Các giá trị ngoại lai.
88. Kỹ thuật nào được sử dụng để giảm số chiều của tập dữ liệu bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc, đồng thời giữ lại phần lớn phương sai của dữ liệu?
A. Phân tích thành phần chính (Principal Component Analysis – PCA)
B. Phân tích cụm (Cluster Analysis)
C. Hồi quy tuyến tính (Linear Regression)
D. Cây quyết định (Decision Tree)
89. Trong khai phá dữ liệu, độ đo ‘lift’ của một luật kết hợp {A} -> {B} cho biết điều gì?
A. Tỷ lệ xuất hiện đồng thời của A và B so với việc chúng xuất hiện độc lập.
B. Tỷ lệ xuất hiện của B trong các giao dịch có A.
C. Tỷ lệ xuất hiện của A trong tất cả các giao dịch.
D. Mức độ thú vị của luật dựa trên các độ đo khác.
90. Trong thuật toán phân loại Naive Bayes, giả định ‘naive’ (ngây thơ) là gì?
A. Các thuộc tính trong một lớp là độc lập với nhau.
B. Tất cả các thuộc tính đều có giá trị như nhau.
C. Dữ liệu tuân theo phân phối chuẩn.
D. Các lớp trong dữ liệu là độc lập với nhau.
91. Khi một mô hình khai phá dữ liệu có hiệu suất rất tốt trên tập dữ liệu huấn luyện nhưng lại kém trên tập dữ liệu kiểm tra, hiện tượng này được gọi là gì?
A. Overfitting (Quá khớp)
B. Underfitting (Chưa khớp)
C. Bias (Độ chệch)
D. Variance (Phương sai)
92. Thuật toán phân loại nào hoạt động dựa trên việc xây dựng một mô hình hồi quy logistic?
A. Logistic Regression
B. K-Means
C. Decision Tree
D. Support Vector Machine (SVM)
93. Thuật toán phân loại nào dựa trên việc chia tập dữ liệu thành các tập con dựa trên giá trị của các thuộc tính để tạo ra một cấu trúc cây?
A. Cây quyết định (Decision Tree)
B. Máy vector hỗ trợ (Support Vector Machine – SVM)
C. Hồi quy logistic (Logistic Regression)
D. Mạng nơ-ron (Neural Network)
94. Trong khai phá dữ liệu, ‘data cleaning’ (làm sạch dữ liệu) là một phần của giai đoạn nào?
A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Mô hình hóa (Modeling)
C. Đánh giá (Evaluation)
D. Triển khai (Deployment)
95. Kỹ thuật nào được sử dụng để xây dựng mô hình phân lớp dựa trên xác suất có điều kiện của các thuộc tính?
A. Naïve Bayes
B. K-Means
C. Support Vector Machine (SVM)
D. Linear Regression
96. Trong khai phá dữ liệu, ‘feature scaling’ (co giãn đặc trưng) có ý nghĩa gì?
A. Đưa các đặc trưng về cùng một phạm vi giá trị để các thuật toán nhạy cảm với khoảng cách hoạt động tốt hơn.
B. Loại bỏ các đặc trưng không quan trọng.
C. Tạo ra các đặc trưng mới.
D. Phân loại dữ liệu thành các nhóm.
97. Thuật toán phân cụm K-Means yêu cầu người dùng phải xác định trước tham số nào?
A. Số lượng cụm (k)
B. Ngưỡng support
C. Độ sâu tối đa của cây
D. Số vòng lặp tối đa
98. Trong khai phá dữ liệu, ‘dimensionality reduction’ (giảm chiều dữ liệu) nhằm mục đích gì?
A. Giảm số lượng thuộc tính để cải thiện hiệu suất tính toán và tránh ‘curse of dimensionality’.
B. Tăng số lượng thuộc tính để mô hình học tốt hơn.
C. Loại bỏ các giá trị ngoại lệ.
D. Phân loại dữ liệu vào các nhóm.
99. Kỹ thuật nào được sử dụng để phát hiện các mẫu bất thường hoặc ngoại lai trong tập dữ liệu?
A. Phát hiện dị thường (Anomaly Detection)
B. Phân tích nhân tố (Factor Analysis)
C. Phân tích chuỗi thời gian (Time Series Analysis)
D. Phân tích hồi quy đa biến (Multivariate Regression Analysis)
100. Trong quy trình khai phá dữ liệu, giai đoạn nào tập trung vào việc làm sạch dữ liệu, xử lý dữ liệu thiếu và chuyển đổi định dạng dữ liệu để chuẩn bị cho các phân tích tiếp theo?
A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Khám phá dữ liệu (Data Exploration)
C. Mô hình hóa (Modeling)
D. Đánh giá và triển khai (Evaluation and Deployment)
101. Khi áp dụng thuật toán cây quyết định, hiện tượng ‘overfitting’ xảy ra khi nào?
A. Cây quá sâu và phức tạp, học cả nhiễu trong tập huấn luyện.
B. Cây quá nông và đơn giản, không nắm bắt được quy luật.
C. Tập dữ liệu huấn luyện quá nhỏ.
D. Không có đủ các thuộc tính để phân tách.
102. Kỹ thuật ‘feature engineering’ (kỹ thuật đặc trưng) liên quan đến việc gì trong khai phá dữ liệu?
A. Tạo ra các thuộc tính mới từ các thuộc tính gốc hoặc kết hợp các thuộc tính hiện có.
B. Lựa chọn các thuộc tính quan trọng nhất.
C. Xóa bỏ các thuộc tính không cần thiết.
D. Phân tích mối quan hệ giữa các thuộc tính.
103. Thuật toán phân loại nào sử dụng khoảng cách giữa các điểm dữ liệu để phân loại một điểm mới dựa trên đa số các điểm lân cận gần nhất của nó?
A. K-Nearest Neighbors (KNN)
B. Support Vector Machine (SVM)
C. Naïve Bayes
D. Decision Tree
104. Trong khai phá dữ liệu, thuật toán nào được sử dụng để phát hiện các mẫu tuần tự (sequential patterns)?
A. GSP (Generalized Sequential Pattern) hoặc PrefixSpan
B. K-Means
C. Apriori
D. PCA
105. Trong khai phá dữ liệu, ‘data visualization’ được xem là công cụ hữu ích nhất trong giai đoạn nào của quy trình?
A. Khám phá dữ liệu (Data Exploration) và Trình bày kết quả (Presentation of Results).
B. Tiền xử lý dữ liệu (Data Preprocessing).
C. Xây dựng mô hình (Modeling).
D. Đánh giá mô hình (Model Evaluation).
106. Kỹ thuật ‘feature extraction’ (trích xuất đặc trưng) khác với ‘feature selection’ (lựa chọn đặc trưng) ở chỗ nào?
A. Feature extraction tạo ra các đặc trưng mới từ các đặc trưng gốc, còn feature selection chỉ chọn các đặc trưng gốc quan trọng.
B. Feature extraction loại bỏ các đặc trưng không cần thiết, còn feature selection tạo ra đặc trưng mới.
C. Feature extraction chỉ áp dụng cho dữ liệu có cấu trúc, còn feature selection cho dữ liệu phi cấu trúc.
D. Feature extraction làm giảm số chiều, còn feature selection không làm giảm số chiều.
107. Thuật toán phân loại Support Vector Machine (SVM) tìm cách tối ưu hóa điều gì?
A. Tạo ra một siêu phẳng phân tách các lớp với biên độ (margin) lớn nhất.
B. Giảm thiểu sai số phân loại bằng cách sử dụng cây quyết định.
C. Tối đa hóa xác suất có điều kiện của các thuộc tính.
D. Nhóm các điểm dữ liệu tương tự nhau vào các cụm.
108. Trong khai phá dữ liệu, kỹ thuật ‘data mining’ khác với ‘information retrieval’ (truy xuất thông tin) ở điểm nào?
A. Data mining tìm kiếm các mẫu tiềm ẩn và kiến thức mới, còn information retrieval tìm kiếm các tài liệu cụ thể đã biết.
B. Data mining chỉ áp dụng cho dữ liệu có cấu trúc, còn information retrieval áp dụng cho dữ liệu phi cấu trúc.
C. Data mining yêu cầu ít dữ liệu hơn information retrieval.
D. Information retrieval sử dụng các thuật toán phức tạp hơn data mining.
109. Kỹ thuật ‘data reduction’ (giảm dữ liệu) trong khai phá dữ liệu có thể bao gồm những phương pháp nào?
A. Giảm số chiều (dimensionality reduction), giảm số lượng bản ghi (numerosity reduction) và làm mịn (smoothing).
B. Tăng số lượng thuộc tính.
C. Tạo ra các luật kết hợp.
D. Phân tích cụm.
110. Mục tiêu chính của kỹ thuật ‘data visualization’ trong khai phá dữ liệu là gì?
A. Trình bày dữ liệu và kết quả phân tích một cách trực quan, dễ hiểu.
B. Làm sạch và chuẩn hóa dữ liệu.
C. Xây dựng các mô hình dự đoán phức tạp.
D. Tìm kiếm các luật kết hợp ẩn trong dữ liệu.
111. Kỹ thuật ‘data normalization’ (chuẩn hóa dữ liệu) thường được áp dụng để đảm bảo điều gì?
A. Các thuộc tính có thang đo khác nhau được đưa về cùng một thang đo, tránh thuộc tính có giá trị lớn lấn át thuộc tính có giá trị nhỏ.
B. Loại bỏ các thuộc tính không liên quan.
C. Tạo ra các cụm dữ liệu.
D. Xây dựng các luật kết hợp.
112. Trong khai phá dữ liệu, ‘data warehousing’ (kho dữ liệu) là gì?
A. Một hệ thống lưu trữ và quản lý dữ liệu tích hợp từ nhiều nguồn khác nhau, tối ưu cho phân tích và báo cáo.
B. Một thuật toán để phân tích mối quan hệ giữa các mặt hàng.
C. Một kỹ thuật để giảm số chiều của dữ liệu.
D. Quá trình làm sạch và chuẩn bị dữ liệu.
113. Trong mô hình hóa khai phá dữ liệu, ‘ensemble methods’ (phương pháp kết hợp) là gì?
A. Kết hợp nhiều mô hình học máy để tạo ra một mô hình mạnh mẽ hơn, thường có độ chính xác cao hơn.
B. Xây dựng một mô hình duy nhất dựa trên nhiều thuật toán khác nhau.
C. Áp dụng các kỹ thuật giảm chiều dữ liệu.
D. Phân tích mối quan hệ giữa các mục dữ liệu.
114. Thuật toán phân loại nào có thể tạo ra các mô hình dưới dạng một tập hợp các quy tắc ‘IF-THEN’?
A. Rule-based classifiers (e.g., RIPPER, PART)
B. K-Means
C. PCA
D. Naive Bayes
115. Thuật toán K-Means thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Hồi quy (Regression)
D. Luật kết hợp (Association Rule Mining)
116. Kỹ thuật ‘feature selection’ (lựa chọn đặc trưng) nhằm mục đích gì trong khai phá dữ liệu?
A. Chọn ra tập hợp con các thuộc tính quan trọng nhất để xây dựng mô hình.
B. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
C. Loại bỏ các thuộc tính trùng lặp.
D. Tăng số lượng thuộc tính để cải thiện mô hình.
117. Khi xây dựng mô hình phân loại, độ đo ‘recall’ (độ phủ) đo lường điều gì?
A. Tỷ lệ các trường hợp dương tính thực tế đã được mô hình dự đoán đúng là dương tính.
B. Tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính.
C. Tỷ lệ các trường hợp âm tính thực tế đã được mô hình dự đoán đúng là âm tính.
D. Tỷ lệ các trường hợp được dự đoán là âm tính thực sự là âm tính.
118. Thuật toán Apriori được sử dụng chủ yếu cho loại hình khai phá dữ liệu nào?
A. Khai phá luật kết hợp (Association Rule Mining)
B. Phân cụm (Clustering)
C. Phát hiện dị thường (Anomaly Detection)
D. Phân loại (Classification)
119. Trong khai phá dữ liệu, khái niệm ‘support’ của một luật kết hợp (ví dụ: {A} -> {B}) đo lường điều gì?
A. Tỷ lệ phần trăm các giao dịch chứa cả hai tập hợp {A} và {B}.
B. Tỷ lệ phần trăm các giao dịch chứa {B} trong số các giao dịch chứa {A}.
C. Độ tin cậy của việc {B} xuất hiện khi {A} xuất hiện.
D. Độ quan trọng hoặc sự thú vị của luật.
120. Kỹ thuật ‘data discretization’ (rời rạc hóa dữ liệu) thường được áp dụng cho loại thuộc tính nào?
A. Thuộc tính liên tục (Continuous attributes)
B. Thuộc tính phân loại (Categorical attributes)
C. Thuộc tính nhị phân (Binary attributes)
D. Thuộc tính thứ bậc (Ordinal attributes)
121. Kỹ thuật nào giúp xác định mối quan hệ giữa các thuộc tính và nhãn lớp trong dữ liệu, thường được biểu diễn dưới dạng cây quyết định?
A. Thuật toán K-Means
B. Thuật toán Apriori
C. Cây quyết định (Decision Tree)
D. Phân tích thành phần chính (PCA)
122. Trong bài toán phân loại, ‘Recall’ (Độ nhạy) đo lường điều gì?
A. Tỷ lệ các trường hợp dương tính thực tế được mô hình dự đoán đúng là dương tính.
B. Tỷ lệ các trường hợp được mô hình dự đoán là dương tính thực sự là dương tính.
C. Tỷ lệ các trường hợp âm tính thực tế được mô hình dự đoán đúng là âm tính.
D. Tỷ lệ các trường hợp được mô hình dự đoán là âm tính thực sự là âm tính.
123. Kỹ thuật ‘feature scaling’ như chuẩn hóa (normalization) hoặc tiêu chuẩn hóa (standardization) thường được áp dụng để:
A. Tăng số lượng thuộc tính trong tập dữ liệu.
B. Giảm số lượng thuộc tính trong tập dữ liệu.
C. Đưa các thuộc tính về cùng một thang đo, tránh ảnh hưởng của thang đo khác nhau đến mô hình.
D. Loại bỏ các giá trị ngoại lai.
124. Trong khai phá dữ liệu, thuật toán ‘Apriori’ chủ yếu được sử dụng cho nhiệm vụ nào?
A. Phân cụm dữ liệu.
B. Phân loại dữ liệu.
C. Tìm kiếm luật kết hợp.
D. Dự đoán giá trị liên tục.
125. Trong khai phá dữ liệu, giai đoạn ‘Triển khai’ (Deployment) đề cập đến việc gì?
A. Thu thập dữ liệu.
B. Xây dựng mô hình học máy.
C. Đưa mô hình đã được đánh giá vào sử dụng trong môi trường thực tế.
D. Phân tích kết quả của mô hình.
126. Trong bài toán phân loại, ‘False Positive’ (Dương tính giả) xảy ra khi nào?
A. Mô hình dự đoán sai lớp âm tính thành dương tính.
B. Mô hình dự đoán sai lớp dương tính thành âm tính.
C. Mô hình dự đoán đúng lớp dương tính.
D. Mô hình dự đoán đúng lớp âm tính.
127. Kỹ thuật nào được sử dụng để tìm kiếm các mối quan hệ có ý nghĩa giữa các thuộc tính số trong dữ liệu?
A. Phân tích luật kết hợp (Association Rule Mining)
B. Phân tích cụm (Clustering Analysis)
C. Phân tích tương quan (Correlation Analysis)
D. Phân tích hồi quy (Regression Analysis)
128. Giai đoạn nào trong CRISP-DM thực hiện việc kiểm tra xem mô hình có đạt được các mục tiêu kinh doanh đã đề ra hay không?
A. Chuẩn bị dữ liệu
B. Mô hình hóa
C. Đánh giá
D. Triển khai
129. Kỹ thuật nào dùng để giảm số chiều của dữ liệu bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc, đồng thời giữ lại phần lớn phương sai của dữ liệu?
A. Phân tích thành phần chính (PCA)
B. Phân tích tương quan (Correlation Analysis)
C. Phân tích hồi quy (Regression Analysis)
D. Phân tích chuỗi thời gian (Time Series Analysis)
130. Loại dữ liệu nào thường được biểu diễn dưới dạng văn bản, hình ảnh, âm thanh hoặc video, và đòi hỏi các kỹ thuật xử lý đặc biệt?
A. Dữ liệu số
B. Dữ liệu phi cấu trúc
C. Dữ liệu có cấu trúc
D. Dữ liệu bán cấu trúc
131. Kỹ thuật ‘Khai thác luật kết hợp’ (Association Rule Mining) thường được áp dụng trong các bài toán như:
A. Dự đoán giá nhà.
B. Phân loại email spam.
C. Phân tích giỏ hàng (Market Basket Analysis).
D. Phân cụm khách hàng.
132. Trong học máy có giám sát, thuật toán hồi quy (Regression) được sử dụng để:
A. Phân loại dữ liệu vào các danh mục rời rạc.
B. Dự đoán một giá trị số liên tục.
C. Nhóm các điểm dữ liệu tương tự nhau.
D. Tìm các mẫu giao dịch thường xuyên.
133. Trong khai phá dữ liệu, ‘data mining’ là một phần của lĩnh vực rộng lớn hơn nào?
A. Trí tuệ nhân tạo (AI)
B. Khoa học máy tính (Computer Science)
C. Phân tích dữ liệu (Data Analytics)
D. Học máy (Machine Learning)
134. Trong phân tích luật kết hợp, chỉ số nào đo lường tần suất xuất hiện đồng thời của một tập hợp các mục trong một giao dịch?
A. Độ tin cậy (Confidence)
B. Độ hỗ trợ (Support)
C. Độ nâng (Lift)
D. Tỷ lệ tương quan (Correlation Ratio)
135. Trong học máy có giám sát, mục tiêu của thuật toán phân loại là gì?
A. Dự đoán một giá trị liên tục.
B. Phân chia dữ liệu thành các nhóm.
C. Gán nhãn hoặc danh mục cho các điểm dữ liệu.
D. Tìm ra các mối quan hệ ẩn giữa các biến.
136. Đâu là ví dụ về ‘dữ liệu ngoại lai’ (outlier) trong tập dữ liệu về chiều cao của con người trưởng thành?
A. Một người cao 1.75m
B. Một người cao 2.50m
C. Một người cao 1.60m
D. Một người cao 1.80m
137. Kỹ thuật ‘feature selection’ khác với ‘feature extraction’ ở điểm nào?
A. Feature selection tạo ra thuộc tính mới, feature extraction giữ nguyên thuộc tính gốc.
B. Feature selection chọn lọc các thuộc tính quan trọng nhất từ tập gốc, feature extraction tạo ra các thuộc tính mới từ tổ hợp thuộc tính gốc.
C. Feature selection chỉ áp dụng cho dữ liệu số, feature extraction cho mọi loại dữ liệu.
D. Không có sự khác biệt cơ bản về mục tiêu.
138. Mục tiêu chính của giai đoạn ‘Mô hình hóa’ (Modeling) trong quy trình CRISP-DM là gì?
A. Thu thập tất cả dữ liệu liên quan.
B. Chọn và áp dụng các kỹ thuật khai phá dữ liệu phù hợp để đáp ứng mục tiêu kinh doanh.
C. Đánh giá hiệu suất của mô hình đã xây dựng.
D. Triển khai mô hình vào môi trường thực tế.
139. Đâu là một thuật toán học không giám sát?
A. Hồi quy tuyến tính (Linear Regression)
B. Máy học vector hỗ trợ (SVM) cho phân loại
C. Cây quyết định (Decision Tree) cho phân loại
D. Phân cụm K-Means (K-Means Clustering)
140. Đâu là bước đầu tiên trong giai đoạn ‘Chuẩn bị dữ liệu’ (Data Preparation) của quy trình CRISP-DM?
A. Xây dựng mô hình.
B. Lựa chọn các thuật toán khai phá.
C. Thu thập và tích hợp các nguồn dữ liệu.
D. Đánh giá hiệu suất mô hình.
141. Kỹ thuật nào được sử dụng để xác định các nhóm đối tượng tương tự nhau trong một tập dữ liệu mà không có nhãn phân loại trước?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Luật kết hợp (Association Rules)
142. Mục tiêu của ‘data visualization’ trong khai phá dữ liệu là gì?
A. Để làm sạch dữ liệu.
B. Để mô tả các mẫu và xu hướng ẩn trong dữ liệu một cách trực quan.
C. Để xây dựng mô hình học máy.
D. Để triển khai kết quả vào hệ thống.
143. Kỹ thuật ‘dimensionality reduction’ nhằm mục đích gì?
A. Tăng số lượng thuộc tính để mô hình làm việc tốt hơn.
B. Giảm số lượng thuộc tính trong khi vẫn giữ lại thông tin quan trọng.
C. Loại bỏ tất cả các giá trị ngoại lai.
D. Tăng tốc độ xử lý bằng cách tạo ra nhiều thuộc tính hơn.
144. Độ tin cậy (Confidence) trong luật kết hợp ‘Nếu A thì B’ đo lường điều gì?
A. Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa B trong số các giao dịch chứa A.
C. Tỷ lệ các giao dịch chứa A trên tổng số giao dịch.
D. Tỷ lệ các giao dịch chứa B trên tổng số giao dịch.
145. Trong khai phá dữ liệu, ‘cross-validation’ là một kỹ thuật được sử dụng chủ yếu cho mục đích gì?
A. Làm sạch dữ liệu bị thiếu.
B. Đánh giá và lựa chọn mô hình tốt nhất bằng cách ước tính hiệu suất trên dữ liệu chưa thấy.
C. Giảm số chiều của dữ liệu.
D. Tìm kiếm các luật kết hợp.
146. Quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining) bao gồm bao nhiêu giai đoạn chính?
147. Kỹ thuật ‘SMOTE’ (Synthetic Minority Over-sampling Technique) được sử dụng để giải quyết vấn đề gì trong khai phá dữ liệu?
A. Giảm chiều dữ liệu.
B. Xử lý dữ liệu mất cân bằng bằng cách tạo ra các mẫu tổng hợp cho lớp thiểu số.
C. Tìm kiếm luật kết hợp.
D. Phát hiện dữ liệu ngoại lai.
148. Đâu là một ví dụ về ‘học máy có giám sát’ (supervised learning)?
A. Phân cụm khách hàng.
B. Phát hiện gian lận thẻ tín dụng (với dữ liệu đã được gán nhãn gian lận/không gian lận).
C. Phân tích giỏ hàng.
D. Phân tích thành phần chính (PCA).
149. Kỹ thuật ‘oversampling’ trong xử lý dữ liệu mất cân bằng thường được áp dụng để:
A. Giảm số lượng mẫu của lớp đa số.
B. Tăng số lượng mẫu của lớp thiểu số.
C. Loại bỏ các mẫu ngoại lai.
D. Tăng số lượng mẫu của cả hai lớp.
150. Khi gặp các giá trị bị thiếu trong tập dữ liệu, phương pháp nào sau đây KHÔNG được coi là kỹ thuật xử lý giá trị thiếu phổ biến?
A. Xóa các hàng chứa giá trị thiếu
B. Thay thế giá trị thiếu bằng giá trị trung bình hoặc trung vị
C. Sử dụng các thuật toán dự đoán để điền giá trị thiếu
D. Tạo ra các thuộc tính mới dựa trên các giá trị có sẵn
151. Kỹ thuật ‘feature engineering’ bao gồm các hoạt động nào sau đây?
A. Chỉ lựa chọn các thuộc tính quan trọng.
B. Chỉ tạo ra các thuộc tính mới từ dữ liệu thô.
C. Tạo ra các thuộc tính mới và lựa chọn các thuộc tính quan trọng để cải thiện hiệu suất mô hình.
D. Chỉ xử lý các giá trị ngoại lai.
152. Trong các thuật toán phân cụm, ‘DBSCAN’ (Density-Based Spatial Clustering of Applications with Noise) có ưu điểm gì so với K-Means?
A. Luôn xác định được số lượng cụm tối ưu.
B. Có thể phát hiện các cụm có hình dạng tùy ý và xử lý tốt các điểm ngoại lai.
C. Yêu cầu chỉ định trước số lượng cụm.
D. Nhạy cảm hơn với việc khởi tạo tâm cụm.
153. Trong quy trình khai phá dữ liệu, giai đoạn nào tập trung vào việc hiểu rõ vấn đề kinh doanh và xác định mục tiêu của dự án?
A. Giai đoạn Chuẩn bị dữ liệu
B. Giai đoạn Khám phá dữ liệu
C. Giai đoạn Hiểu biết kinh doanh
D. Giai đoạn Đánh giá mô hình
154. Khi xử lý dữ liệu mất cân bằng, việc ‘undersampling’ lớp đa số có thể dẫn đến hệ quả nào?
A. Giảm khả năng mô hình học từ lớp thiểu số.
B. Mất đi thông tin quan trọng từ lớp đa số.
C. Tăng độ chính xác tổng thể của mô hình.
D. Cả hai lựa chọn A và B.
155. Thuật toán K-Means sử dụng phương pháp lặp để tối ưu hóa sự phân bố các điểm dữ liệu vào các cụm dựa trên tiêu chí nào?
A. Tối đa hóa khoảng cách giữa các tâm cụm
B. Tối thiểu hóa tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm cụm của nó
C. Tối đa hóa số lượng điểm trong mỗi cụm
D. Tối thiểu hóa độ lệch chuẩn của dữ liệu
156. Khi đánh giá mô hình phân loại, chỉ số Precision đo lường điều gì?
A. Tỷ lệ các trường hợp dương tính thực tế được mô hình dự đoán đúng là dương tính.
B. Tỷ lệ các trường hợp được mô hình dự đoán là dương tính thực sự là dương tính.
C. Tỷ lệ các trường hợp âm tính thực tế được mô hình dự đoán đúng là âm tính.
D. Tỷ lệ các trường hợp được mô hình dự đoán là âm tính thực sự là âm tính.
157. Kỹ thuật ‘one-hot encoding’ thường được sử dụng để xử lý loại dữ liệu nào?
A. Dữ liệu số liên tục.
B. Dữ liệu phân loại hạng mục (Categorical Data).
C. Dữ liệu văn bản.
D. Dữ liệu chuỗi thời gian.
158. Khi áp dụng thuật toán cây quyết định, chỉ số nào được sử dụng để đo lường mức độ ‘sạch’ hoặc ‘thuần khiết’ của một phân nhóm dữ liệu đối với một thuộc tính phân loại?
A. Độ chính xác (Accuracy)
B. Gini Impurity
C. Sai số bình phương trung bình (MSE)
D. Độ tin cậy (Confidence)
159. Khi làm sạch dữ liệu, việc chuẩn hóa (normalization) thường đưa các giá trị về khoảng nào?
A. [0, 1]
B. [-1, 1]
C. [0, 100]
D. Trung bình 0, độ lệch chuẩn 1
160. Trong khai phá dữ liệu, ‘data wrangling’ hay ‘data munging’ đề cập đến quá trình nào?
A. Xây dựng mô hình dự đoán.
B. Trực quan hóa kết quả.
C. Thu thập và làm sạch, biến đổi dữ liệu để phù hợp với phân tích.
D. Đánh giá hiệu suất mô hình.
161. Thuật toán nào sau đây là một thuật toán phân nhóm (clustering algorithm) không giám sát?
A. Hồi quy tuyến tính (Linear Regression)
B. Cây quyết định (Decision Tree)
C. K-Means
D. Máy học vector hỗ trợ (Support Vector Machine – SVM)
162. Trong khai phá dữ liệu, thuật toán ‘Apriori’ tìm kiếm các tập phổ biến dựa trên một ngưỡng ‘minimum support’. Nếu ngưỡng này quá cao, hậu quả có thể là gì?
A. Tìm thấy quá nhiều luật kết hợp không có ý nghĩa.
B. Tìm thấy ít tập phổ biến, có thể bỏ sót các luật quan trọng.
C. Tăng tốc độ xử lý của thuật toán.
D. Giảm thiểu việc xử lý các giao dịch nhiễu.
163. Phương pháp ‘Principal Component Analysis’ (PCA) là một kỹ thuật thuộc nhóm nào?
A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Giảm chiều dữ liệu (Dimensionality Reduction)
D. Tìm kiếm luật kết hợp (Association Rule Mining)
164. Trong mô hình cây quyết định, ‘entropy’ được sử dụng để đo lường điều gì?
A. Sự phân tán của các giá trị trong một thuộc tính.
B. Mức độ hỗn loạn hoặc không chắc chắn trong một tập dữ liệu.
C. Tỷ lệ các mẫu thuộc về một lớp cụ thể.
D. Độ phức tạp của mô hình.
165. Khái niệm ‘Lift’ trong luật kết hợp (association rules) đo lường điều gì?
A. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa X và Y so với số giao dịch chứa X.
C. Sự gia tăng khả năng xuất hiện của Y khi X xuất hiện, so với việc Y xuất hiện độc lập.
D. Độ tin cậy của luật.
166. Khái niệm ‘Curse of Dimensionality’ đề cập đến những vấn đề gì khi làm việc với dữ liệu có nhiều thuộc tính?
A. Dữ liệu trở nên quá dễ phân tích.
B. Khoảng cách giữa các điểm dữ liệu trở nên ít khác biệt, làm giảm hiệu quả của các thuật toán dựa trên khoảng cách.
C. Tốc độ huấn luyện mô hình tăng lên đáng kể.
D. Mô hình dễ dàng tránh được overfitting.
167. Khái niệm ‘Association Rule Learning’ (Học luật kết hợp) có mục tiêu chính là gì?
A. Phân loại các đối tượng vào các nhóm khác nhau.
B. Tìm ra các mối quan hệ thú vị hoặc các mẫu phụ thuộc giữa các mục trong một tập dữ liệu.
C. Dự đoán giá trị của một biến liên tục.
D. Giảm số lượng thuộc tính của dữ liệu.
168. Thuật toán ‘Random Forest’ là một phương pháp khai phá dữ liệu dựa trên sự kết hợp của các mô hình nào?
A. Các cây quyết định độc lập.
B. Các cây quyết định được huấn luyện trên các tập dữ liệu con ngẫu nhiên và lựa chọn thuộc tính ngẫu nhiên.
C. Các mạng nơ-ron.
D. Các luật kết hợp.
169. Phương pháp nào trong khai phá dữ liệu giúp giảm số lượng thuộc tính của tập dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng?
A. Chuẩn hóa dữ liệu (Data normalization)
B. Giảm chiều dữ liệu (Dimensionality reduction)
C. Xử lý giá trị ngoại lai (Outlier treatment)
D. Làm sạch dữ liệu (Data cleaning)
170. Trong khai phá dữ liệu, thuật toán Apriori chủ yếu được sử dụng cho nhiệm vụ gì?
A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Tìm kiếm luật kết hợp (Association Rule Mining)
D. Dự báo chuỗi thời gian (Time Series Forecasting)
171. Thuật toán Naive Bayes là một thuật toán phân loại dựa trên nguyên tắc nào?
A. Độ đo khoảng cách Euclide.
B. Định lý Bayes và giả định độc lập có điều kiện giữa các thuộc tính.
C. Tìm kiếm các luật kết hợp.
D. Quy hoạch quy tắc (Rule Induction).
172. Thuật toán phân loại nào dựa trên việc xây dựng một tập hợp các luật IF-THEN để đưa ra dự đoán?
A. K-Means
B. Linear Regression
C. Rule-based classifier (e.g., RIPPER, PART)
D. Support Vector Machine
173. Trong khai phá dữ liệu, ‘Data Mining’ bao gồm những giai đoạn nào chính?
A. Thu thập dữ liệu và hiển thị kết quả.
B. Tiền xử lý dữ liệu, khai phá dữ liệu (tìm mẫu) và hậu xử lý (diễn giải, đánh giá mẫu).
C. Chỉ tìm kiếm các luật kết hợp.
D. Xây dựng mô hình và triển khai.
174. Khái niệm ‘Bias-Variance Tradeoff’ trong học máy đề cập đến mối quan hệ giữa hai nguồn lỗi chính của mô hình. Lỗi Bias cao thường đi kèm với:
A. Mô hình quá phức tạp, khớp với dữ liệu huấn luyện quá mức (overfitting).
B. Mô hình quá đơn giản, không nắm bắt được mối quan hệ cơ bản trong dữ liệu (underfitting).
C. Sai số ngẫu nhiên cao do dữ liệu nhiễu.
D. Sự biến động lớn của dự đoán khi thay đổi tập dữ liệu huấn luyện.
175. Độ đo ‘Conviction’ trong luật kết hợp (association rules) có ý nghĩa gì?
A. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch.
B. Sự gia tăng xác suất Y xảy ra khi X xuất hiện, so với việc Y xuất hiện độc lập.
C. Tỷ lệ các giao dịch chứa cả X và Y so với tổng số giao dịch.
D. Mức độ mà X ‘kết tội’ Y, nghĩa là sự khác biệt giữa xác suất Y xuất hiện khi X xuất hiện và xác suất Y xuất hiện khi X không xuất hiện.
176. Trong khai phá dữ liệu, ‘Data Transformation’ có thể bao gồm các hoạt động nào sau đây?
A. Xóa bỏ các bản ghi trùng lặp.
B. Tạo các thuộc tính mới từ thuộc tính hiện có.
C. Áp dụng các hàm toán học để thay đổi thang đo của thuộc tính.
D. Xử lý các giá trị ngoại lai bằng cách thay thế chúng.
177. Thuật toán phân cụm ‘DBSCAN’ xác định các cụm dựa trên tiêu chí nào?
A. Số lượng điểm dữ liệu gần nhất với tâm cụm.
B. Mật độ các điểm dữ liệu.
C. Khoảng cách Euclide giữa các điểm dữ liệu.
D. Sự tương đồng của các thuộc tính.
178. Khái niệm ‘Information Gain’ trong xây dựng cây quyết định đo lường điều gì?
A. Tỷ lệ các mẫu thuộc về lớp chính.
B. Mức độ giảm entropy sau khi phân chia dữ liệu theo một thuộc tính.
C. Độ tin cậy của phân chia.
D. Số lượng nút lá của cây.
179. Khái niệm ‘Ensemble Learning’ trong khai phá dữ liệu đề cập đến việc gì?
A. Sử dụng một mô hình duy nhất để dự đoán.
B. Kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể.
C. Huấn luyện mô hình trên một tập dữ liệu lớn.
D. Tạo ra các thuộc tính mới từ dữ liệu.
180. Trong khai phá dữ liệu, ‘Data Cleaning’ (Làm sạch dữ liệu) là bước quan trọng nhằm mục đích chính là gì?
A. Tăng cường số lượng thuộc tính.
B. Đảm bảo dữ liệu có chất lượng cao, xử lý các giá trị bất thường, thiếu hoặc sai lệch.
C. Giảm kích thước tập dữ liệu.
D. Phát hiện các mẫu ẩn trong dữ liệu.
181. Trong các kỹ thuật tiền xử lý dữ liệu, phương pháp nào thường được sử dụng để xử lý các giá trị thiếu (missing values) bằng cách thay thế chúng bằng giá trị trung bình của cột?
A. Tách thuộc tính (Attribute splitting)
B. Quy hoạch dữ liệu (Data discretization)
C. Điền giá trị trung bình (Mean imputation)
D. Giảm chiều dữ liệu (Dimensionality reduction)
182. Trong khai phá dữ liệu, kỹ thuật ‘Normalization’ (Chuẩn hóa) thường được áp dụng với mục đích gì?
A. Giảm số lượng thuộc tính.
B. Chuyển đổi các giá trị của thuộc tính về một phạm vi chung, ví dụ từ 0 đến 1.
C. Loại bỏ các giá trị ngoại lai.
D. Tạo ra các luật kết hợp.
183. Thuật toán nào sau đây thuộc nhóm các thuật toán phân loại dựa trên ‘mô hình tạo sinh’ (generative model)?
A. Support Vector Machine (SVM)
B. Logistic Regression
C. Naive Bayes
D. K-Nearest Neighbors (KNN)
184. Thuật toán nào là một thuật toán phân loại phổ biến, hoạt động bằng cách tìm một siêu phẳng (hyperplane) phân chia các lớp dữ liệu?
A. K-Means
B. Decision Tree
C. Support Vector Machine (SVM)
D. Naive Bayes
185. Trong khai phá dữ liệu, ‘Data Visualization’ đóng vai trò gì?
A. Chỉ dùng để trình bày kết quả cuối cùng.
B. Hỗ trợ khám phá dữ liệu, phát hiện mẫu, xu hướng và các điểm bất thường.
C. Thay thế hoàn toàn các thuật toán phân tích.
D. Chỉ áp dụng cho dữ liệu có ít chiều.
186. Trong khai phá dữ liệu, ‘Data Transformation’ thường được sử dụng để chuẩn bị dữ liệu cho các bước tiếp theo. Hoạt động nào sau đây KHÔNG thuộc về Data Transformation?
A. Chuẩn hóa (Normalization) các giá trị về khoảng [0, 1].
B. Tạo các thuộc tính phái sinh (Derived attributes).
C. Gom nhóm các giá trị liên tục thành các khoảng (Binning).
D. Xóa bỏ các thuộc tính không liên quan (Attribute removal).
187. Trong khai phá dữ liệu, ‘Data Reduction’ có thể bao gồm những phương pháp nào?
A. Tạo thuộc tính mới và chuẩn hóa dữ liệu.
B. Giảm chiều dữ liệu, giảm số lượng bản ghi và giảm độ sâu của thuộc tính.
C. Xử lý giá trị thiếu và giá trị ngoại lai.
D. Phân loại và phân cụm dữ liệu.
188. Trong khai phá dữ liệu, bước ‘Data Selection’ có ý nghĩa gì?
A. Xử lý các giá trị thiếu.
B. Chọn ra các tập dữ liệu hoặc các bản ghi có liên quan đến nhiệm vụ phân tích.
C. Giảm số lượng thuộc tính.
D. Kết hợp dữ liệu từ nhiều nguồn.
189. Kỹ thuật ‘Binning’ trong tiền xử lý dữ liệu được sử dụng để làm gì?
A. Loại bỏ các giá trị trùng lặp.
B. Chia một thuộc tính liên tục thành các khoảng (bins).
C. Tạo ra các luật kết hợp.
D. Giảm số lượng thuộc tính.
190. Độ đo ‘Confidence’ trong luật kết hợp (association rules) ví dụ ‘X => Y’ có ý nghĩa là gì?
A. Tỷ lệ các giao dịch chứa X và Y trên tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa Y trên tổng số giao dịch.
C. Xác suất Y xảy ra khi X đã xảy ra.
D. Tỷ lệ các giao dịch chứa X trên tổng số giao dịch.
191. Khái niệm ‘Overfitting’ trong khai phá dữ liệu đề cập đến tình huống nào?
A. Mô hình hoạt động tốt trên tập dữ liệu huấn luyện nhưng kém trên tập dữ liệu kiểm tra.
B. Mô hình hoạt động kém trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
D. Mô hình quá đơn giản, không nắm bắt được các mẫu trong dữ liệu.
192. Trong khai phá dữ liệu, ‘Data Smoothing’ là một kỹ thuật tiền xử lý nhằm mục đích gì?
A. Loại bỏ các bản ghi bị thiếu.
B. Giảm thiểu tác động của nhiễu và các giá trị ngoại lai.
C. Tăng cường độ chính xác của các giá trị.
D. Tạo ra các thuộc tính mới.
193. Trong khai phá dữ liệu, ‘Outlier Detection’ (Phát hiện giá trị ngoại lai) nhằm mục đích gì?
A. Tìm các điểm dữ liệu điển hình nhất.
B. Xác định các điểm dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu.
C. Giảm số lượng thuộc tính.
D. Chuẩn hóa dữ liệu.
194. Độ đo ‘Support’ trong luật kết hợp (association rules) cho biết điều gì?
A. Tỷ lệ các giao dịch chứa cả tập thuộc tính X và Y so với tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa tập thuộc tính Y, trong số các giao dịch đã chứa tập thuộc tính X.
C. Độ tin cậy của việc suy ra Y từ X.
D. Tỷ lệ các giao dịch chỉ chứa tập thuộc tính X.
195. Khái niệm ‘Feature Selection’ (Lựa chọn thuộc tính) trong khai phá dữ liệu có ý nghĩa gì?
A. Tạo ra các thuộc tính mới từ dữ liệu hiện có.
B. Chọn ra một tập hợp con các thuộc tính liên quan nhất để sử dụng trong mô hình.
C. Gom nhóm các giá trị của một thuộc tính.
D. Loại bỏ các giá trị thiếu trong dữ liệu.
196. Kỹ thuật ‘Data Discretization’ (Rời rạc hóa dữ liệu) thường được sử dụng để làm gì trong khai phá dữ liệu?
A. Tăng độ chính xác của các giá trị liên tục.
B. Chuyển đổi các biến liên tục thành các biến phân loại (categorical variables).
C. Loại bỏ các thuộc tính có nhiều giá trị thiếu.
D. Giảm số lượng các cụm.
197. Thuật toán nào sau đây là một thuật toán phân loại dựa trên cây?
A. K-Means
B. Support Vector Machine (SVM)
C. Linear Regression
D. Decision Tree (Cây quyết định)
198. Trong khai phá dữ liệu, ‘Data Integration’ là quá trình gì?
A. Chia tập dữ liệu thành các phần nhỏ hơn.
B. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất.
C. Loại bỏ các thuộc tính không liên quan.
D. Chuẩn hóa các giá trị dữ liệu.
199. Kỹ thuật ‘Feature Engineering’ liên quan đến việc gì trong khai phá dữ liệu?
A. Loại bỏ các thuộc tính không cần thiết.
B. Tạo ra các thuộc tính mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình.
C. Chuẩn hóa tất cả các thuộc tính về cùng một thang đo.
D. Huấn luyện mô hình trên tập dữ liệu lớn.
200. Thuật toán ‘K-Nearest Neighbors’ (KNN) phân loại một điểm dữ liệu mới dựa trên hành vi của các điểm dữ liệu nào?
A. Tất cả các điểm dữ liệu trong tập huấn luyện.
B. K điểm dữ liệu gần nhất với điểm dữ liệu mới.
C. Các điểm dữ liệu thuộc cùng một cụm.
D. Các điểm dữ liệu có giá trị thuộc tính lớn nhất.