200+ câu hỏi trắc nghiệm Học máy (Có đáp án)

Ngày cập nhật: 29/11/2025

⚠️ Vui lòng đọc kỹ phần lưu ý và tuyên bố miễn trừ trách nhiệm trước khi bắt đầu: Bộ câu hỏi và đáp án trong bài trắc nghiệm này chỉ mang tính chất tham khảo, nhằm hỗ trợ quá trình học tập và ôn luyện. Đây KHÔNG PHẢI là đề thi chính thức và không đại diện cho bất kỳ tài liệu chuẩn hóa hay kỳ thi cấp chứng chỉ nào từ các cơ quan giáo dục hoặc tổ chức cấp chứng chỉ chuyên ngành. Website không chịu trách nhiệm về tính chính xác của nội dung cũng như bất kỳ quyết định nào được đưa ra dựa trên kết quả từ bài trắc nghiệm.

Bắt đầu ngay cuộc phiêu lưu kiến thức với bộ 200+ câu hỏi trắc nghiệm Học máy (Có đáp án). Đây là cách lý tưởng để bạn kiểm tra khả năng ghi nhớ và hiểu bài của mình. Bạn chỉ cần chọn bộ câu hỏi mà bạn muốn làm để bắt đầu ngay. Hy vọng bạn sẽ có một buổi làm bài thật suôn sẻ và đạt được kết quả như mong đợi!.

1. Thuật toán nào sau đây là ví dụ điển hình của phương pháp học sâu (deep learning)?

A. Hồi quy Logistic (Logistic Regression).

B. Mạng nơ-ron tích chập (Convolutional Neural Network – CNN).

C. Cây quyết định (Decision Tree).

D. Máy vector hỗ trợ (Support Vector Machine – SVM).

2. Trong học máy, ‘pipeline’ (đường ống) là một khái niệm dùng để:

A. Huấn luyện mô hình trên nhiều máy tính cùng lúc.

B. Kết hợp nhiều bước xử lý dữ liệu và huấn luyện mô hình thành một chuỗi tuần tự, dễ quản lý và tái sử dụng.

C. Tự động tìm kiếm siêu tham số (hyperparameter tuning).

D. Đánh giá hiệu suất của mô hình trên tập kiểm tra.

3. Thuật toán nào sau đây thường được sử dụng cho bài toán phân loại đa lớp (multi-class classification)?

A. Hồi quy tuyến tính (Linear Regression).

B. Hồi quy Logistic (Logistic Regression) với chiến lược One-vs-Rest hoặc Softmax.

C. Hồi quy tuyến tính với bình phương sai số (Linear Regression with squared error).

D. Phân tích thành phần chính (Principal Component Analysis – PCA).

4. Thuật toán ‘Logistic Regression’ thực chất là một dạng của mô hình gì?

A. Mô hình phân cụm.

B. Mô hình hồi quy tuyến tính được áp dụng với hàm sigmoid để phân loại.

C. Mô hình cây quyết định.

D. Mô hình mạng nơ-ron đơn giản.

5. Trong học máy, ‘cross-validation’ (kiểm định chéo) được sử dụng để làm gì?

A. Tăng cường tốc độ xử lý dữ liệu.

B. Giảm thiểu số lượng đặc trưng cần thiết.

C. Ước lượng hiệu suất của mô hình một cách đáng tin cậy hơn trên dữ liệu mới.

D. Xử lý các giá trị bị thiếu trong dữ liệu.

6. Kỹ thuật ‘data augmentation’ (tăng cường dữ liệu) thường được sử dụng trong lĩnh vực nào để cải thiện hiệu suất mô hình?

A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP).

B. Nhận dạng hình ảnh (Image Recognition).

C. Dự báo chuỗi thời gian (Time Series Forecasting).

D. Phân cụm dữ liệu (Clustering).

7. Trong các thuật toán học máy, ‘feature engineering’ đề cập đến quá trình nào?

A. Chọn thuật toán học máy phù hợp.

B. Tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.

C. Huấn luyện mô hình trên tập dữ liệu lớn.

D. Đánh giá mô hình bằng các độ đo hiệu suất.

8. Trong học máy, ‘ensemble learning’ (học tập hợp) là một phương pháp kết hợp nhiều mô hình để:

A. Làm cho mô hình đơn giản hơn.

B. Cải thiện hiệu suất tổng thể và độ ổn định của dự đoán.

C. Giảm thiểu thời gian huấn luyện.

D. Tăng cường tính giải thích của mô hình.

9. Kỹ thuật ‘weight initialization’ (khởi tạo trọng số) trong mạng nơ-ron là quan trọng vì:

A. Nó đảm bảo mô hình luôn hội tụ nhanh chóng.

B. Khởi tạo sai có thể dẫn đến vấn đề ‘vanishing gradient’ hoặc ‘exploding gradient’.

C. Nó loại bỏ nhu cầu về ‘regularization’.

D. Nó tự động chọn kiến trúc mạng nơ-ron phù hợp.

10. Kỹ thuật ‘Grid Search’ trong học máy thường được sử dụng để:

A. Trực quan hóa dữ liệu.

B. Tự động tìm kiếm bộ siêu tham số (hyperparameters) tối ưu cho mô hình.

C. Giảm thiểu số lượng đặc trưng.

D. Đánh giá hiệu suất của mô hình trên tập huấn luyện.

11. Thuật toán ‘XGBoost’ (Extreme Gradient Boosting) là một biến thể tiên tiến của phương pháp nào?

A. K-Means Clustering.

B. Gradient Boosting.

C. Support Vector Machine (SVM).

D. Naive Bayes.

12. Khi đối mặt với hiện tượng ‘underfitting’ (mô hình quá đơn giản), các chiến lược cải thiện nào sau đây là phù hợp?

A. Giảm độ phức tạp của mô hình (ví dụ: giảm số lượng tham số).

B. Tăng cường feature engineering hoặc thêm các đặc trưng mới.

C. Giảm kích thước tập huấn luyện.

D. Tăng cường regularization (ví dụ: L1, L2).

13. Trong các loại lỗi của mô hình học máy, ‘bias’ cao thường biểu thị điều gì?

A. Mô hình quá nhạy cảm với dữ liệu huấn luyện.

B. Mô hình có xu hướng đưa ra dự đoán sai lệch hệ thống khỏi giá trị thực.

C. Mô hình có phương sai cao.

D. Mô hình có thể khái quát hóa rất tốt trên dữ liệu mới.

14. Trong học máy, ‘feature importance’ (tầm quan trọng của đặc trưng) là một khái niệm thường được trích xuất từ loại mô hình nào?

A. Hồi quy tuyến tính (Linear Regression).

B. Các mô hình dựa trên cây (Tree-based models) như Random Forest, Gradient Boosting.

C. K-Means Clustering.

D. SVM với kernel tuyến tính.

15. Trong Học máy giám sát, mục đích chính của việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (testing set) là gì?

A. Để tăng tốc độ huấn luyện mô hình.

B. Để đánh giá khả năng khái quát hóa của mô hình trên dữ liệu chưa thấy.

C. Để giảm thiểu số chiều của dữ liệu đầu vào.

D. Để lựa chọn thuật toán học máy phù hợp nhất.

16. Trong học máy, ‘bias-variance tradeoff’ có ý nghĩa gì đối với mô hình phức tạp và đơn giản?

A. Mô hình phức tạp có bias cao và variance thấp; mô hình đơn giản có bias thấp và variance cao.

B. Mô hình phức tạp có bias thấp và variance cao; mô hình đơn giản có bias cao và variance thấp.

C. Cả mô hình phức tạp và đơn giản đều có bias và variance thấp.

D. Cả mô hình phức tạp và đơn giản đều có bias và variance cao.

17. Thuật toán ‘K-Nearest Neighbors’ (KNN) phân loại một điểm dữ liệu mới dựa trên:

A. Giá trị trung bình của các điểm dữ liệu gần nhất.

B. Nhãn của đa số các điểm dữ liệu lân cận gần nhất.

C. Khoảng cách từ điểm dữ liệu đến tâm của các cụm.

D. Độ dốc của hàm mất mát tại điểm đó.

18. Trong học máy, ‘feature selection’ (lựa chọn đặc trưng) khác với ‘dimensionality reduction’ (giảm chiều dữ liệu) ở điểm nào?

A. Feature selection tạo ra đặc trưng mới, còn dimensionality reduction loại bỏ đặc trưng.

B. Feature selection chọn ra một tập con các đặc trưng gốc, còn dimensionality reduction tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc.

C. Feature selection chỉ áp dụng cho học có giám sát, còn dimensionality reduction cho học không giám sát.

D. Không có sự khác biệt đáng kể giữa hai khái niệm này.

19. Thuật toán ‘Apriori’ được sử dụng chủ yếu cho bài toán nào?

A. Phân loại văn bản.

B. Phát hiện luật kết hợp (Association Rule Mining).

C. Dự báo chuỗi thời gian.

D. Giảm chiều dữ liệu.

20. Khi sử dụng ‘cross-validation’, số lượng ‘folds’ (phần) thường được chọn là bao nhiêu?

A. Luôn luôn là 2.

B. Thường là 5 hoặc 10.

C. Chỉ phụ thuộc vào số lượng đặc trưng.

D. Luôn luôn bằng số lượng mẫu trong tập dữ liệu.

21. Thuật toán ‘Support Vector Machine’ (SVM) tìm kiếm gì để phân chia các lớp dữ liệu?

A. Đường thẳng đi qua tâm của các điểm dữ liệu.

B. Siêu phẳng (hyperplane) với biên (margin) lớn nhất giữa các lớp.

C. Các cụm dữ liệu.

D. Các đường cong tối thiểu hóa sai số bình phương.

22. Kỹ thuật ‘Bagging’ (Bootstrap Aggregating) trong học máy thường được áp dụng để:

A. Tăng cường độ phức tạp của mô hình.

B. Giảm phương sai (variance) của mô hình, giúp chống overfitting.

C. Tìm kiếm các cụm dữ liệu.

D. Giảm thiểu sai số hệ thống (bias).

23. Kỹ thuật ‘dimensionality reduction’ (giảm chiều dữ liệu) thường được áp dụng để làm gì?

A. Tăng số lượng đặc trưng để cải thiện hiệu suất.

B. Giảm thiểu đa cộng tuyến (multicollinearity) giữa các đặc trưng và giảm chi phí tính toán.

C. Chỉ sử dụng cho các mô hình học không giám sát.

D. Phát hiện các giá trị ngoại lai.

24. Thuật toán nào thuộc nhóm Học máy tăng cường (Reinforcement Learning)?

A. K-Means Clustering.

B. Linear Regression.

C. Q-Learning.

D. Support Vector Machine (SVM).

25. Thuật toán ‘Random Forest’ là một ví dụ của phương phápensemble nào?

A. Boosting.

B. Bagging.

C. Stacking.

D. Ensembling đơn giản (Simple Averaging).

26. Khái niệm ‘bias-variance tradeoff’ trong học máy đề cập đến sự đánh đổi giữa:

A. Tốc độ huấn luyện và độ chính xác của mô hình.

B. Độ phức tạp của mô hình và khả năng học dữ liệu huấn luyện.

C. Sai số do giả định sai của mô hình (bias) và sai số do nhạy cảm với biến động nhỏ trong dữ liệu huấn luyện (variance).

D. Kích thước tập huấn luyện và số lượng đặc trưng.

27. Thuật toán nào sau đây thuộc nhóm Học máy không giám sát?

A. Hồi quy tuyến tính (Linear Regression).

B. Máy Vector Hỗ trợ (Support Vector Machine – SVM).

C. Phân cụm K-Means (K-Means Clustering).

D. Cây quyết định (Decision Tree).

28. Độ đo ‘Precision’ (độ chính xác) trong phân loại nhị phân được định nghĩa như thế nào?

A. Tỷ lệ các trường hợp dương tính thực sự trên tổng số các trường hợp được dự đoán là dương tính.

B. Tỷ lệ các trường hợp dương tính thực sự trên tổng số các trường hợp dương tính thực tế.

C. Tỷ lệ các trường hợp âm tính thực sự trên tổng số các trường hợp được dự đoán là âm tính.

D. Tỷ lệ các trường hợp âm tính thực sự trên tổng số các trường hợp âm tính thực tế.

29. Trong học máy, ‘regularization’ (chuẩn hóa) có vai trò gì?

A. Tăng tốc độ huấn luyện mô hình.

B. Giảm sự phụ thuộc của mô hình vào các đặc trưng có giá trị lớn, giúp chống overfitting.

C. Bắt buộc sử dụng nhãn cho tất cả dữ liệu.

D. Loại bỏ các giá trị ngoại lai (outliers) khỏi tập dữ liệu.

30. Thuật toán ‘Naive Bayes’ hoạt động dựa trên nguyên lý nào?

A. Quy tắc Bayes với giả định độc lập giữa các đặc trưng.

B. Tìm kiếm các cụm dữ liệu dựa trên khoảng cách.

C. Giảm thiểu sai số bình phương trung bình.

D. Tối ưu hóa hàm mất mát bằng gradient descent.

31. Trong học máy, ‘gradient descent’ là một thuật toán tối ưu hóa dùng để:

A. Phân loại dữ liệu.

B. Tìm các cụm dữ liệu.

C. Giảm thiểu hàm mất mát (loss function) bằng cách điều chỉnh tham số mô hình.

D. Tạo ra các đặc trưng mới.

32. Trong bài toán hồi quy, độ đo ‘Mean Squared Error’ (MSE) đo lường điều gì?

A. Tỷ lệ các dự đoán đúng trên tổng số dự đoán.

B. Trung bình của bình phương sai số giữa giá trị dự đoán và giá trị thực tế.

C. Tỷ lệ các trường hợp dương tính được dự đoán đúng.

D. Độ chính xác của các dự đoán âm tính.

33. Kỹ thuật ‘feature scaling’ (chuẩn hóa đặc trưng) như Min-Max Scaling hoặc Standard Scaling, thường cần thiết cho các thuật toán nào?

A. Cây quyết định (Decision Tree).

B. Các thuật toán dựa trên khoảng cách như K-Nearest Neighbors (KNN) và SVM.

C. Hồi quy Logistic.

D. Tất cả các thuật toán học máy.

34. Hiện tượng ‘overfitting’ trong học máy xảy ra khi nào?

A. Mô hình quá đơn giản, không nắm bắt được mối quan hệ trong dữ liệu.

B. Mô hình hoạt động tốt trên cả tập huấn luyện và tập kiểm tra.

C. Mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập kiểm tra.

D. Dữ liệu huấn luyện không đủ lớn.

35. Độ đo nào thường được sử dụng để đánh giá hiệu suất của mô hình phân loại nhị phân, đặc biệt khi tập dữ liệu mất cân bằng?

A. Độ chính xác (Accuracy).

B. Sai số bình phương trung bình (Mean Squared Error – MSE).

C. F1-Score.

D. R-squared.

36. Thuật toán ‘principal component analysis’ (PCA) là một phương pháp của kỹ thuật nào?

A. Học có giám sát (Supervised Learning).

B. Học không giám sát (Unsupervised Learning) cho giảm chiều dữ liệu.

C. Học tăng cường (Reinforcement Learning).

D. Học bán giám sát (Semi-supervised Learning).

37. Thuật toán nào sau đây là một phương pháp học không giám sát được sử dụng để phát hiện các bất thường (anomaly detection)?

A. Hồi quy tuyến tính (Linear Regression).

B. Phân cụm Isolation Forest.

C. Hồi quy Logistic (Logistic Regression).

D. Cây quyết định (Decision Tree).

38. Kỹ thuật ‘early stopping’ (dừng sớm) trong huấn luyện mô hình mạng nơ-ron được sử dụng để:

A. Tăng tốc độ huấn luyện.

B. Ngăn chặn overfitting bằng cách dừng huấn luyện khi hiệu suất trên tập kiểm tra bắt đầu giảm.

C. Giảm thiểu sai số hệ thống (bias).

D. Tăng cường tính đa dạng của các đặc trưng.

39. Độ đo ‘Recall’ (độ nhạy) trong phân loại nhị phân được định nghĩa như thế nào?

A. Tỷ lệ các trường hợp dương tính thực sự trên tổng số các trường hợp được dự đoán là dương tính.

B. Tỷ lệ các trường hợp dương tính thực sự trên tổng số các trường hợp dương tính thực tế.

C. Tỷ lệ các trường hợp âm tính thực sự trên tổng số các trường hợp được dự đoán là âm tính.

D. Tỷ lệ các trường hợp âm tính thực sự trên tổng số các trường hợp âm tính thực tế.

40. Trong học máy, ‘hyperparameter’ là gì?

A. Các tham số của mô hình được học từ dữ liệu.

B. Các biến đầu vào của mô hình.

C. Các tham số được thiết lập trước khi quá trình huấn luyện bắt đầu và không được học từ dữ liệu.

D. Các giá trị đầu ra của mô hình.

41. Thuật toán ‘Random Forest’ là một tập hợp của nhiều thuật toán nào?

A. Decision Trees (Cây quyết định).

B. Linear Regressions (Hồi quy tuyến tính).

C. Support Vector Machines (SVM).

D. K-Means Clustering.

42. Khi phân loại dữ liệu, ‘Precision’ (độ chính xác) đo lường điều gì?

A. Tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính.

B. Tỷ lệ các trường hợp dương tính thực tế được mô hình dự đoán đúng.

C. Tỷ lệ tổng số dự đoán đúng trên tổng số dự đoán.

D. Khả năng mô hình đưa ra dự đoán chính xác trên dữ liệu chưa thấy.

43. Đâu là một ví dụ về nhiệm vụ ‘regression’ (hồi quy) trong học máy?

A. Dự đoán giá nhà dựa trên diện tích, vị trí và số phòng ngủ.

B. Phân loại hình ảnh thành chó hoặc mèo.

C. Nhận dạng chữ viết tay.

D. Phát hiện gian lận thẻ tín dụng.

44. Phương pháp ‘Cross-validation’ (kiểm định chéo) được sử dụng để làm gì trong học máy?

A. Đánh giá hiệu suất của mô hình một cách đáng tin cậy và ước lượng khả năng khái quát hóa của nó.

B. Tăng tốc độ huấn luyện mô hình trên tập dữ liệu lớn.

C. Giảm số lượng đặc trưng (features) cần thiết cho mô hình.

D. Trực quan hóa kết quả học tập của mô hình.

45. Trong mô hình hồi quy tuyến tính (linear regression), ‘bias’ (độ chệch) là gì?

A. Sai số hệ thống do giả định đơn giản hóa của mô hình, dẫn đến việc mô hình bỏ sót các mối quan hệ thực sự trong dữ liệu.

B. Sai số ngẫu nhiên do tính không chắc chắn của dữ liệu.

C. Sai số do quá trình huấn luyện không hội tụ.

D. Sai số do dữ liệu bị thiếu.

46. Trong các thuật toán học máy, ‘bias-variance tradeoff’ đề cập đến sự cân bằng giữa hai nguồn sai số chính là gì?

A. Bias (độ chệch) và Variance (phương sai).

B. Precision và Recall.

C. Overfitting và Underfitting.

D. Accuracy và F1-Score.

47. Thuật toán ‘Naive Bayes’ dựa trên định lý Bayes và giả định gì?

A. Các đặc trưng là độc lập có điều kiện với nhau, cho biết lớp (class) của mẫu.

B. Các đặc trưng có mối tương quan mạnh mẽ với nhau.

C. Dữ liệu tuân theo phân phối chuẩn.

D. Các lớp là phụ thuộc lẫn nhau.

48. Đâu là một ví dụ về thuật toán học bán giám sát (semi-supervised learning)?

A. Sử dụng một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữ liệu không nhãn để huấn luyện mô hình.

B. Chỉ sử dụng dữ liệu có nhãn.

C. Chỉ sử dụng dữ liệu không nhãn.

D. Huấn luyện mô hình dựa trên phần thưởng từ môi trường.

49. Trong học máy, thuật ngữ ‘overfitting’ (quá khớp) mô tả hiện tượng gì?

A. Mô hình học quá tốt trên tập dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới chưa từng thấy.

B. Mô hình học kém trên cả tập dữ liệu huấn luyện và dữ liệu mới.

C. Mô hình có khả năng khái quát hóa tốt trên mọi loại dữ liệu.

D. Mô hình cần nhiều dữ liệu hơn để hội tụ.

50. Thuật ngữ ‘variance’ (phương sai) trong ‘bias-variance tradeoff’ đề cập đến điều gì?

A. Mức độ thay đổi của ước lượng mô hình nếu nó được huấn luyện trên các tập dữ liệu huấn luyện khác nhau.

B. Sai số hệ thống do giả định đơn giản hóa của mô hình.

C. Sai số do dữ liệu bị thiếu.

D. Sai số do mô hình không hội tụ.

51. Mô hình ‘Deep Learning’ (học sâu) khác biệt với các mô hình học máy truyền thống ở điểm nào?

A. Sử dụng nhiều lớp ẩn (deep architectures) để học các biểu diễn dữ liệu phức tạp và phân cấp một cách tự động.

B. Luôn yêu cầu dữ liệu có cấu trúc.

C. Không sử dụng hàm mất mát.

D. Chỉ áp dụng cho bài toán phân loại.

52. Trong học tăng cường, thuật ngữ ‘reward’ (phần thưởng) đại diện cho điều gì?

A. Một tín hiệu phản hồi từ môi trường cho biết mức độ tốt hay xấu của hành động mà tác tử vừa thực hiện.

B. Môi trường mà tác tử tương tác.

C. Mục tiêu cuối cùng mà tác tử cần đạt được.

D. Hàm mục tiêu mà tác tử cần tối ưu hóa.

53. Trong xử lý ảnh bằng học máy, ‘convolutional neural networks’ (CNNs) nổi bật với khả năng gì?

A. Tự động trích xuất các đặc trưng phân cấp từ dữ liệu ảnh thông qua các lớp tích chập (convolutional layers).

B. Phân tích mối quan hệ tuần tự trong dữ liệu văn bản.

C. Tìm kiếm các mẫu ẩn trong dữ liệu số.

D. Tối ưu hóa quá trình ra quyết định trong môi trường tương tác.

54. Kỹ thuật ‘Feature Scaling’ (chuẩn hóa đặc trưng) thường được áp dụng cho các thuật toán nào?

A. Các thuật toán nhạy cảm với thang đo của đặc trưng, như SVM, K-Nearest Neighbors (KNN) và Gradient Descent.

B. Các thuật toán không phụ thuộc vào thang đo như Decision Trees và Random Forests.

C. Tất cả các thuật toán học máy, không phân biệt.

D. Chỉ các thuật toán học không giám sát.

55. Mục tiêu của thuật toán ‘K-Means’ là gì?

A. Chia tập dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ mỗi điểm đến tâm cụm gần nhất của nó là nhỏ nhất.

B. Tìm một đường thẳng phân chia dữ liệu.

C. Dự đoán nhãn của các điểm dữ liệu.

D. Tối ưu hóa hàm mất mát bằng gradient descent.

56. Trong học máy, ‘feature selection’ (lựa chọn đặc trưng) là quá trình gì?

A. Chọn một tập con các đặc trưng có liên quan nhất đến biến mục tiêu để xây dựng mô hình.

B. Tạo ra các đặc trưng mới từ dữ liệu thô.

C. Giảm chiều dữ liệu bằng cách kết hợp các đặc trưng.

D. Loại bỏ các mẫu dữ liệu không cần thiết.

57. Đâu là một ví dụ về thuộc tính của dữ liệu ‘structured’ (có cấu trúc)?

A. Dữ liệu trong bảng cơ sở dữ liệu với các cột và hàng được định nghĩa rõ ràng.

B. Tập hợp các bài đăng trên mạng xã hội.

C. Tệp âm thanh.

D. Hình ảnh y tế.

58. Trong học máy, ‘regularization’ (chuẩn hóa) được áp dụng để làm gì?

A. Ngăn chặn overfitting bằng cách thêm một khoản phạt vào hàm mất mát dựa trên độ lớn của các trọng số.

B. Tăng tốc độ huấn luyện mô hình.

C. Giảm thiểu bias của mô hình.

D. Tăng cường khả năng học trên dữ liệu huấn luyện.

59. Trong học tăng cường (reinforcement learning), ‘agent’ (tác tử) là gì?

A. Thực thể học cách đưa ra quyết định bằng cách tương tác với môi trường để tối đa hóa phần thưởng.

B. Môi trường mà tác tử tương tác.

C. Phần thưởng mà tác tử nhận được.

D. Hàm mục tiêu mà tác tử cần tối ưu.

60. Đâu là một ví dụ về thuật toán học có giám sát (supervised learning)?

A. Logistic Regression (Hồi quy Logistic).

B. Principal Component Analysis (PCA).

C. K-Means Clustering.

D. Association Rule Mining.

61. Đâu là ví dụ về thuật toán học không giám sát (unsupervised learning)?

A. Clustering (Phân cụm).

B. Linear Regression (Hồi quy tuyến tính).

C. Support Vector Machine (SVM).

D. Decision Tree (Cây quyết định).

62. Trong mô hình mạng nơ-ron, ‘backpropagation’ (lan truyền ngược) là quá trình gì?

A. Tính toán và lan truyền sai số từ lớp đầu ra về các lớp trước đó để cập nhật trọng số.

B. Truyền dữ liệu đầu vào từ lớp đầu vào đến lớp đầu ra.

C. Tính toán gradient cho từng đặc trưng.

D. Tạo ra các kết nối mới giữa các nơ-ron.

63. Mục đích của ‘data augmentation’ (tăng cường dữ liệu) trong học máy là gì?

A. Tạo ra các biến thể mới của dữ liệu huấn luyện hiện có (ví dụ: xoay, lật ảnh) để tăng kích thước tập dữ liệu và cải thiện khả năng khái quát hóa.

B. Giảm số lượng đặc trưng trong tập dữ liệu.

C. Tăng tốc độ hội tụ của mô hình.

D. Loại bỏ các giá trị ngoại lai.

64. Thuật toán ‘Decision Tree’ (cây quyết định) hoạt động dựa trên nguyên tắc nào?

A. Chia nhỏ không gian đặc trưng thành các vùng con dựa trên các kiểm tra điều kiện trên các đặc trưng.

B. Tìm kiếm các điểm dữ liệu gần nhất để đưa ra dự đoán.

C. Tối đa hóa khoảng cách giữa các lớp.

D. Xây dựng một mô hình tuyến tính để khớp với dữ liệu.

65. Mục tiêu của thuật toán ‘Principal Component Analysis’ (PCA) là gì?

A. Tìm các thành phần chính (principal components) có phương sai lớn nhất để giảm chiều dữ liệu.

B. Phân loại dữ liệu thành các nhóm.

C. Tối ưu hóa hàm mất mát trong mạng nơ-ron.

D. Dự đoán giá trị liên tục.

66. Trong học máy, thuật ngữ ‘hyperparameter’ (siêu tham số) dùng để chỉ loại tham số nào?

A. Các tham số được đặt trước khi quá trình huấn luyện bắt đầu và không được học từ dữ liệu.

B. Các tham số được học từ dữ liệu trong quá trình huấn luyện.

C. Các tham số chỉ xuất hiện trong mạng nơ-ron.

D. Các tham số dùng để đánh giá mô hình.

67. Kỹ thuật ‘Grid Search’ trong học máy được sử dụng để làm gì?

A. Tìm kiếm tổ hợp siêu tham số tốt nhất bằng cách thử tất cả các kết hợp có thể trong một không gian tìm kiếm được định nghĩa trước.

B. Giảm chiều dữ liệu.

C. Phân loại dữ liệu thành các cụm.

D. Tối ưu hóa trọng số của mạng nơ-ron.

68. Mục tiêu của thuật toán ‘K-Nearest Neighbors’ (KNN) là gì?

A. Phân loại một điểm dữ liệu mới dựa trên nhãn của K điểm dữ liệu gần nhất trong tập huấn luyện.

B. Tìm kiếm các cụm dữ liệu.

C. Giảm chiều dữ liệu.

D. Dự đoán giá trị liên tục bằng cách ngoại suy.

69. Thuật toán ‘Support Vector Machine’ (SVM) chủ yếu tìm cách tối ưu hóa điều gì?

A. Tìm một siêu phẳng phân chia tối đa hóa lề (margin) giữa các lớp dữ liệu.

B. Giảm thiểu sai số bình phương trung bình.

C. Phân cụm dữ liệu thành các nhóm nhỏ.

D. Dự đoán giá trị liên tục.

70. Mục đích chính của việc sử dụng hàm kích hoạt (activation function) trong mạng nơ-ron nhân tạo là gì?

A. Giới thiệu tính phi tuyến vào mô hình, cho phép mạng học các mối quan hệ phức tạp.

B. Tăng tốc độ hội tụ của thuật toán.

C. Giảm thiểu số lượng tham số trong mạng.

D. Chuẩn hóa dữ liệu đầu vào.

71. Trong mạng nơ-ron, ‘dropout’ là một kỹ thuật dùng để làm gì?

A. Ngăn chặn overfitting bằng cách ngẫu nhiên ‘bỏ qua’ một tỷ lệ các nơ-ron và kết nối của chúng trong mỗi lần cập nhật trọng số.

B. Tăng tốc độ lan truyền ngược.

C. Giảm kích thước của mô hình.

D. Tăng cường sự phụ thuộc giữa các nơ-ron.

72. Trong phân loại nhị phân, ‘Recall’ (độ phủ) là chỉ số đo lường điều gì?

A. Tỷ lệ các trường hợp dương tính thực tế được mô hình xác định đúng.

B. Tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính.

C. Tỷ lệ dự đoán đúng trên tổng số mẫu.

D. Độ chính xác trung bình của mô hình.

73. Thuật toán K-Means thuộc loại nào của học máy?

A. Học không giám sát (Unsupervised Learning).

B. Học có giám sát (Supervised Learning).

C. Học tăng cường (Reinforcement Learning).

D. Học bán giám sát (Semi-supervised Learning).

74. Trong học máy, ‘underfitting’ (dưới khớp) xảy ra khi nào?

A. Mô hình quá đơn giản, không nắm bắt được cấu trúc cơ bản của dữ liệu, dẫn đến hiệu suất kém trên cả dữ liệu huấn luyện và dữ liệu mới.

B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.

C. Mô hình có độ phức tạp phù hợp với dữ liệu.

D. Mô hình yêu cầu nhiều dữ liệu hơn để hội tụ.

75. Trong mô hình mạng nơ-ron, ‘learning rate’ (tốc độ học) ảnh hưởng đến điều gì?

A. Kích thước của mỗi bước cập nhật trọng số trong quá trình huấn luyện.

B. Số lượng lớp ẩn trong mạng.

C. Số lượng đặc trưng đầu vào.

D. Độ phức tạp của hàm mất mát.

76. Trong học máy, ‘feature engineering’ (kỹ thuật đặc trưng) là quá trình gì?

A. Sử dụng kiến thức chuyên môn để tạo ra các đặc trưng mới từ dữ liệu thô nhằm cải thiện hiệu suất mô hình.

B. Chọn ngẫu nhiên các đặc trưng từ tập dữ liệu.

C. Loại bỏ các đặc trưng không quan trọng.

D. Tối ưu hóa các siêu tham số của mô hình.

77. Trong xử lý ngôn ngữ tự nhiên (NLP), thuật ngữ ‘tokenization’ (tách từ) có nghĩa là gì?

A. Quá trình chia văn bản thành các đơn vị nhỏ hơn như từ, cụm từ hoặc câu.

B. Gán nhãn ngữ pháp cho các từ trong câu.

C. Biến đổi văn bản thành biểu diễn số.

D. Phân tích tình cảm của văn bản.

78. Đâu là một ví dụ về nhiệm vụ ‘classification’ (phân loại) trong học máy?

A. Xác định xem một email là spam hay không spam.

B. Dự đoán giá nhà dựa trên diện tích và vị trí.

C. Ước tính nhiệt độ ngày mai.

D. Phân nhóm khách hàng dựa trên hành vi mua sắm.

79. Kỹ thuật ‘Dimensionality Reduction’ (giảm chiều dữ liệu) thường được sử dụng để làm gì?

A. Giảm số lượng biến đầu vào (đặc trưng) trong khi vẫn giữ lại thông tin quan trọng nhất, nhằm giảm độ phức tạp tính toán và tránh ‘curse of dimensionality’.

B. Tăng số lượng đặc trưng để cải thiện độ chính xác của mô hình.

C. Loại bỏ các giá trị ngoại lai (outliers) khỏi dữ liệu.

D. Tăng cường tính phi tuyến của mô hình.

80. Khi sử dụng thuật toán ‘Gradient Descent’, mục tiêu là gì?

A. Giảm thiểu hàm mất mát (loss function) bằng cách điều chỉnh các tham số của mô hình theo hướng ngược lại của gradient.

B. Tăng tốc độ tính toán của mô hình.

C. Tăng cường khả năng khái quát hóa của mô hình.

D. Chọn lựa các đặc trưng quan trọng nhất.

81. Trong học máy, ‘cross-validation’ (kiểm định chéo) được sử dụng để làm gì?

A. Đánh giá độ tổng quát hóa (generalization) của mô hình và ước tính hiệu suất trên dữ liệu chưa thấy.

B. Tăng tốc độ huấn luyện mô hình.

C. Giảm thiểu lỗi của con người trong việc gán nhãn dữ liệu.

D. Tự động lựa chọn thuật toán học máy tốt nhất.

82. Kỹ thuật nào thường được sử dụng để giảm thiểu ‘overfitting’ trong các mô hình học máy?

A. Tăng số lượng tham số và độ phức tạp của mô hình.

B. Sử dụng kỹ thuật regularization (chuẩn hóa) như L1 hoặc L2.

C. Huấn luyện mô hình trên ít dữ liệu hơn.

D. Giảm kích thước batch trong quá trình huấn luyện.

83. Thuật toán ‘XGBoost’ (Extreme Gradient Boosting) là một biến thể của Gradient Boosting nổi bật về điều gì?

A. Hiệu suất cao, tốc độ xử lý nhanh và khả năng chống overfitting tốt nhờ các kỹ thuật tối ưu hóa.

B. Sử dụng các mô hình tuyến tính đơn giản.

C. Khả năng hoạt động trên dữ liệu không có nhãn.

D. Độ phức tạp thấp và dễ diễn giải.

84. Kỹ thuật ‘cross-entropy’ thường được sử dụng làm gì trong các bài toán phân loại sử dụng mạng nơ-ron?

A. Hàm mất mát (loss function) để đo lường sự khác biệt giữa phân phối xác suất dự đoán và phân phối xác suất thực tế.

B. Hàm kích hoạt (activation function) cho các lớp ẩn.

C. Kỹ thuật chuẩn hóa (regularization).

D. Phương pháp giảm chiều dữ liệu.

85. Trong học máy, thuật ngữ ‘overfitting’ (quá khớp) mô tả tình huống nào?

A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới chưa từng thấy.

B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu mới.

C. Mô hình hoạt động tốt trên dữ liệu mới nhưng kém trên dữ liệu huấn luyện.

D. Mô hình có quá ít tham số để học từ dữ liệu.

86. Kỹ thuật ‘data augmentation’ (tăng cường dữ liệu) trong học máy thường được áp dụng cho loại dữ liệu nào?

A. Hình ảnh, âm thanh, văn bản.

B. Chỉ dữ liệu dạng bảng.

C. Dữ liệu chuỗi thời gian.

D. Dữ liệu không có nhãn.

87. Trong phân loại, ‘precision’ (độ chính xác) được định nghĩa như thế nào?

A. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp được mô hình dự đoán là dương tính.

B. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp dương tính thực tế.

C. Tỷ lệ các trường hợp âm tính thực sự trong tất cả các trường hợp được mô hình dự đoán là âm tính.

D. Tỷ lệ các trường hợp âm tính thực sự trong tất cả các trường hợp âm tính thực tế.

88. Thuật toán ‘Logistic Regression’ (Hồi quy Logistic) chủ yếu được sử dụng cho loại bài toán nào?

A. Phân loại nhị phân (Binary Classification).

B. Hồi quy (Regression).

C. Phân cụm (Clustering).

D. Giảm chiều dữ liệu (Dimensionality Reduction).

89. Thuật ngữ ‘feature engineering’ (kỹ thuật đặc trưng) trong học máy đề cập đến hành động nào?

A. Quá trình tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.

B. Việc lựa chọn các thuật toán học máy phù hợp cho bài toán.

C. Đánh giá hiệu suất của mô hình đã huấn luyện.

D. Tiền xử lý dữ liệu bằng cách loại bỏ các giá trị ngoại lai.

90. Trong mạng nơ-ron nhân tạo, ‘activation function’ (hàm kích hoạt) đóng vai trò gì?

A. Giới thiệu tính phi tuyến vào mô hình, cho phép mạng học các mối quan hệ phức tạp.

B. Tính toán trọng số giữa các nơ-ron.

C. Xác định tốc độ học của mô hình.

D. Lưu trữ kết quả trung gian trong quá trình lan truyền ngược.

91. Thuật toán ‘K-Nearest Neighbors’ (KNN) phân loại một điểm dữ liệu mới dựa trên:

A. Các lớp của K điểm dữ liệu gần nhất với nó trong tập huấn luyện.

B. Khoảng cách đến tâm của mỗi lớp.

C. Độ tương đồng với các điểm dữ liệu ở biên của các lớp.

D. Các quy tắc được học từ cây quyết định.

92. Trong mạng nơ-ron, ‘dropout’ là một kỹ thuật được sử dụng để:

A. Ngăn chặn overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện.

B. Tăng tốc độ lan truyền tín hiệu qua mạng.

C. Giảm số lượng lớp ẩn trong mạng.

D. Tự động hóa việc lựa chọn hàm kích hoạt.

93. Trong phân loại, ‘accuracy’ (độ chính xác tổng thể) được tính như thế nào?

A. Tỷ lệ các dự đoán đúng trên tổng số dự đoán.

B. Tỷ lệ các dự đoán dương tính đúng trên tổng số dự đoán dương tính.

C. Tỷ lệ các dự đoán dương tính đúng trên tổng số trường hợp dương tính thực tế.

D. Tỷ lệ các dự đoán âm tính đúng trên tổng số dự đoán âm tính.

94. Trong xử lý ngôn ngữ tự nhiên (NLP), ‘tokenization’ (tách từ) là bước đầu tiên để làm gì?

A. Chia văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.

B. Chuyển đổi văn bản thành biểu diễn số.

C. Xác định ngữ pháp của câu.

D. Loại bỏ các từ dừng (stop words).

95. Trong học máy, khái niệm ‘dataset split’ (chia tập dữ liệu) thường bao gồm các phần nào?

A. Tập huấn luyện (Training set), tập kiểm định (Validation set) và tập kiểm tra (Test set).

B. Chỉ tập huấn luyện và tập kiểm tra.

C. Tập huấn luyện và tập tiền xử lý.

D. Tập huấn luyện, tập xác định đặc trưng và tập kiểm tra.

96. Trong các mô hình học máy, ‘ensemble learning’ (học kết hợp) có lợi ích chính là gì?

A. Cải thiện độ chính xác và khả năng tổng quát hóa bằng cách kết hợp nhiều mô hình.

B. Giảm thời gian huấn luyện mô hình.

C. Đơn giản hóa quy trình tiền xử lý dữ liệu.

D. Tự động lựa chọn thuật toán phù hợp nhất.

97. Thuật toán K-Means là một ví dụ điển hình của loại hình học máy nào?

A. Học không giám sát (Unsupervised Learning).

B. Học có giám sát (Supervised Learning).

C. Học tăng cường (Reinforcement Learning).

D. Học bán giám sát (Semi-supervised Learning).

98. Trong hồi quy tuyến tính, ‘bias-variance tradeoff’ (đánh đổi thiên vị-phương sai) đề cập đến điều gì?

A. Mối quan hệ nghịch đảo giữa sai số do thiên vị (bias) và sai số do phương sai (variance) của mô hình.

B. Khả năng mô hình học cả dữ liệu huấn luyện và dữ liệu kiểm tra.

C. Sự khác biệt giữa giá trị dự đoán và giá trị thực tế trên dữ liệu huấn luyện.

D. Tốc độ hội tụ của thuật toán tối ưu hóa.

99. Thuật toán ‘AdaBoost’ (Adaptive Boosting) là một thuật toán học kết hợp (ensemble) hoạt động bằng cách nào?

A. Tăng trọng số cho các mẫu dữ liệu mà các mô hình trước đó phân loại sai.

B. Huấn luyện các mô hình độc lập hoàn toàn.

C. Giảm trọng số của các mẫu dữ liệu khó phân loại.

D. Sử dụng các điểm dữ liệu gần nhất.

100. Độ đo ‘F1-score’ là sự kết hợp của hai chỉ số nào?

A. Precision và Recall.

B. Accuracy và Precision.

C. Accuracy và Recall.

D. True Positives và False Positives.

101. Trong mô hình mạng nơ-ron, ‘backpropagation’ (lan truyền ngược) được sử dụng để làm gì?

A. Tính toán gradient của hàm mất mát theo trọng số của mạng để cập nhật trọng số.

B. Lan truyền dữ liệu đầu vào qua các lớp của mạng.

C. Giảm chiều dữ liệu trước khi đưa vào mạng.

D. Xác định kiến trúc mạng nơ-ron phù hợp.

102. Trong học máy, ‘underfitting’ (chưa khớp) xảy ra khi nào?

A. Mô hình quá đơn giản, không nắm bắt được các mối quan hệ cơ bản trong dữ liệu.

B. Mô hình hoạt động quá tốt trên dữ liệu huấn luyện.

C. Mô hình có quá nhiều tham số.

D. Dữ liệu huấn luyện quá nhiễu.

103. Thuật toán ‘Naive Bayes’ (Naive Bayes) dựa trên định lý Bayes và giả định quan trọng nào?

A. Các đặc trưng đầu vào là độc lập có điều kiện với nhau, cho lớp mục tiêu.

B. Các đặc trưng đầu vào có mối tương quan mạnh với nhau.

C. Dữ liệu phải tuân theo phân phối chuẩn.

D. Mô hình phải có độ phức tạp cao.

104. Trong xử lý ngôn ngữ tự nhiên, ‘word embedding’ (nhúng từ) như Word2Vec hoặc GloVe có mục đích gì?

A. Biểu diễn từ dưới dạng các vector số có ý nghĩa ngữ nghĩa và ngữ cảnh.

B. Tách văn bản thành các từ riêng lẻ.

C. Loại bỏ các từ dừng và dấu câu.

D. Xác định cấu trúc ngữ pháp của câu.

105. Thuật toán ‘Decision Tree’ (Cây quyết định) phân loại dữ liệu dựa trên nguyên tắc nào?

A. Chia dữ liệu thành các tập con dựa trên các câu hỏi về các đặc trưng.

B. Tìm kiếm các điểm dữ liệu gần nhất trong không gian đặc trưng.

C. Xây dựng một mặt phẳng phân chia tuyến tính giữa các lớp.

D. Học một hàm ánh xạ từ đầu vào đến đầu ra thông qua mạng nơ-ron.

106. Khi đánh giá mô hình phân loại, ‘ROC curve’ (đường cong ROC) vẽ đồ thị mối quan hệ giữa:

A. Tỷ lệ Dương tính thật (True Positive Rate – TPR) và Tỷ lệ Dương tính giả (False Positive Rate – FPR).

B. Precision và Recall.

C. Accuracy và F1-score.

D. Precision và FPR.

107. Kỹ thuật ‘feature scaling’ (chuẩn hóa đặc trưng) như ‘Min-Max Scaling’ hoặc ‘Standardization’ giúp ích gì cho thuật toán học máy?

A. Đảm bảo các đặc trưng có thang đo khác nhau không ảnh hưởng không công bằng đến thuật toán (ví dụ: thuật toán dựa trên khoảng cách như KNN, SVM).

B. Tăng số lượng đặc trưng trong tập dữ liệu.

C. Loại bỏ các giá trị ngoại lai một cách tự động.

D. Giảm tính phi tuyến của dữ liệu.

108. Trong học máy, ‘gradient descent’ (giảm độ dốc) là một thuật toán được sử dụng để làm gì?

A. Tìm cực tiểu của một hàm mất mát (loss function).

B. Tăng tốc độ xử lý dữ liệu.

C. Giảm chiều dữ liệu.

D. Tạo ra các đặc trưng mới từ dữ liệu.

109. Thuật toán ‘Gradient Boosting’ (Tăng cường độ dốc) cải thiện hiệu suất bằng cách nào?

A. Xây dựng tuần tự các mô hình yếu, mỗi mô hình mới cố gắng sửa lỗi của các mô hình trước đó.

B. Huấn luyện đồng thời nhiều mô hình độc lập.

C. Sử dụng các điểm dữ liệu gần nhất để đưa ra dự đoán.

D. Tìm kiếm siêu phẳng tối ưu hóa biên.

110. Trong học máy, ‘hyperparameter tuning’ (điều chỉnh siêu tham số) là quá trình gì?

A. Tìm kiếm các giá trị tốt nhất cho các siêu tham số của mô hình (ví dụ: learning rate, số lượng cây trong Random Forest).

B. Huấn luyện mô hình trên toàn bộ tập dữ liệu.

C. Chọn ra các đặc trưng quan trọng nhất.

D. Đánh giá hiệu suất cuối cùng của mô hình.

111. Thuật toán ‘Principal Component Analysis’ (PCA) là một kỹ thuật thuộc loại hình học máy nào?

A. Giảm chiều dữ liệu (Dimensionality Reduction).

B. Học không giám sát (Unsupervised Learning) cho phân cụm.

C. Học có giám sát (Supervised Learning) cho phân loại.

D. Học tăng cường (Reinforcement Learning).

112. Trong học máy, ‘recall’ (độ phủ) được định nghĩa như thế nào?

A. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp dương tính thực tế.

B. Tỷ lệ các trường hợp dương tính thực sự trong tất cả các trường hợp được mô hình dự đoán là dương tính.

C. Tỷ lệ các trường hợp âm tính thực sự trong tất cả các trường hợp âm tính thực tế.

D. Tỷ lệ các trường hợp âm tính thực sự trong tất cả các trường hợp được mô hình dự đoán là âm tính.

113. Thuật toán ‘Support Vector Machine’ (SVM) tìm kiếm điều gì để phân chia dữ liệu?

A. Siêu phẳng (hyperplane) phân chia dữ liệu sao cho có khoảng cách lớn nhất đến các điểm dữ liệu gần nhất của mỗi lớp (margin).

B. Đường phân chia tuyến tính đi qua tâm của các cụm dữ liệu.

C. Tập hợp các điểm dữ liệu gần nhất với điểm trung bình của mỗi lớp.

D. Cây quyết định dựa trên các ngưỡng đặc trưng.

114. Trong học máy, ‘bias’ (thiên vị) đề cập đến:

A. Sai số do các giả định đơn giản hóa của mô hình, dẫn đến việc bỏ lỡ các mối quan hệ có thật trong dữ liệu.

B. Sai số do sự nhạy cảm của mô hình với biến động nhỏ trong tập huấn luyện.

C. Sai số do việc sử dụng quá nhiều đặc trưng.

D. Sai số do việc lựa chọn thuật toán không phù hợp.

115. Thuật toán ‘Random Forest’ (Rừng ngẫu nhiên) là một tập hợp của những gì?

A. Nhiều cây quyết định (decision trees) được huấn luyện độc lập và kết quả được tổng hợp (ví dụ: bỏ phiếu đa số).

B. Một cây quyết định duy nhất với các quy tắc phức tạp hơn.

C. Các điểm dữ liệu gần nhất trong không gian đặc trưng.

D. Các bộ phân loại tuyến tính được kết hợp lại.

116. Kỹ thuật ‘regularization’ (chuẩn hóa) như L1 và L2 chủ yếu ảnh hưởng đến phần nào của mô hình?

A. Độ lớn của các hệ số (weights) của các đặc trưng trong mô hình.

B. Tốc độ học (learning rate) của thuật toán tối ưu hóa.

C. Số lượng đặc trưng được sử dụng.

D. Số lượng mẫu trong tập huấn luyện.

117. Ma trận nhầm lẫn (Confusion Matrix) trong phân loại dùng để đánh giá điều gì?

A. Hiệu suất phân loại của mô hình trên các lớp khác nhau, bao gồm True Positives, False Positives, True Negatives, False Negatives.

B. Tốc độ hội tụ của thuật toán huấn luyện.

C. Mức độ tương quan giữa các đặc trưng đầu vào.

D. Sự phân bố của các giá trị ngoại lai trong tập dữ liệu.

118. Thuật toán ‘Linear Regression’ (Hồi quy Tuyến tính) tìm kiếm điều gì để mô hình hóa mối quan hệ giữa biến độc lập và biến phụ thuộc?

A. Các hệ số (coefficients) của một phương trình tuyến tính.

B. Các điểm gần nhất trong không gian đặc trưng.

C. Các cụm dữ liệu.

D. Các quy tắc phân loại.

119. Khi làm việc với dữ liệu có nhiều chiều, kỹ thuật ‘dimensionality reduction’ (giảm chiều dữ liệu) có thể giúp:

A. Giảm số lượng đặc trưng, giúp mô hình chạy nhanh hơn và dễ trực quan hóa hơn.

B. Tăng số lượng đặc trưng để cải thiện độ chính xác.

C. Chỉ tập trung vào các đặc trưng tuyến tính.

D. Loại bỏ tất cả các giá trị ngoại lai.

120. Trong học máy, ‘feature selection’ (lựa chọn đặc trưng) nhằm mục đích gì?

A. Chọn ra một tập hợp con các đặc trưng quan trọng nhất để sử dụng trong mô hình.

B. Tạo ra các đặc trưng mới từ dữ liệu thô.

C. Giảm số lượng mẫu huấn luyện.

D. Tăng độ phức tạp của mô hình.

121. Đâu là một ví dụ về thuật toán phân cụm (clustering algorithm)?

A. Hồi quy tuyến tính (Linear Regression).

B. Thuật toán K-Means.

C. Mạng nơ-ron tích chập (Convolutional Neural Network – CNN).

D. Cây tăng cường (Gradient Boosting Tree).

122. Kỹ thuật ‘One-Hot Encoding’ thường được sử dụng để:

A. Giảm số chiều của dữ liệu.

B. Chuyển đổi các biến phân loại (categorical variables) thành dạng số mà các mô hình Học Máy có thể xử lý.

C. Xử lý các giá trị bị thiếu (missing values).

D. Tăng cường khả năng diễn giải của mô hình.

123. Trong Học Máy Giám sát (Supervised Learning), mục tiêu chính của việc sử dụng tập dữ liệu huấn luyện (training dataset) là gì?

A. Để kiểm tra hiệu suất của mô hình trên dữ liệu mới chưa từng thấy.

B. Để tìm ra các mẫu (patterns) và mối quan hệ giữa các đặc trưng (features) và nhãn (labels) nhằm xây dựng mô hình có khả năng dự đoán.

C. Để giảm thiểu số lượng đặc trưng trong tập dữ liệu.

D. Để đảm bảo tính ngẫu nhiên của dữ liệu.

124. Đâu là một ví dụ về mô hình ‘Ensemble Learning’?

A. Cây quyết định đơn lẻ (Single Decision Tree).

B. Hồi quy Tuyến tính.

C. Bagging (Bootstrap Aggregating) hoặc Boosting.

D. K-Nearest Neighbors.

125. Trong bài toán Hồi quy (Regression), độ đo nào sau đây đánh giá mức độ phù hợp của mô hình với dữ liệu bằng cách đo lường sự khác biệt bình phương giữa giá trị thực tế và giá trị dự đoán?

A. Precision.

B. Recall.

C. Mean Squared Error (MSE).

D. F1-Score.

126. Kỹ thuật nào sau đây thường được sử dụng để giảm số chiều (dimensionality reduction) của tập dữ liệu trong Học Máy?

A. Hồi quy Logistic (Logistic Regression).

B. Cây quyết định (Decision Tree).

C. Phân tích thành phần chính (Principal Component Analysis – PCA).

D. Máy vector hỗ trợ (Support Vector Machine – SVM).

127. Đâu là một ví dụ về bài toán Hồi quy (Regression)?

A. Phân loại email là spam hay không spam.

B. Dự đoán giá nhà dựa trên các đặc điểm của nó.

C. Nhận dạng chữ viết tay.

D. Phân loại ảnh mèo và ảnh chó.

128. Kỹ thuật ‘Data Augmentation’ (Tăng cường dữ liệu) thường được sử dụng trong các mô hình Học Máy để:

A. Tăng tốc độ huấn luyện.

B. Giảm số lượng đặc trưng.

C. Tăng cường khả năng khái quát hóa và giảm overfitting bằng cách tạo ra các biến thể mới từ dữ liệu huấn luyện hiện có.

D. Loại bỏ các giá trị ngoại lai (outliers).

129. Trong bài toán phân loại, ‘Recall’ (Độ nhạy) đo lường điều gì?

A. Tỷ lệ các trường hợp dương tính thực sự (True Positives) trên tổng số các trường hợp được dự đoán là dương tính.

B. Tỷ lệ các trường hợp dương tính thực sự (True Positives) trên tổng số các trường hợp dương tính thực tế.

C. Tỷ lệ các trường hợp âm tính thực sự (True Negatives) trên tổng số các trường hợp được dự đoán là âm tính.

D. Tỷ lệ các trường hợp âm tính thực sự (True Negatives) trên tổng số các trường hợp âm tính thực tế.

130. Khi nào nên sử dụng mô hình Hồi quy Logistic (Logistic Regression) thay vì Hồi quy Tuyến tính (Linear Regression)?

A. Khi biến mục tiêu là liên tục (continuous).

B. Khi biến mục tiêu là phân loại (categorical), đặc biệt là phân loại nhị phân.

C. Khi cần dự đoán giá trị trung bình của một biến.

D. Khi dữ liệu có mối quan hệ tuyến tính mạnh.

131. Trong bài toán phân loại, ‘False Positive’ (Dương tính giả) xảy ra khi:

A. Mô hình dự đoán là dương tính, nhưng thực tế là âm tính.

B. Mô hình dự đoán là âm tính, nhưng thực tế là dương tính.

C. Mô hình dự đoán là dương tính, và thực tế cũng là dương tính.

D. Mô hình dự đoán là âm tính, và thực tế cũng là âm tính.

132. Đâu là một ví dụ về ‘đặc trưng’ (feature) trong một tập dữ liệu về bất động sản?

A. Giá bán của căn nhà.

B. Diện tích sử dụng của căn nhà.

C. Loại hình giao dịch (mua/bán).

D. Ngày đăng bán.

133. Trong Học Máy, ‘Feature Selection’ (Lựa chọn đặc trưng) khác với ‘Dimensionality Reduction’ (Giảm chiều) ở điểm nào?

A. Dimensionality Reduction tạo ra các đặc trưng mới, còn Feature Selection chỉ chọn các đặc trưng gốc.

B. Feature Selection tạo ra các đặc trưng mới, còn Dimensionality Reduction chỉ chọn các đặc trưng gốc.

C. Dimensionality Reduction luôn làm giảm overfitting, còn Feature Selection thì không.

D. Feature Selection chỉ áp dụng cho dữ liệu số, còn Dimensionality Reduction áp dụng cho mọi loại dữ liệu.

134. Trong bài toán phân loại (classification), khi một mô hình dự đoán sai lớp của một mẫu dữ liệu, đó được gọi là gì?

A. Overfitting.

B. Underfitting.

C. Prediction Error (Lỗi dự đoán).

D. Feature Engineering.

135. Khái niệm ‘Learning Rate’ (Tốc độ học) trong các thuật toán tối ưu hóa dựa trên gradient (gradient-based optimization) ảnh hưởng đến điều gì?

A. Số lượng đặc trưng được sử dụng.

B. Kích thước của bước cập nhật trọng số mỗi lần lặp.

C. Số lượng lớp ẩn trong mạng nơ-ron.

D. Độ phức tạp của hàm mất mát.

136. Kỹ thuật ‘Feature Scaling’ (Chuẩn hóa đặc trưng) là quan trọng vì:

A. Nó tăng tốc độ huấn luyện cho tất cả các thuật toán.

B. Nó giúp các thuật toán nhạy cảm với thang đo (scale) của đặc trưng hoạt động hiệu quả hơn.

C. Nó luôn làm giảm overfitting.

D. Nó loại bỏ các đặc trưng không liên quan.

137. Trong Học Máy Tăng Cường, ‘Policy’ (Chính sách) là gì?

A. Hàm thưởng mà Agent nhận được.

B. Cách mà Agent chọn hành động dựa trên trạng thái hiện tại của môi trường.

C. Mô tả của môi trường.

D. Trạng thái cuối cùng của quá trình tương tác.

138. Đâu là đặc điểm cốt lõi của Học Máy Không Giám sát (Unsupervised Learning)?

A. Mô hình cần có nhãn (labels) đi kèm với dữ liệu đầu vào để học.

B. Mô hình tìm kiếm các cấu trúc ẩn hoặc mẫu trong dữ liệu không có nhãn.

C. Mô hình nhận phản hồi từ môi trường để điều chỉnh hành vi.

D. Mô hình được huấn luyện bằng cách tối ưu hóa một hàm mục tiêu (objective function) có sẵn.

139. Đâu là một ví dụ về Học Máy Bán Giám sát (Semi-Supervised Learning)?

A. Huấn luyện mô hình nhận dạng ảnh chỉ với các ảnh đã được gán nhãn.

B. Huấn luyện mô hình nhận dạng ảnh sử dụng một lượng lớn ảnh có nhãn và một lượng nhỏ ảnh không có nhãn.

C. Sử dụng thuật toán phân cụm để nhóm các ảnh tương tự.

D. Dạy robot cách chơi cờ bằng cách thử và sai.

140. Đâu là một ví dụ về Học Máy Tăng Cường (Reinforcement Learning)?

A. Phân loại hình ảnh.

B. Dự đoán doanh số bán hàng.

C. Dạy một robot học cách đi hoặc chơi một trò chơi điện tử.

D. Phân tích cảm xúc từ các bài đánh giá sản phẩm.

141. Khi xây dựng mô hình Học Máy, bước ‘Feature Engineering’ bao gồm các hoạt động nào?

A. Chỉ là việc chọn lọc các đặc trưng có sẵn.

B. Việc tạo ra các đặc trưng mới từ dữ liệu thô hoặc kết hợp các đặc trưng hiện có để cải thiện hiệu suất mô hình.

C. Đánh giá hiệu suất cuối cùng của mô hình.

D. Huấn luyện mô hình trên toàn bộ dữ liệu.

142. Trong Học Máy, ‘Hyperparameter’ là gì?

A. Các tham số mà mô hình học được từ dữ liệu huấn luyện.

B. Các tham số được thiết lập trước khi quá trình huấn luyện bắt đầu và không học từ dữ liệu.

C. Các đặc trưng được sử dụng để huấn luyện mô hình.

D. Kết quả dự đoán của mô hình.

143. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân loại nhị phân (binary classification)?

A. Sai số bình phương trung bình (Mean Squared Error – MSE).

B. Độ chính xác (Accuracy).

C. Độ sai lệch tuyệt đối trung bình (Mean Absolute Error – MAE).

D. R-squared.

144. Đâu là một thuật toán học máy có khả năng học các biểu diễn phi tuyến (non-linear representations) của dữ liệu một cách hiệu quả?

A. Hồi quy Tuyến tính (Linear Regression).

B. Phân tích thành phần chính (PCA).

C. Mạng nơ-ron sâu (Deep Neural Networks).

D. K-Means.

145. Kỹ thuật ‘Grid Search’ thường được sử dụng để:

A. Lựa chọn đặc trưng tốt nhất.

B. Tìm kiếm và chọn ra các ‘hyperparameters’ tốt nhất cho mô hình bằng cách thử tất cả các tổ hợp có thể của các giá trị được định trước.

C. Đánh giá hiệu suất của mô hình trên tập kiểm tra.

D. Huấn luyện mô hình nhanh hơn.

146. Trong Học Máy Tăng Cường (Reinforcement Learning), khái niệm ‘Agent’ đề cập đến đối tượng nào?

A. Môi trường mà Agent tương tác.

B. Hệ thống hoặc thực thể học hỏi và đưa ra quyết định.

C. Hàm thưởng (reward function).

D. Trạng thái hiện tại của môi trường.

147. Trong bài toán phân loại, khái niệm ‘Precision’ đo lường điều gì?

A. Tỷ lệ các trường hợp dương tính thực sự (True Positives) trên tổng số các trường hợp được dự đoán là dương tính.

B. Tỷ lệ các trường hợp dương tính thực sự (True Positives) trên tổng số các trường hợp dương tính thực tế.

C. Tỷ lệ các trường hợp âm tính thực sự (True Negatives) trên tổng số các trường hợp được dự đoán là âm tính.

D. Tỷ lệ các trường hợp âm tính thực sự (True Negatives) trên tổng số các trường hợp âm tính thực tế.

148. Hiện tượng Overfitting (quá khớp) xảy ra khi nào?

A. Mô hình quá đơn giản, không nắm bắt được các mẫu trong dữ liệu huấn luyện.

B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.

C. Mô hình học kém trên cả dữ liệu huấn luyện và dữ liệu mới.

D. Dữ liệu huấn luyện có quá ít mẫu.

149. Đâu là một ứng dụng phổ biến của phân tích văn bản (text analysis) trong Học Máy?

A. Nhận dạng giọng nói.

B. Phân tích cảm xúc (sentiment analysis).

C. Phát hiện vật thể trong ảnh.

D. Dự đoán giá cổ phiếu.

150. Đâu là một ví dụ về thuật toán học máy sử dụng kỹ thuật ‘Boosting’?

A. K-Nearest Neighbors (KNN).

B. Support Vector Machine (SVM).

C. AdaBoost hoặc Gradient Boosting Machines (GBM).

D. Linear Regression.

151. Kỹ thuật ‘Cross-Validation’ (Kiểm định chéo) được sử dụng để làm gì?

A. Để tăng tốc độ huấn luyện mô hình.

B. Để đánh giá độ tin cậy của hiệu suất mô hình và giảm thiểu thiên vị (bias) do cách chia dữ liệu huấn luyện/kiểm tra.

C. Để giảm số chiều của dữ liệu.

D. Để tìm ra các tham số tối ưu cho mô hình.

152. Khái niệm ‘Bias-Variance Trade-off’ trong Học Máy đề cập đến sự cân bằng giữa yếu tố nào?

A. Tốc độ huấn luyện và độ chính xác.

B. Độ phức tạp của mô hình và khả năng khái quát hóa trên dữ liệu mới.

C. Số lượng đặc trưng và số lượng mẫu dữ liệu.

D. Hiệu suất trên tập huấn luyện và tập kiểm tra.

153. Trong bài toán phân loại, ‘Confusion Matrix’ (Ma trận nhầm lẫn) cung cấp thông tin về:

A. Chỉ số độ chính xác tổng thể của mô hình.

B. Số lượng True Positives, True Negatives, False Positives và False Negatives.

C. Tốc độ huấn luyện của mô hình.

D. Sự tương quan giữa các đặc trưng.

154. Kỹ thuật ‘Regularization’ (Điều chuẩn) trong Học Máy thường được sử dụng để:

A. Tăng tốc độ hội tụ của mô hình.

B. Giảm thiểu overfitting bằng cách thêm hình phạt vào hàm mất mát (loss function) dựa trên độ lớn của các trọng số (weights).

C. Tăng cường khả năng học của mô hình trên dữ liệu huấn luyện.

D. Loại bỏ tất cả các đặc trưng có hệ số bằng 0.

155. Thuật toán nào sau đây là một ví dụ về mô hình dựa trên cây (tree-based model)?

A. K-Nearest Neighbors (KNN).

B. Support Vector Machine (SVM).

C. Random Forest.

D. Linear Regression.

156. Thuật toán ‘Support Vector Machine’ (SVM) hoạt động dựa trên nguyên tắc chính nào?

A. Tìm đường phân chia có độ lệch lớn nhất giữa các lớp.

B. Tìm siêu phẳng (hyperplane) phân chia tốt nhất giữa các lớp, tối đa hóa lề (margin).

C. Chia dữ liệu thành các cụm dựa trên khoảng cách.

D. Xây dựng một chuỗi các quyết định tuần tự.

157. Đâu là một thuật toán phân cụm dựa trên mật độ (density-based clustering algorithm)?

A. K-Means.

B. Hierarchical Clustering.

C. DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

D. Gaussian Mixture Model (GMM).

158. Trong Học Máy Tăng Cường, một ‘State’ (Trạng thái) đại diện cho điều gì?

A. Quyết định mà Agent đưa ra.

B. Phần thưởng mà Agent nhận được.

C. Mô tả hiện tại của môi trường mà Agent đang tương tác.

D. Hàm mục tiêu của Agent.

159. Đâu là một ví dụ về ‘Deep Learning’?

A. Hồi quy Tuyến tính.

B. Thuật toán K-Means.

C. Mạng nơ-ron tích chập (CNN) hoặc Mạng nơ-ron hồi tiếp (RNN).

D. Cây quyết định.

160. Thuật toán ‘Decision Tree’ có ưu điểm nổi bật là gì?

A. Khả năng học các biểu diễn phi tuyến rất phức tạp.

B. Dễ dàng diễn giải (interpretable) và trực quan hóa.

C. Hoạt động tốt với dữ liệu có số chiều rất cao.

D. Không bị ảnh hưởng bởi overfitting.

161. Trong mạng nơ-ron, thuật ngữ ‘backpropagation’ dùng để chỉ quá trình gì?

A. Truyền tín hiệu từ lớp đầu vào đến lớp đầu ra.

B. Tính toán gradient của hàm mất mát theo trọng số của mạng để cập nhật trọng số.

C. Khởi tạo ngẫu nhiên trọng số của mạng.

D. Chuẩn hóa đầu vào của mạng.

162. Thuật toán nào thường được sử dụng cho bài toán phân cụm (clustering)?

A. Linear Regression

B. Logistic Regression

C. K-Means

D. Support Vector Machine (SVM)

163. Khi dữ liệu có nhiều đặc trưng, việc sử dụng ‘Feature Selection’ có mục đích chính là gì?

A. Tăng cường độ phức tạp của mô hình.

B. Giảm số lượng đặc trưng, loại bỏ các đặc trưng không liên quan hoặc dư thừa để cải thiện hiệu suất và giảm thời gian huấn luyện.

C. Tăng cường khả năng overfitting.

D. Tạo ra các đặc trưng mới.

164. Khái niệm ‘variance’ (phương sai) trong học máy thường đề cập đến:

A. Sai số do mô hình quá đơn giản, không nắm bắt được mối quan hệ cơ bản trong dữ liệu.

B. Sai số do mô hình quá nhạy cảm với các biến động nhỏ trong tập huấn luyện, dẫn đến hiệu suất khác nhau đáng kể trên các tập dữ liệu huấn luyện khác nhau.

C. Sai số do việc thu thập dữ liệu bị thiên lệch.

D. Sai số do lỗi tính toán trong thuật toán.

165. Trong thuật toán Cây Quyết định (Decision Tree), nút lá (leaf node) đại diện cho điều gì?

A. Một quyết định trung gian dựa trên một thuộc tính.

B. Một đặc trưng (feature) được chọn để phân chia dữ liệu.

C. Một kết quả dự đoán cuối cùng (lớp hoặc giá trị).

D. Một ngưỡng để phân tách dữ liệu.

166. Trong học máy, khái niệm ‘pipeline’ (quy trình) đề cập đến:

A. Một mô hình học máy duy nhất.

B. Một chuỗi các bước xử lý dữ liệu và huấn luyện mô hình được liên kết với nhau.

C. Quá trình đánh giá hiệu suất mô hình.

D. Việc lựa chọn các tham số tốt nhất.

167. Hệ số tương quan Pearson (Pearson Correlation Coefficient) đo lường:

A. Mối quan hệ nhân quả giữa hai biến.

B. Mức độ tuyến tính của mối quan hệ giữa hai biến số và hướng của mối quan hệ đó.

C. Sự khác biệt giữa trung bình của hai nhóm.

D. Tỷ lệ các trường hợp khớp nhau giữa hai tập dữ liệu.

168. Trong học máy giám sát, mục tiêu chính của việc sử dụng tập dữ liệu kiểm tra (test set) là gì?

A. Để huấn luyện mô hình và tinh chỉnh các tham số.

B. Để đánh giá hiệu suất và khả năng tổng quát hóa của mô hình trên dữ liệu chưa từng thấy.

C. Để lựa chọn các đặc trưng (features) quan trọng nhất cho mô hình.

D. Để khám phá các mẫu ẩn và cấu trúc trong dữ liệu.

169. Trong Xử lý Ngôn ngữ Tự nhiên (NLP), kỹ thuật ‘Tokenization’ là gì?

A. Chuyển đổi văn bản thành các vector số.

B. Quá trình chia văn bản thành các đơn vị nhỏ hơn như từ, cụm từ hoặc ký tự.

C. Loại bỏ các từ dừng (stopwords) khỏi văn bản.

D. Biểu diễn ý nghĩa ngữ nghĩa của từ.

170. Trong Học tăng cường (Reinforcement Learning), khái niệm ‘Agent’ đề cập đến:

A. Môi trường mà Agent hoạt động.

B. Hành động mà Agent thực hiện.

C. Thực thể học hỏi và đưa ra quyết định để đạt được mục tiêu.

D. Phần thưởng hoặc hình phạt mà Agent nhận được.

171. Độ đo Recall (Độ phủ) trong phân loại được tính như thế nào?

A. TP / (TP + FP)

B. TP / (TP + FN)

C. TN / (TN + FP)

D. TN / (TN + FN)

172. Trong NLP, kỹ thuật ‘Stemming’ và ‘Lemmatization’ đều có mục đích gì?

A. Biểu diễn từ dưới dạng vector.

B. Giảm các biến thể của từ về dạng gốc hoặc gốc từ để chuẩn hóa dữ liệu văn bản.

C. Loại bỏ các từ có tần suất xuất hiện thấp.

D. Phân tích cấu trúc ngữ pháp của câu.

173. Độ đo ‘F1-Score’ trong phân loại là sự kết hợp giữa:

A. Accuracy và Precision.

B. Precision và Recall.

C. Precision và Specificity.

D. Recall và Specificity.

174. Thuật toán Random Forest thuộc loại hình học máy nào?

A. Học máy không giám sát.

B. Học máy có giám sát.

C. Học tăng cường.

D. Học sâu (Deep Learning).

175. Trong học máy, ‘feature scaling’ (chuẩn hóa đặc trưng) là quá trình gì?

A. Giảm số lượng đặc trưng.

B. Biến đổi các đặc trưng để chúng có cùng thang đo hoặc phạm vi giá trị.

C. Tạo ra các đặc trưng mới từ các đặc trưng hiện có.

D. Loại bỏ các đặc trưng không liên quan.

176. Trong học máy, khái niệm ‘hyperparameter’ là gì?

A. Các biến số được học từ dữ liệu trong quá trình huấn luyện.

B. Các tham số của mô hình được thiết lập trước khi quá trình huấn luyện bắt đầu và không được học từ dữ liệu.

C. Các thuộc tính đầu vào của dữ liệu.

D. Kết quả dự đoán của mô hình.

177. Kỹ thuật ‘Grid Search’ thường được sử dụng để:

A. Huấn luyện mô hình nhanh hơn.

B. Tìm kiếm tập hợp các giá trị hyperparameter tốt nhất cho mô hình bằng cách thử tất cả các kết hợp có thể.

C. Đánh giá hiệu suất cuối cùng của mô hình.

D. Chọn lựa các đặc trưng quan trọng nhất.

178. Trong mạng nơ-ron tích chập (Convolutional Neural Networks – CNNs), lớp tích chập (convolutional layer) có vai trò chính là gì?

A. Thực hiện phân loại cuối cùng.

B. Trích xuất các đặc trưng cục bộ từ dữ liệu đầu vào (ví dụ: cạnh, góc trong ảnh).

C. Làm phẳng dữ liệu để đưa vào lớp kết nối đầy đủ.

D. Áp dụng hàm kích hoạt phi tuyến.

179. Thuật toán K-Nearest Neighbors (KNN) là một thuật toán học máy thuộc loại nào?

A. Học máy không giám sát.

B. Học máy có giám sát (phân loại và hồi quy).

C. Học tăng cường.

D. Học sâu.

180. Thuật toán K-Means thuộc loại hình học máy nào?

A. Học máy có giám sát (Supervised Learning).

B. Học máy không giám sát (Unsupervised Learning).

C. Học tăng cường (Reinforcement Learning).

D. Học bán giám sát (Semi-supervised Learning).

181. Thuật toán nào kết hợp nhiều mô hình yếu (weak learners) để tạo ra một mô hình mạnh (strong learner) và thường hiệu quả trong việc giảm thiểu overfitting?

A. K-Means

B. Naive Bayes

C. Gradient Boosting (ví dụ: XGBoost, LightGBM)

D. Linear Regression

182. Trong mạng nơ-ron hồi tiếp (Recurrent Neural Networks – RNNs), mục đích của vòng lặp (recurrent connection) là gì?

A. Để tăng tốc độ lan truyền ngược.

B. Để cho phép mạng ghi nhớ thông tin từ các bước thời gian trước đó, phù hợp cho dữ liệu chuỗi.

C. Để giảm số lượng tham số trong mạng.

D. Để áp dụng phép tích chập.

183. Kỹ thuật nào thường được sử dụng để giảm thiểu hiện tượng overfitting trong các mô hình học máy, đặc biệt là mạng nơ-ron?

A. Tăng số lượng đặc trưng (features).

B. Giảm kích thước của tập huấn luyện (training set).

C. Áp dụng các kỹ thuật điều chuẩn (regularization) như L1 hoặc L2, hoặc sử dụng Dropout.

D. Tăng độ phức tạp của mô hình bằng cách thêm nhiều lớp hoặc nơ-ron hơn.

184. Khi đối mặt với tập dữ liệu mất cân bằng lớp (imbalanced dataset), độ đo nào có thể không phản ánh đúng hiệu suất của mô hình?

A. Precision

B. Recall

C. F1-Score

D. Accuracy

185. Kỹ thuật ‘one-hot encoding’ thường được sử dụng để làm gì trong học máy?

A. Giảm chiều dữ liệu.

B. Chuyển đổi các biến phân loại (categorical variables) thành dạng số mà các thuật toán có thể xử lý.

C. Chuẩn hóa các biến liên tục.

D. Loại bỏ các giá trị thiếu.

186. Trong học máy, lỗi ‘bias-variance tradeoff’ (đánh đổi giữa thiên vị và phương sai) đề cập đến việc:

A. Tăng bias luôn dẫn đến giảm variance và ngược lại.

B. Cần tìm sự cân bằng giữa bias (mô hình quá đơn giản) và variance (mô hình quá phức tạp) để đạt được hiệu suất tổng quát hóa tốt nhất.

C. Bias và variance là hai loại lỗi hoàn toàn độc lập.

D. Chỉ có thể giảm bias hoặc variance, không thể cùng lúc cải thiện cả hai.

187. Thuật toán nào thường được sử dụng để phát hiện các mẫu trong dữ liệu không có nhãn, ví dụ như phân khúc khách hàng?

A. Logistic Regression

B. Decision Tree

C. K-Means

D. Linear Regression

188. Kỹ thuật ‘Bag of Words’ (BoW) trong NLP được sử dụng để làm gì?

A. Biểu diễn ngữ nghĩa của câu.

B. Biểu diễn một tài liệu văn bản dưới dạng một vectơ tần suất của các từ, bỏ qua ngữ pháp và thứ tự từ.

C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

D. Phân tích cảm xúc của văn bản.

189. Thuật toán Naive Bayes dựa trên nguyên lý nào của xác suất?

A. Định lý Bayes và giả định độc lập có điều kiện giữa các đặc trưng.

B. Quy tắc nhân của xác suất có điều kiện.

C. Sự tương quan giữa các biến.

D. Phân phối Gaussian.

190. Thuật toán nào là một ví dụ điển hình của học máy không giám sát dùng để giảm chiều dữ liệu (dimensionality reduction)?

A. Linear Regression

B. Support Vector Machine (SVM)

C. Principal Component Analysis (PCA)

D. Logistic Regression

191. Thuật toán nào là một ví dụ về ‘ensemble learning’ (học kết hợp)?

A. Linear Regression

B. K-Means

C. Random Forest

D. PCA

192. Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) khác với K-Means ở điểm nào cơ bản?

A. DBSCAN yêu cầu số lượng cụm (K) phải được chỉ định trước, còn K-Means thì không.

B. DBSCAN có thể phát hiện các cụm có hình dạng tùy ý và xác định các điểm nhiễu (noise points), trong khi K-Means giả định các cụm có hình dạng cầu và không xử lý nhiễu một cách rõ ràng.

C. DBSCAN luôn nhanh hơn K-Means.

D. K-Means sử dụng phân phối xác suất, còn DBSCAN thì không.

193. Trong mạng nơ-ron, hàm kích hoạt (activation function) có vai trò gì?

A. Để tính toán đầu ra cuối cùng của mạng.

B. Để đưa tính phi tuyến vào mô hình, cho phép mạng học các mối quan hệ phức tạp.

C. Để chuẩn hóa đầu vào của các lớp tiếp theo.

D. Để điều chỉnh trọng số của mạng.

194. Thuật toán nào thường được sử dụng cho bài toán phân loại nhị phân (binary classification) bằng cách tìm một đường phân chia tuyến tính hoặc phi tuyến?

A. K-Means

B. Principal Component Analysis (PCA)

C. Support Vector Machine (SVM)

D. K-Nearest Neighbors (KNN)

195. Trong học máy, thuật ngữ ‘bias’ (thiên vị) thường đề cập đến:

A. Sai số do mô hình quá đơn giản, không nắm bắt được mối quan hệ cơ bản trong dữ liệu.

B. Sai số do mô hình quá phức tạp, nhạy cảm với nhiễu trong dữ liệu huấn luyện.

C. Sai số do việc lựa chọn đặc trưng không phù hợp.

D. Sai số do thiếu dữ liệu huấn luyện.

196. Thuật toán Support Vector Machine (SVM) tìm cách:

A. Phân cụm dữ liệu thành các nhóm.

B. Tìm đường phân chia (hyperplane) tối ưu hóa khoảng cách giữa các lớp dữ liệu.

C. Dự đoán giá trị liên tục.

D. Giảm chiều dữ liệu.

197. Kỹ thuật ‘Cross-validation’ (Kiểm định chéo) được sử dụng để:

A. Tăng tốc độ huấn luyện mô hình.

B. Đánh giá độ tin cậy của mô hình và dự đoán hiệu suất trên dữ liệu chưa nhìn thấy.

C. Giảm số lượng đặc trưng cần thiết.

D. Loại bỏ các giá trị ngoại lai (outliers) trong dữ liệu.

198. Trong thuật toán Hồi quy Tuyến tính (Linear Regression), mục tiêu là tìm ra các hệ số (coefficients) sao cho:

A. Tối đa hóa sai số giữa giá trị dự đoán và giá trị thực tế.

B. Tối thiểu hóa sai số (ví dụ: tổng bình phương sai số – Sum of Squared Errors) giữa giá trị dự đoán và giá trị thực tế.

C. Tối thiểu hóa số lượng đặc trưng được sử dụng.

D. Tối đa hóa số lượng điểm dữ liệu nằm trên đường hồi quy.

199. Trong các thuật toán phân loại, độ đo Precision (Độ chính xác) được định nghĩa như thế nào?

A. Tỷ lệ các trường hợp dương tính thực (True Positives) trên tổng số các trường hợp được dự đoán là dương tính (TP + FP).

B. Tỷ lệ các trường hợp dương tính thực (True Positives) trên tổng số các trường hợp dương tính thực tế (TP + FN).

C. Tỷ lệ các trường hợp âm tính thực (True Negatives) trên tổng số các trường hợp được dự đoán là âm tính (TN + FN).

D. Tỷ lệ các trường hợp âm tính thực (True Negatives) trên tổng số các trường hợp âm tính thực tế (TN + FP).

200. Thuật toán nào dựa trên nguyên lý ‘chia để trị’ (divide and conquer) để xây dựng mô hình?

A. K-Means

B. Linear Regression

C. Decision Tree

D. Support Vector Machine (SVM)

Or check our Popular Categories...

Or check our Popular Categories...

200+ câu hỏi trắc nghiệm Học máy (Có đáp án)

Or check our Popular Categories...

Or check our Popular Categories...

HƯỚNG DẪN TÌM MẬT KHẨU