1. Cơ chế ‘Attention’ trong các mô hình NLP hiện đại giúp giải quyết vấn đề gì?
A. Giảm thiểu số lượng tham số của mô hình.
B. Cho phép mô hình tập trung vào các phần quan trọng nhất của chuỗi đầu vào khi tạo ra chuỗi đầu ra.
C. Tăng tốc độ huấn luyện mô hình.
D. Loại bỏ hoàn toàn các từ dừng (stop words).
2. Trong mô hình Seq2Seq, ‘Decoder’ có vai trò gì?
A. Chuyển đổi câu đầu vào thành vector biểu diễn.
B. Tạo ra chuỗi đầu ra từng bước, sử dụng vector ngữ cảnh từ Encoder và các token đã tạo ra trước đó.
C. Phân tích cú pháp của câu đầu vào.
D. Xác định các thực thể được đặt tên.
3. Mô hình BERT (Bidirectional Encoder Representations from Transformers) nổi bật nhờ khả năng học biểu diễn từ ngữ cảnh hai chiều. Điều này có nghĩa là gì?
A. Mô hình chỉ xem xét các từ đứng trước một từ nhất định.
B. Mô hình xem xét cả các từ đứng trước và đứng sau một từ để hiểu ngữ cảnh của từ đó.
C. Mô hình chỉ học từ các văn bản có hai hướng khác nhau.
D. Mô hình tạo ra hai bản dịch cho mỗi câu.
4. Trong lĩnh vực Question Answering (QA), loại câu hỏi nào thường yêu cầu mô hình xác định một đoạn văn bản cụ thể cung cấp câu trả lời?
A. Câu hỏi mở (Open-domain questions)
B. Câu hỏi dạng ‘Factoid’ hoặc ‘Extractive QA’
C. Câu hỏi suy luận (Inferential questions)
D. Câu hỏi đánh giá (Evaluative questions)
5. Kỹ thuật ‘Named Entity Recognition’ (NER) giúp xác định và phân loại loại thông tin nào trong văn bản?
A. Các câu có cấu trúc ngữ pháp sai.
B. Các thực thể được đặt tên như tên người, tổ chức, địa điểm, ngày tháng.
C. Các từ đồng nghĩa và trái nghĩa.
D. Các mẫu câu lặp đi lặp lại trong văn bản.
6. Trong các mô hình ngôn ngữ lớn (LLMs) như GPT, khái niệm ‘Prompt Engineering’ đề cập đến việc gì?
A. Thiết kế kiến trúc mạng nơ-ron.
B. Huấn luyện mô hình từ đầu.
C. Thiết kế các câu lệnh (prompt) đầu vào để hướng dẫn mô hình tạo ra kết quả mong muốn.
D. Tối ưu hóa phần cứng cho việc chạy mô hình.
7. Phân tích tình cảm (Sentiment Analysis) trong NLP nhằm mục đích gì?
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Xác định ý kiến, thái độ, hoặc cảm xúc (tích cực, tiêu cực, trung tính) được thể hiện trong văn bản.
C. Tóm tắt nội dung chính của một đoạn văn dài.
D. Phát hiện và phân loại các thực thể được đặt tên (tên người, địa điểm, tổ chức).
8. Kỹ thuật ‘Text Summarization’ có hai loại chính là extractive và abstractive. Sự khác biệt cơ bản là gì?
A. Extractive chọn lọc câu/cụm từ nguyên bản, Abstractive tạo câu mới hoàn toàn.
B. Extractive dịch văn bản, Abstractive tóm tắt.
C. Extractive phân tích cú pháp, Abstractive phân tích ngữ nghĩa.
D. Extractive chỉ áp dụng cho văn bản tiếng Anh, Abstractive cho mọi ngôn ngữ.
9. Khái niệm ‘Zero-shot learning’ trong NLP đề cập đến khả năng của mô hình làm gì?
A. Chỉ hoạt động trên dữ liệu đã được huấn luyện.
B. Thực hiện một nhiệm vụ mà không cần bất kỳ ví dụ huấn luyện nào cho nhiệm vụ đó.
C. Yêu cầu lượng lớn dữ liệu được gán nhãn.
D. Chỉ hoạt động với các mô hình ngôn ngữ nhỏ.
10. Mô hình ‘Transformer’ có bao nhiêu thành phần chính trong mỗi khối Encoder và Decoder?
A. Một cơ chế Self-Attention và một Feed-Forward Network.
B. Một cơ chế Self-Attention, một Feed-Forward Network và một cơ chế Attention với Encoder.
C. Một cơ chế RNN và một cơ chế CNN.
D. Chỉ có một cơ chế Self-Attention.
11. Trong Chatbot, ‘Intent Recognition’ là bước quan trọng nhằm mục đích gì?
A. Xác định chính tả của từ người dùng nhập.
B. Hiểu ý định hoặc mục đích của người dùng đằng sau câu hỏi/yêu cầu của họ.
C. Tạo ra câu trả lời tự động có giọng điệu hài hước.
D. Duy trì lịch sử cuộc trò chuyện.
12. Kỹ thuật ‘Lemmatization’ khác với ‘Stemming’ ở điểm nào?
A. Lemmatization chỉ áp dụng cho động từ, Stemming áp dụng cho mọi loại từ.
B. Lemmatization đưa từ về dạng gốc có nghĩa (lemma), còn Stemming chỉ cắt bỏ hậu tố/tiền tố mà không đảm bảo từ mới có nghĩa.
C. Stemming chính xác hơn Lemmatization.
D. Lemmatization yêu cầu ít tài nguyên tính toán hơn.
13. Kỹ thuật ‘Word Embeddings’ (như Word2Vec, GloVe) khác biệt với Bag-of-Words ở điểm nào?
A. Word Embeddings chỉ sử dụng các từ đơn lẻ, không quan tâm đến ngữ cảnh.
B. Word Embeddings biểu diễn từ dưới dạng vector dày đặc (dense vector) nắm bắt mối quan hệ ngữ nghĩa và ngữ cảnh, còn BoW là vector thưa thớt (sparse vector) dựa trên tần suất.
C. BoW có khả năng học biểu diễn ngữ cảnh tốt hơn.
D. Word Embeddings yêu cầu ít dữ liệu huấn luyện hơn.
14. Kỹ thuật ‘Few-shot learning’ trong NLP có nghĩa là gì?
A. Mô hình chỉ cần một ví dụ để học một nhiệm vụ.
B. Mô hình học hiệu quả với một số lượng rất nhỏ các ví dụ huấn luyện cho một nhiệm vụ mới.
C. Mô hình tự động tạo ra dữ liệu huấn luyện.
D. Mô hình hoạt động tốt nhất khi không có dữ liệu huấn luyện.
15. Mô hình ‘BERT’ được huấn luyện ban đầu trên hai nhiệm vụ chính là Masked Language Model (MLM) và nhiệm vụ nào nữa?
A. Next Sentence Prediction (NSP)
B. Text Summarization
C. Machine Translation
D. Sentiment Analysis
16. Kỹ thuật ‘Masked Language Modeling’ (MLM) được sử dụng trong các mô hình như BERT để làm gì?
A. Dự đoán từ tiếp theo trong câu.
B. Tạo ra các câu văn mới hoàn toàn.
C. Huấn luyện mô hình bằng cách yêu cầu nó dự đoán các từ bị che (mask) trong câu.
D. Phân loại văn bản theo chủ đề.
17. Kỹ thuật ‘Topic Modeling’ (như LDA – Latent Dirichlet Allocation) thường được sử dụng để làm gì?
A. Dịch văn bản từ tiếng Việt sang tiếng Anh.
B. Xác định các chủ đề tiềm ẩn trong một tập hợp lớn các tài liệu văn bản.
C. Phân loại email thành spam hoặc không spam.
D. Tạo ra các câu văn mới có ngữ pháp chính xác.
18. Trong phân tích văn bản, ‘Lemmatization’ thường yêu cầu thông tin gì để thực hiện chính xác?
A. Danh sách các từ dừng (stop words).
B. Thông tin về loại từ (Part-of-Speech) của mỗi từ.
C. Tần suất xuất hiện của mỗi từ.
D. Số lượng câu trong văn bản.
19. Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật nào thường được sử dụng để giảm số lượng từ vựng bằng cách nhóm các từ có gốc chung?
A. Tokenization
B. Stemming hoặc Lemmatization
C. Part-of-Speech Tagging
D. Named Entity Recognition
20. Trong các mô hình ngôn ngữ, ‘Positional Encoding’ được thêm vào đầu vào Embedding để làm gì?
A. Tăng cường biểu diễn ngữ nghĩa của từ.
B. Cung cấp thông tin về vị trí của từ trong chuỗi, vì các mô hình như Transformer không có tính tuần hoàn.
C. Loại bỏ các từ dừng.
D. Giảm số lượng tham số của mô hình.
21. Mô hình ngôn ngữ n-gram hoạt động dựa trên giả định nào?
A. Mỗi từ trong câu đều độc lập với các từ khác.
B. Xác suất của một từ chỉ phụ thuộc vào n-1 từ đứng ngay trước nó.
C. Ngữ nghĩa của câu chỉ phụ thuộc vào các từ khóa chính.
D. Tất cả các từ trong một đoạn văn đều có tần suất xuất hiện như nhau.
22. Transfomer là kiến trúc mạng nơ-ron nổi bật trong NLP, đặc trưng bởi việc sử dụng chủ yếu cơ chế nào?
A. Recurrent Neural Networks (RNNs)
B. Convolutional Neural Networks (CNNs)
C. Self-Attention mechanisms
D. Support Vector Machines (SVMs)
23. Trong xử lý ngôn ngữ tự nhiên, ‘Tokenization’ là bước đầu tiên để làm gì?
A. Chuyển đổi văn bản thành vector số.
B. Chia nhỏ văn bản thành các đơn vị nhỏ hơn như từ, cụm từ hoặc câu.
C. Loại bỏ các ký tự đặc biệt.
D. Phân tích cấu trúc ngữ pháp của câu.
24. Kỹ thuật ‘Text Classification’ trong NLP được ứng dụng để làm gì?
A. Tạo ra các đoạn văn mới có ý nghĩa.
B. Gán một hoặc nhiều nhãn (category) cho một đoạn văn bản.
C. Tìm kiếm các từ khóa liên quan trong tài liệu.
D. Phát hiện lỗi chính tả và ngữ pháp.
25. Kỹ thuật ‘Bag-of-Words’ (BoW) biểu diễn văn bản bằng cách nào?
A. Xem xét thứ tự từ và ngữ pháp của câu.
B. Tạo ra một vector mà mỗi chiều đại diện cho một từ duy nhất trong kho ngữ liệu, và giá trị là tần suất xuất hiện của từ đó.
C. Sử dụng mạng nơ-ron để học biểu diễn ngữ cảnh của từ.
D. Phân tích mối quan hệ ngữ nghĩa giữa các từ trong câu.
26. Mô hình Language Model (LM) được huấn luyện để làm gì?
A. Tạo ra hình ảnh từ mô tả văn bản.
B. Dự đoán xác suất của một chuỗi các từ hoặc dự đoán từ tiếp theo trong một chuỗi.
C. Phân tích cảm xúc của người dùng.
D. Tìm kiếm thông tin trên internet.
27. Trong Chatbot, ‘Entity Recognition’ (còn gọi là Slot Filling) có vai trò gì?
A. Hiểu ý định chung của người dùng.
B. Trích xuất các thông tin cụ thể, quan trọng (thực thể) từ câu nói của người dùng (ví dụ: tên món ăn, địa điểm, thời gian).
C. Tạo ra câu trả lời hoàn chỉnh.
D. Xác định cảm xúc của người dùng.
28. Khi sử dụng ‘TF-IDF’ (Term Frequency-Inverse Document Frequency) để đánh giá tầm quan trọng của một từ trong một tài liệu, ý nghĩa của ‘IDF’ là gì?
A. Tần suất xuất hiện của từ trong tài liệu đó.
B. Độ hiếm của từ đó trong toàn bộ tập hợp tài liệu (corpus).
C. Số lượng câu chứa từ đó.
D. Độ dài của tài liệu.
29. Trong các mô hình Generative Adversarial Networks (GANs) cho văn bản, vai trò của ‘Generator’ là gì?
A. Phát hiện văn bản giả mạo.
B. Tạo ra văn bản mới, giả lập văn bản thật.
C. Đánh giá chất lượng của văn bản được tạo ra.
D. Phân loại văn bản.
30. Trong các mô hình Sequence-to-Sequence (Seq2Seq), vai trò của ‘Encoder’ là gì?
A. Tạo ra chuỗi đầu ra dựa trên biểu diễn ngữ cảnh.
B. Chuyển đổi chuỗi đầu vào thành một biểu diễn ngữ cảnh (context vector) có chiều cố định.
C. Thực hiện dịch máy trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích.
D. Đánh giá chất lượng của chuỗi đầu ra.
31. Trong Machine Translation, khái niệm ‘BLEU score’ được dùng để làm gì?
A. Đo lường tốc độ xử lý của mô hình dịch.
B. Đánh giá chất lượng của bản dịch máy bằng cách so sánh với các bản dịch tham chiếu của con người.
C. Xác định số lượng từ mới trong văn bản gốc.
D. Đo lường độ phức tạp ngữ pháp của câu.
32. Kỹ thuật ‘Coreference Resolution’ tập trung vào việc xác định các biểu thức ngôn ngữ khác nhau đề cập đến cùng một đối tượng hoặc thực thể. Ví dụ: ‘An đi chơi. Cô ấy rất vui.’ ‘Cô ấy’ ở đây là gì?
A. Một từ đồng nghĩa.
B. Một thực thể được đặt tên.
C. Một đại từ tham chiếu đến ‘An’.
D. Một từ dừng.
33. Kỹ thuật ‘Zero-shot Relation Extraction’ cho phép mô hình làm gì?
A. Tìm tất cả các mối quan hệ trong văn bản.
B. Xác định các mối quan hệ giữa các thực thể mà không cần ví dụ huấn luyện cụ thể cho mối quan hệ đó.
C. Dự đoán loại mối quan hệ dựa trên tần suất xuất hiện.
D. Tạo ra các thực thể mới trong văn bản.
34. Trong quá trình tiền xử lý văn bản, bước ‘Stop words removal’ có mục đích gì?
A. Thay thế các từ hiếm bằng các từ phổ biến hơn.
B. Loại bỏ các từ có tần suất xuất hiện rất cao nhưng ít mang ý nghĩa phân biệt (ví dụ: ‘là’, ‘của’, ‘và’).
C. Chuyển tất cả các từ về dạng chữ thường.
D. Phân loại các từ theo loại từ (danh từ, động từ, tính từ,…).
35. Kỹ thuật ‘Word Sense Disambiguation’ (WSD) nhằm mục đích gì?
A. Dịch nghĩa của từ.
B. Xác định nghĩa chính xác của một từ khi nó có nhiều nghĩa (polysemy) dựa trên ngữ cảnh.
C. Tìm các từ đồng nghĩa.
D. Đo lường mức độ phổ biến của từ.
36. Kỹ thuật ‘Data Augmentation’ trong NLP có thể bao gồm những hành động nào để tăng cường tập dữ liệu?
A. Giảm số lượng từ trong câu.
B. Thay thế từ đồng nghĩa, hoán vị từ, hoặc thêm nhiễu ngẫu nhiên.
C. Loại bỏ tất cả các câu bị sai ngữ pháp.
D. Chỉ sử dụng văn bản gốc.
37. Trong các mô hình sinh văn bản, ‘Beam Search’ là một chiến lược giải mã nhằm mục đích gì?
A. Đảm bảo câu trả lời là duy nhất.
B. Tìm kiếm chuỗi từ có xác suất cao nhất, bằng cách giữ lại một số ‘ứng cử viên’ tốt nhất tại mỗi bước.
C. Giảm thiểu thời gian xử lý của mô hình.
D. Loại bỏ các từ không liên quan.
38. Kỹ thuật ‘Evaluation Metrics’ trong NLP dùng để làm gì?
A. Tạo ra dữ liệu huấn luyện.
B. Đo lường và đánh giá hiệu suất của các mô hình NLP trên các tác vụ cụ thể.
C. Tiền xử lý văn bản.
D. Thiết kế kiến trúc mạng nơ-ron.
39. Kỹ thuật ‘Part-of-Speech Tagging’ (POS Tagging) gán nhãn cho mỗi từ trong câu theo loại từ của nó. Ví dụ: ‘Nhà’ có thể được gán nhãn là gì?
A. Động từ (Verb)
B. Trạng từ (Adverb)
C. Danh từ (Noun)
D. Giới từ (Preposition)
40. Cú pháp ‘Query, Key, Value’ là khái niệm cốt lõi trong cơ chế nào của Transformer?
A. Feed-Forward Networks
B. Positional Encoding
C. Self-Attention
D. Layer Normalization
41. Trong mô hình ngôn ngữ, perplexity là một thước đo để đánh giá điều gì?
A. Khả năng dịch máy của mô hình
B. Độ phức tạp và khả năng dự đoán của mô hình trên một tập dữ liệu mới
C. Số lượng từ vựng mà mô hình có thể xử lý
D. Tốc độ xử lý của mô hình
42. TF-IDF (Term Frequency-Inverse Document Frequency) là một phương pháp được sử dụng để làm gì trong NLP?
A. Chuẩn hóa từ bằng cách loại bỏ hậu tố.
B. Đo lường tầm quan trọng của một từ trong một tài liệu cụ thể so với toàn bộ tập tài liệu.
C. Tạo ra các vector nhúng cho từ.
D. Phân tích cấu trúc ngữ pháp của câu.
43. Trong các mô hình ngôn ngữ, ‘Fine-tuning’ (tinh chỉnh) là quá trình gì?
A. Huấn luyện mô hình từ đầu trên một tập dữ liệu mới.
B. Điều chỉnh các tham số của một mô hình đã được huấn luyện trước (pre-trained model) trên một tập dữ liệu cụ thể cho một tác vụ mới.
C. Loại bỏ các từ dừng khỏi văn bản.
D. Tạo ra các vector nhúng từ.
44. Kỹ thuật ‘Question Answering’ (QA) trong NLP có mục tiêu chính là gì?
A. Tạo ra các câu trả lời tự động cho các câu hỏi được đặt ra, dựa trên một nguồn kiến thức hoặc văn bản.
B. Phân loại các câu hỏi theo chủ đề.
C. Dịch câu hỏi từ ngôn ngữ này sang ngôn ngữ khác.
D. Tóm tắt nội dung của câu hỏi.
45. Trong kỹ thuật ‘Word Embedding’, mô hình Word2Vec sử dụng kiến trúc nào để học biểu diễn từ?
A. Mạng nơ-ron tích chập (CNN).
B. Mạng nơ-ron hồi quy (RNN) hoặc kiến trúc Skip-gram/CBOW.
C. Mô hình Bag-of-Words.
D. Mô hình Transformer với Self-Attention.
46. Trong các mô hình Transformer, ‘Multi-Head Attention’ mang lại lợi ích gì so với ‘Single-Head Attention’?
A. Chỉ tập trung vào mối quan hệ giữa hai từ.
B. Cho phép mô hình cùng lúc học các biểu diễn phụ thuộc khác nhau từ các không gian con khác nhau của biểu diễn đầu vào, giúp nắm bắt nhiều khía cạnh ngữ cảnh hơn.
C. Giảm kích thước của vector đầu vào.
D. Tăng tốc độ xử lý của mô hình.
47. Trong lĩnh vực phân tích cảm xúc (Sentiment Analysis), mô hình sẽ phân loại văn bản thuộc về các loại cảm xúc nào sau đây?
A. Ngữ pháp, cú pháp, ngữ nghĩa
B. Tích cực, tiêu cực, trung tính
C. Chủ đề, từ khóa, thực thể
D. Độ dài câu, cấu trúc câu, loại từ
48. Kỹ thuật ‘Text Summarization’ trong NLP có thể được chia thành hai loại chính dựa trên cách tiếp cận, đó là gì?
A. Tóm tắt theo chủ đề và tóm tắt theo thực thể.
B. Tóm tắt khai thác (Extractive) và tóm tắt trừu tượng (Abstractive).
C. Tóm tắt thống kê và tóm tắt dựa trên quy tắc.
D. Tóm tắt theo câu và tóm tắt theo đoạn.
49. Trong các mô hình ngôn ngữ, ‘BERT’ (Bidirectional Encoder Representations from Transformers) nổi bật với việc sử dụng phương pháp huấn luyện nào để hiểu ngữ cảnh hai chiều?
A. Chỉ huấn luyện theo chiều từ trái sang phải.
B. Masked Language Model (MLM) và Next Sentence Prediction (NSP).
C. Bag-of-Words.
D. Topic Modeling.
50. Kỹ thuật ‘Text Entailment’ (hoặc Natural Language Inference – NLI) trong NLP là gì?
A. Dự đoán từ tiếp theo trong một câu.
B. Xác định xem một câu (giả thuyết – hypothesis) có suy ra được một cách logic từ một câu khác (tiền đề – premise) hay không (ví dụ: entailment, contradiction, neutral).
C. Phân loại cảm xúc của câu.
D. Tóm tắt nội dung của văn bản.
51. Kỹ thuật ‘Natural Language Generation’ (NLG) là gì?
A. Phân tích cấu trúc ngữ pháp của câu.
B. Chuyển đổi văn bản thành giọng nói.
C. Quá trình tạo ra văn bản tự nhiên từ dữ liệu có cấu trúc hoặc phi cấu trúc.
D. Xác định thực thể có tên trong văn bản.
52. Trong các mô hình ‘Attention’, ‘Attention Score’ được tính toán như thế nào?
A. Bằng cách cộng trực tiếp các vector từ và ngữ cảnh.
B. Thông qua một hàm đo lường sự tương đồng (ví dụ: dot product, cosine similarity) giữa vector truy vấn (query) và vector khóa (key).
C. Bằng cách loại bỏ các từ dừng.
D. Bằng cách đếm tần suất của từ trong câu.
53. Khi xây dựng mô hình dịch máy, perplexity của mô hình trên tập dữ liệu kiểm tra là một chỉ số quan trọng để đánh giá điều gì?
A. Tốc độ dịch của mô hình.
B. Độ chính xác và khả năng dự đoán của mô hình trong việc sinh ra câu dịch.
C. Số lượng cặp ngôn ngữ mà mô hình có thể xử lý.
D. Khả năng xử lý các từ vựng hiếm gặp.
54. Kỹ thuật ‘Named Entity Linking’ (NEL) khác với ‘Named Entity Recognition’ (NER) ở điểm nào?
A. NER xác định thực thể, NEL xác định cảm xúc.
B. NER chỉ xác định vị trí và loại thực thể, còn NEL còn liên kết thực thể đó với một mục nhập duy nhất trong một cơ sở tri thức (ví dụ: Wikipedia).
C. NER sử dụng word embedding, NEL sử dụng TF-IDF.
D. NEL chỉ áp dụng cho tên người, NER cho tất cả loại thực thể.
55. Kỹ thuật ‘Bag-of-Words’ (BoW) biểu diễn văn bản bằng cách nào?
A. Tạo ra một chuỗi các từ theo thứ tự xuất hiện.
B. Xác định tần suất xuất hiện của mỗi từ trong từ điển trên toàn bộ tập văn bản, bỏ qua thứ tự và cấu trúc ngữ pháp.
C. Biểu diễn văn bản dưới dạng vector với trọng số TF-IDF.
D. Sử dụng word embedding để tạo vector ngữ cảnh cho mỗi từ.
56. Kỹ thuật ‘Information Extraction’ (IE) tập trung vào việc gì?
A. Tạo ra các câu hỏi từ một văn bản.
B. Trích xuất các thông tin có cấu trúc (ví dụ: mối quan hệ, sự kiện) từ văn bản phi cấu trúc hoặc bán cấu trúc.
C. Đánh giá mức độ tin cậy của thông tin.
D. Biểu diễn ngữ nghĩa của câu.
57. Kỹ thuật ‘Relation Extraction’ (RE) trong NLP tập trung vào việc gì?
A. Phân loại văn bản theo chủ đề.
B. Xác định các mối quan hệ ngữ nghĩa giữa các thực thể có tên trong văn bản (ví dụ: ‘CEO của’ giữa người và công ty).
C. Tạo ra các câu trả lời cho câu hỏi.
D. Tóm tắt nội dung của văn bản.
58. Kỹ thuật ‘Intent Recognition’ trong NLP thường được sử dụng trong lĩnh vực nào?
A. Dịch máy.
B. Xây dựng trợ lý ảo hoặc chatbot, để hiểu mục đích hoặc ý định của người dùng khi đặt câu hỏi hoặc đưa ra yêu cầu.
C. Phân tích cảm xúc.
D. Tóm tắt văn bản.
59. Kỹ thuật ‘Zero-shot Learning’ trong NLP cho phép mô hình làm gì?
A. Chỉ có thể thực hiện các tác vụ đã được huấn luyện cụ thể.
B. Thực hiện một tác vụ mới hoặc nhận dạng các lớp mới mà không cần dữ liệu huấn luyện cụ thể cho tác vụ/lớp đó.
C. Yêu cầu lượng lớn dữ liệu gán nhãn cho mọi tác vụ.
D. Chỉ hoạt động với các mô hình RNN.
60. Kỹ thuật ‘Topic Modeling’ như Latent Dirichlet Allocation (LDA) được sử dụng để làm gì trong NLP?
A. Phân tích cấu trúc cú pháp của câu.
B. Dự đoán từ tiếp theo trong một chuỗi.
C. Khám phá các chủ đề tiềm ẩn hoặc trừu tượng trong một tập hợp lớn các tài liệu.
D. Xác định các thực thể có tên trong văn bản.
61. Trong các mô hình ngôn ngữ, ‘Bi-directional RNNs’ (như Bi-LSTM) có lợi thế gì so với ‘Uni-directional RNNs’?
A. Chỉ xử lý thông tin từ quá khứ.
B. Có thể nắm bắt ngữ cảnh từ cả hai phía (trước và sau) của một từ trong chuỗi.
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Tốc độ xử lý nhanh hơn.
62. Trong các mô hình Transformer, ‘Encoder-Decoder’ architecture (kiến trúc Mã hóa-Giải mã) thường được sử dụng cho tác vụ nào sau đây?
A. Phân loại văn bản.
B. Tạo ra chuỗi đầu ra từ chuỗi đầu vào (ví dụ: dịch máy, tóm tắt văn bản).
C. Xác định thực thể có tên.
D. Phân tích cảm xúc.
63. Kỹ thuật nào trong NLP thường được dùng để loại bỏ các từ phổ biến nhưng ít mang ý nghĩa quan trọng (ví dụ: ‘và’, ‘là’, ‘của’) khỏi văn bản?
A. Stemming
B. Stop Word Removal
C. Lemmatization
D. Tokenization
64. Kỹ thuật ‘Named Entity Recognition’ (NER) trong NLP có mục đích chính là gì?
A. Phân tích cấu trúc ngữ pháp của câu
B. Phân loại cảm xúc của văn bản
C. Xác định và phân loại các thực thể có tên như người, tổ chức, địa điểm trong văn bản
D. Tóm tắt nội dung chính của một đoạn văn
65. Trong các mô hình seq2seq (sequence-to-sequence), vai trò của ‘Encoder’ là gì?
A. Tạo ra chuỗi đầu ra từ vector ngữ cảnh.
B. Chuyển đổi chuỗi đầu vào thành một vector ngữ cảnh (context vector) cố định.
C. Xác định các thực thể có tên trong chuỗi đầu vào.
D. Phân tích cảm xúc của chuỗi đầu vào.
66. Kỹ thuật ‘Text Classification’ trong NLP dùng để làm gì?
A. Tạo ra các đoạn văn mới.
B. Phân loại một văn bản vào một hoặc nhiều danh mục định trước (ví dụ: spam/không spam, tin tức thể thao/chính trị).
C. Trích xuất các thực thể có tên.
D. Tóm tắt nội dung của văn bản.
67. Trong các mô hình ngôn ngữ, ‘Tokenization’ là bước đầu tiên và quan trọng để làm gì?
A. Tạo ra vector nhúng cho từ.
B. Chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ (tokens), để máy tính có thể xử lý.
C. Phân tích cấu trúc ngữ pháp.
D. Xác định thực thể có tên.
68. Trong các mô hình Transformer, ‘Self-Attention’ đóng vai trò gì?
A. Giúp mô hình chỉ tập trung vào một từ duy nhất trong câu.
B. Cho phép mô hình xem xét các từ khác nhau trong câu đầu vào và gán trọng số khác nhau cho chúng khi xử lý một từ cụ thể, giúp nắm bắt ngữ cảnh.
C. Chỉ xử lý thông tin theo trình tự tuyến tính từ trái sang phải.
D. Loại bỏ tất cả các từ dừng (stop words) khỏi câu.
69. Trong các mô hình ngôn ngữ dựa trên mạng nơ-ron, tại sao việc sử dụng các mô hình RNN hoặc LSTM lại phổ biến hơn so với các mô hình chỉ dựa trên Bag-of-Words cho các tác vụ đòi hỏi hiểu ngữ cảnh?
A. RNN/LSTM xử lý văn bản nhanh hơn BoW.
B. RNN/LSTM có khả năng nắm bắt thứ tự và phụ thuộc tuần tự giữa các từ, điều mà BoW bỏ qua.
C. BoW có khả năng tạo ra vector nhúng từ tốt hơn.
D. RNN/LSTM chỉ phù hợp cho việc phân loại văn bản, không cho các tác vụ khác.
70. Trong các mô hình Transformer, cơ chế ‘Positional Encoding’ được sử dụng để làm gì?
A. Giúp mô hình phân biệt các từ giống nhau nhưng có ý nghĩa khác nhau.
B. Cung cấp thông tin về vị trí hoặc thứ tự của các từ trong chuỗi đầu vào, vì cơ chế Self-Attention không tự nhiên xử lý thứ tự.
C. Loại bỏ các từ dừng khỏi văn bản.
D. Tăng cường khả năng phân tích ngữ nghĩa của các từ.
71. Kỹ thuật ‘Text Generation’ trong NLP liên quan đến việc gì?
A. Phân loại văn bản thành các chủ đề.
B. Tóm tắt một văn bản dài thành một văn bản ngắn hơn.
C. Tạo ra văn bản mới, mạch lạc và có ý nghĩa dựa trên một đầu vào hoặc ngữ cảnh nhất định.
D. Trích xuất thông tin từ văn bản.
72. Quá trình chuyển đổi văn bản thành các vector số học sao cho các từ hoặc câu có ý nghĩa tương tự nhau sẽ có biểu diễn vector gần nhau trong không gian đa chiều được gọi là gì?
A. Tokenization
B. Stemming
C. Word Embedding
D. Lemmatization
73. Trong Xử lý Ngôn ngữ Tự nhiên (NLP), kỹ thuật nào được sử dụng để xác định mối quan hệ ngữ nghĩa giữa các từ trong một câu, ví dụ như chủ thể, động từ, tân ngữ?
A. Phân tích ngữ nghĩa (Semantic Parsing)
B. Nhận dạng thực thể có tên (Named Entity Recognition – NER)
C. Gán nhãn từ loại (Part-of-Speech Tagging – POS Tagging)
D. Phân tích phụ thuộc (Dependency Parsing)
74. Kỹ thuật ‘Machine Translation’ (MT) sử dụng NLP để làm gì?
A. Tóm tắt văn bản tự động.
B. Chuyển đổi văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích.
C. Phân loại cảm xúc của văn bản.
D. Nhận dạng giọng nói.
75. Trong các mô hình ngôn ngữ, ‘Word Sense Disambiguation’ (WSD) là quá trình gì?
A. Xác định nghĩa của một từ dựa trên ngữ cảnh khi từ đó có nhiều nghĩa.
B. Phân loại văn bản theo chủ đề.
C. Loại bỏ các từ dừng khỏi văn bản.
D. Chuẩn hóa từ về dạng gốc.
76. Kỹ thuật ‘Coreference Resolution’ trong NLP nhằm mục đích gì?
A. Xác định các từ đồng nghĩa trong văn bản.
B. Xác định các từ hoặc cụm từ trong văn bản đề cập đến cùng một thực thể (ví dụ: ‘ông ấy’ thay cho ‘Nguyễn Văn A’).
C. Phân tích cấu trúc ngữ pháp của câu.
D. Tạo ra các từ vựng mới.
77. Kỹ thuật ‘Speech Recognition’ (Nhận dạng giọng nói) trong NLP liên quan đến việc gì?
A. Tạo ra giọng nói từ văn bản.
B. Chuyển đổi lời nói thành văn bản.
C. Phân tích cảm xúc trong giọng nói.
D. Nhận dạng các thực thể trong âm thanh.
78. Trong các mô hình ngôn ngữ, ‘Embeddings’ (như GloVe, FastText) có ưu điểm gì so với các phương pháp biểu diễn từ truyền thống như Bag-of-Words?
A. Embeddings bỏ qua hoàn toàn ngữ cảnh của từ.
B. Embeddings có khả năng nắm bắt mối quan hệ ngữ nghĩa và cú pháp giữa các từ, biểu diễn từ dưới dạng vector dày đặc, có ý nghĩa.
C. Embeddings yêu cầu ít dữ liệu huấn luyện hơn.
D. Embeddings không xử lý được các từ đồng âm khác nghĩa.
79. Trong các mô hình ngôn ngữ, ‘Batch Size’ (kích thước lô) ảnh hưởng đến quá trình huấn luyện như thế nào?
A. Chỉ ảnh hưởng đến bộ nhớ sử dụng, không ảnh hưởng đến tốc độ học.
B. Ảnh hưởng đến độ chính xác của gradient ước lượng và tốc độ hội tụ của mô hình.
C. Chỉ ảnh hưởng đến số lượng epoch cần thiết.
D. Không ảnh hưởng đến quá trình học.
80. Stemming và Lemmatization đều là các kỹ thuật chuẩn hóa từ, nhưng điểm khác biệt cốt lõi giữa chúng là gì?
A. Stemming loại bỏ tiền tố, Lemmatization loại bỏ hậu tố.
B. Stemming cắt bỏ phần cuối của từ để đưa về dạng gốc (thường không phải từ có nghĩa), Lemmatization đưa từ về dạng từ điển (có nghĩa).
C. Lemmatization chỉ áp dụng cho danh từ, Stemming cho động từ.
D. Stemming sử dụng từ điển, Lemmatization dựa trên quy tắc heuristic.
81. Khái niệm ‘Topic Modeling’ (Mô hình hóa Chủ đề) trong NLP nhằm mục đích gì?
A. Khám phá các chủ đề trừu tượng tiềm ẩn trong một tập hợp các tài liệu.
B. Xác định cảm xúc của người viết.
C. Nhận diện các thực thể quan trọng.
D. Dịch văn bản sang ngôn ngữ khác.
82. Kỹ thuật ‘Named Entity Recognition’ (NER) trong NLP có nhiệm vụ gì?
A. Xác định và phân loại các thực thể được đặt tên trong văn bản thành các loại như tên người, tổ chức, địa điểm, ngày tháng.
B. Dịch văn bản sang ngôn ngữ khác.
C. Tạo ra các câu mới tương tự với văn bản gốc.
D. Tìm kiếm các mối quan hệ giữa các câu trong một đoạn văn.
83. Trong NLP, ‘Question Answering’ (Trả lời Câu hỏi) là một lĩnh vực tập trung vào việc gì?
A. Xây dựng hệ thống có khả năng hiểu câu hỏi của người dùng và cung cấp câu trả lời chính xác từ một kho kiến thức hoặc văn bản.
B. Tạo ra các câu hỏi mới dựa trên một văn bản cho trước.
C. Đánh giá chất lượng của một câu trả lời.
D. Phân loại các loại câu hỏi (ví dụ: câu hỏi ‘Ai’, ‘Cái gì’, ‘Khi nào’).
84. Trong các kỹ thuật ‘Information Retrieval’ (Truy vấn Thông tin), mô hình ‘BM25’ (Best Matching 25) được sử dụng để làm gì?
A. Xếp hạng mức độ liên quan của các tài liệu với một truy vấn tìm kiếm.
B. Tạo ra các câu trả lời cho câu hỏi.
C. Phân tích cảm xúc của người dùng.
D. Tóm tắt nội dung của các tài liệu.
85. Mô hình ‘BERT’ sử dụng phương pháp huấn luyện ‘Masked Language Model’ (MLM) để làm gì?
A. Học biểu diễn ngữ cảnh hai chiều bằng cách dự đoán các từ bị che (mask) trong câu.
B. Tạo ra các câu mới tương tự câu gốc.
C. Phân loại văn bản theo chủ đề.
D. Xác định các thực thể được đặt tên.
86. Khái niệm ‘Word Sense Disambiguation’ (WSD) trong NLP nhằm mục đích gì?
A. Xác định nghĩa chính xác của một từ khi nó có nhiều nghĩa (polysemy) dựa trên ngữ cảnh.
B. Loại bỏ các từ không có nghĩa trong văn bản.
C. Tạo ra các vector từ.
D. Phân loại các loại từ (Part-of-Speech).
87. Mô hình ‘Generative Adversarial Network’ (GAN) có thể được ứng dụng trong NLP như thế nào?
A. Sinh văn bản mới, tạo dữ liệu tổng hợp, hoặc cải thiện chất lượng dịch máy.
B. Chỉ dùng cho nhận diện hình ảnh.
C. Phân tích cấu trúc ngữ pháp.
D. Xếp hạng mức độ liên quan của tài liệu.
88. Trong lĩnh vực ‘Speech Recognition’ (Nhận dạng Giọng nói), ‘Phonemes’ (Ngữ âm vị) là gì?
A. Các đơn vị âm thanh nhỏ nhất phân biệt ý nghĩa trong một ngôn ngữ.
B. Các từ được nói ra.
C. Các câu và đoạn hội thoại.
D. Các ký tự trong bảng chữ cái.
89. Trong Xử lý Ngôn ngữ Tự nhiên (NLP), khái niệm ‘tokenization’ đề cập đến quá trình nào?
A. Phân tách văn bản thành các đơn vị nhỏ hơn như từ, dấu câu, hoặc các đơn vị ngôn ngữ khác.
B. Chuyển đổi văn bản sang dạng số để máy tính có thể xử lý.
C. Xác định mối quan hệ ngữ pháp giữa các từ trong câu.
D. Loại bỏ các từ không mang nhiều ý nghĩa như ‘là’, ‘và’, ‘nhưng’.
90. Mô hình ‘GloVe’ (Global Vectors for Word Representation) khác với ‘Word2Vec’ ở điểm nào?
A. GloVe được huấn luyện dựa trên ma trận đồng xuất hiện của các từ trên toàn bộ tập dữ liệu, trong khi Word2Vec dựa trên ngữ cảnh cục bộ của từng từ.
B. GloVe chỉ tạo ra vector cho các từ, còn Word2Vec tạo vector cho cả câu.
C. Word2Vec sử dụng ma trận đồng xuất hiện, còn GloVe sử dụng ngữ cảnh cục bộ.
D. GloVe chỉ có thể xử lý các ngôn ngữ có cấu trúc ngữ pháp đơn giản.
91. Phương pháp ‘Stemming’ trong NLP nhằm mục đích gì?
A. Đưa các từ về dạng nguyên thể hoặc gốc của chúng, bỏ qua các hậu tố (ví dụ: ‘running’ -> ‘run’).
B. Tìm kiếm các từ đồng nghĩa hoặc có liên quan ngữ nghĩa.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Chuyển đổi tất cả các từ về dạng viết thường.
92. Mô hình ‘BERT’ (Bidirectional Encoder Representations from Transformers) nổi bật với khả năng gì?
A. Sử dụng cách tiếp cận hai chiều (bidirectional) để hiểu ngữ cảnh của từ, xem xét cả các từ đứng trước và đứng sau nó.
B. Chỉ xử lý văn bản theo một chiều từ trái sang phải.
C. Tập trung vào việc sinh văn bản sáng tạo.
D. Yêu cầu ít dữ liệu huấn luyện hơn tất cả các mô hình trước đó.
93. Khái niệm ‘Zero-shot Learning’ trong NLP đề cập đến khả năng gì của mô hình?
A. Thực hiện một tác vụ mới mà không cần huấn luyện trên bất kỳ dữ liệu mẫu nào của tác vụ đó.
B. Chỉ hoạt động với các tác vụ đã được huấn luyện trước đó.
C. Yêu cầu lượng dữ liệu huấn luyện khổng lồ cho mọi tác vụ.
D. Tạo ra các biểu diễn vector cho từ.
94. Trong các mô hình sinh văn bản, ‘Text Generation’ (Sinh Văn bản) có thể được ứng dụng vào việc gì?
A. Viết email, sáng tác thơ, viết mã lập trình, hoặc tạo ra các đoạn hội thoại.
B. Chỉ phân tích ý nghĩa của văn bản.
C. Xác định các thực thể được đặt tên.
D. Loại bỏ các từ không cần thiết.
95. Trong ‘Machine Translation’ (Dịch máy), ‘BLEU score’ là thước đo dùng để đánh giá gì?
A. Mức độ tương đồng giữa văn bản dịch máy và các bản dịch tham chiếu của con người, dựa trên sự trùng lặp của các n-gram.
B. Tốc độ xử lý của mô hình dịch máy.
C. Độ chính xác của nhận diện thực thể trong văn bản dịch.
D. Khả năng của mô hình trong việc hiểu ngữ cảnh hai chiều.
96. Mô hình ‘Transformer-XL’ cải tiến so với ‘Transformer’ gốc bằng cách nào?
A. Giới thiệu cơ chế ‘segment-level recurrence’ và ‘relative positional encoding’ để xử lý các phụ thuộc ngữ cảnh dài hơn.
B. Chỉ tập trung vào việc giảm số lượng tham số.
C. Loại bỏ hoàn toàn cơ chế attention.
D. Yêu cầu ít dữ liệu hơn đáng kể.
97. Khái niệm ‘Low-resource Languages’ (Ngôn ngữ Ít Tài nguyên) trong NLP đề cập đến các ngôn ngữ có đặc điểm gì?
A. Ít dữ liệu văn bản, tài nguyên xử lý (ví dụ: từ điển, corpus được gán nhãn) sẵn có để huấn luyện mô hình.
B. Có nhiều dữ liệu văn bản nhưng ít tài nguyên xử lý.
C. Chỉ có tài nguyên xử lý nhưng ít dữ liệu văn bản.
D. Cấu trúc ngữ pháp rất phức tạp.
98. Phương pháp ‘Bag of Words’ (BoW) biểu diễn văn bản như thế nào?
A. Biểu diễn văn bản dưới dạng một tập hợp các từ (bag) mà không quan tâm đến thứ tự xuất hiện của chúng, chỉ đếm tần suất xuất hiện.
B. Tạo ra một vector mà mỗi chiều tương ứng với một từ trong toàn bộ tập dữ liệu, giá trị là tần suất của từ đó trong văn bản.
C. Biểu diễn văn bản dưới dạng một chuỗi các từ theo đúng thứ tự xuất hiện.
D. Sử dụng các từ điển ngữ nghĩa để gán trọng số cho từng từ dựa trên ý nghĩa của chúng.
99. Mô hình ‘Transformer’, với kiến trúc ‘Self-Attention’, đã cách mạng hóa NLP như thế nào?
A. Cho phép mô hình xử lý song song các phần của chuỗi đầu vào, nắm bắt mối quan hệ xa giữa các từ hiệu quả hơn các mô hình RNN/LSTM truyền thống.
B. Chỉ hiệu quả với các câu ngắn.
C. Yêu cầu ít dữ liệu huấn luyện hơn so với các mô hình trước đó.
D. Phù hợp chủ yếu cho phân tích cảm xúc.
100. Trong các kỹ thuật đánh giá mô hình NLP, chỉ số ‘F1-score’ đo lường điều gì?
A. Trung bình điều hòa (harmonic mean) của Precision và Recall, cân bằng giữa việc tìm đúng tất cả các trường hợp và việc chỉ chọn các trường hợp đúng.
B. Tỷ lệ các mẫu được phân loại đúng trên tổng số mẫu.
C. Tỷ lệ các mẫu dương được dự đoán đúng trên tổng số mẫu dương thực tế.
D. Tỷ lệ các mẫu âm được dự đoán đúng trên tổng số mẫu âm thực tế.
101. Mô hình ‘SeqLabeling’ (Gán nhãn Chuỗi) thường được sử dụng cho các tác vụ NLP nào?
A. Named Entity Recognition (NER) và Part-of-Speech Tagging (POS Tagging).
B. Dịch máy và tóm tắt văn bản.
C. Phân tích cảm xúc và phân loại văn bản.
D. Tạo văn bản và trả lời câu hỏi.
102. Trong lĩnh vực ‘Sentiment Analysis’ (Phân tích Cảm xúc), mục tiêu chính là gì?
A. Xác định thái độ, ý kiến hoặc cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.
B. Tóm tắt nội dung chính của văn bản.
C. Phân loại văn bản theo chủ đề.
D. Nhận diện các thực thể được đặt tên (Named Entities).
103. Vector hóa văn bản (Text Vectorization) là gì và tại sao nó quan trọng trong NLP?
A. Chuyển đổi văn bản thành các biểu diễn số (vector) để các thuật toán học máy có thể xử lý.
B. Tạo ra các câu tóm tắt ngắn gọn cho văn bản.
C. Phân loại văn bản vào các chủ đề khác nhau.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
104. Khái niệm ‘Retrieval-Augmented Generation’ (RAG) kết hợp những phương pháp nào để cải thiện việc sinh văn bản?
A. Kết hợp mô hình sinh văn bản với một hệ thống truy xuất thông tin để tìm kiếm dữ liệu liên quan trước khi sinh câu trả lời.
B. Chỉ sử dụng mô hình sinh văn bản.
C. Chỉ sử dụng hệ thống truy xuất thông tin.
D. Tập trung vào việc loại bỏ các từ không có nghĩa.
105. Trong hệ thống ‘Chatbot’, ‘Natural Language Understanding’ (NLU) bao gồm những thành phần chính nào?
A. Nhận diện ý định (Intent Recognition) và Trích xuất thực thể (Entity Extraction).
B. Sinh văn bản và Tóm tắt văn bản.
C. Phân tích cảm xúc và Mô hình hóa chủ đề.
D. Dịch máy và Trả lời câu hỏi.
106. Trong mô hình dịch máy, ‘Attention Mechanism’ (Cơ chế Chú ý) đóng vai trò gì?
A. Cho phép mô hình tập trung vào các phần quan trọng nhất của câu đầu vào khi tạo ra từng từ của câu đầu ra.
B. Loại bỏ các từ không liên quan trong câu đầu vào.
C. Tăng tốc độ huấn luyện mô hình dịch máy.
D. Chỉ sử dụng cho các cặp ngôn ngữ có ngữ pháp tương đồng.
107. Mô hình ‘Sequence-to-Sequence’ (Seq2Seq) thường được sử dụng cho các tác vụ nào trong NLP?
A. Các tác vụ yêu cầu chuyển đổi một chuỗi đầu vào thành một chuỗi đầu ra, ví dụ như dịch máy, tóm tắt văn bản, sinh văn bản.
B. Phân loại văn bản, ví dụ như phân tích cảm xúc.
C. Nhận diện thực thể được đặt tên.
D. Tạo biểu đồ mối quan hệ giữa các từ.
108. Khái niệm ‘Data Augmentation’ (Tăng cường Dữ liệu) trong NLP áp dụng cho các mô hình học sâu như thế nào?
A. Tạo ra các biến thể mới của dữ liệu huấn luyện hiện có (ví dụ: thay thế từ đồng nghĩa, chỉnh sửa cú pháp nhẹ) để tăng số lượng và sự đa dạng của dữ liệu.
B. Xóa bỏ các từ không quan trọng khỏi dữ liệu.
C. Chỉ sử dụng các mô hình đã được huấn luyện trước.
D. Giảm kích thước của mô hình.
109. Trong xử lý ngôn ngữ tự nhiên, ‘Coreference Resolution’ (Giải quyết Đồng quy chiếu) là gì?
A. Xác định các biểu thức ngôn ngữ (ví dụ: đại từ, danh từ riêng) trong văn bản mà chúng cùng đề cập đến một thực thể duy nhất.
B. Phân loại các câu dựa trên ý nghĩa của chúng.
C. Tóm tắt nội dung của đoạn văn.
D. Dịch văn bản từ tiếng Việt sang tiếng Anh.
110. Khái niệm ‘Stop Words’ trong xử lý văn bản đề cập đến loại từ nào?
A. Các từ xuất hiện với tần suất rất thấp trong một tập văn bản, thường không mang nhiều thông tin.
B. Các từ được sử dụng phổ biến nhất trong ngôn ngữ, thường là các từ chức năng như mạo từ, giới từ, liên từ.
C. Các từ khóa quan trọng nhất trong một tài liệu.
D. Các từ chuyên ngành trong một lĩnh vực cụ thể.
111. Mô hình ‘GPT-3’ (Generative Pre-trained Transformer 3) có đặc điểm nào nổi bật so với các mô hình trước đó?
A. Quy mô rất lớn (175 tỷ tham số), khả năng thực hiện nhiều tác vụ chỉ với vài ví dụ đầu vào (few-shot learning) mà không cần fine-tuning.
B. Chỉ tập trung vào việc tạo ra các câu có ngữ pháp sai.
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Không có khả năng sinh văn bản sáng tạo.
112. Mô hình ‘BERT’ có thể được sử dụng để thực hiện tác vụ ‘Text Classification’ (Phân loại Văn bản) bằng cách nào?
A. Thêm một lớp phân loại (classification layer) lên trên biểu diễn của token ‘[CLS]’ sau khi BERT đã xử lý văn bản.
B. Chỉ sử dụng biểu diễn của các từ riêng lẻ.
C. Yêu cầu mô hình tạo ra một bản tóm tắt.
D. Sử dụng cơ chế chú ý trên toàn bộ câu.
113. Khái niệm ‘Text Summarization’ (Tóm tắt Văn bản) bao gồm những loại chính nào?
A. Tóm tắt chiết xuất (Extractive) và tóm tắt trừu tượng (Abstractive).
B. Tóm tắt theo chủ đề và tóm tắt theo câu.
C. Tóm tắt đơn ngữ và tóm tắt đa ngữ.
D. Tóm tắt từ điển và tóm tắt ngữ pháp.
114. Khái niệm ‘Fine-tuning’ (tinh chỉnh) trong NLP áp dụng cho các mô hình đã được huấn luyện trước (pre-trained models) như thế nào?
A. Huấn luyện thêm mô hình trên một tập dữ liệu nhỏ hơn, có gán nhãn, cho một tác vụ NLP cụ thể.
B. Huấn luyện mô hình từ đầu với một kiến trúc khác.
C. Giảm kích thước của mô hình đã huấn luyện trước.
D. Chỉ sửa đổi các tham số của lớp đầu ra.
115. Mô hình ‘Latent Semantic Analysis’ (LSA) sử dụng kỹ thuật gì để phân tích mối quan hệ giữa các từ và tài liệu?
A. Phân tích thành phần chính số ít (Singular Value Decomposition – SVD) trên ma trận tần suất từ-tài liệu.
B. Mô hình hóa chủ đề dựa trên phân phối xác suất.
C. Cơ chế chú ý (Attention Mechanism).
D. Mạng nơ-ron hồi quy (Recurrent Neural Network).
116. Ưu điểm chính của mô hình ‘TF-IDF’ (Term Frequency-Inverse Document Frequency) trong việc biểu diễn văn bản là gì?
A. Đánh trọng số cho các từ dựa trên tần suất xuất hiện trong một tài liệu và mức độ hiếm của chúng trong toàn bộ tập tài liệu.
B. Tập trung vào thứ tự xuất hiện của các từ để hiểu ngữ cảnh.
C. Biểu diễn mối quan hệ ngữ nghĩa giữa các từ.
D. Chỉ sử dụng tần suất xuất hiện của từ trong một tài liệu duy nhất.
117. Trong lĩnh vực ‘Dialogue Systems’ (Hệ thống Hội thoại), ‘Intent Recognition’ (Nhận diện Ý định) là bước gì?
A. Xác định mục đích hoặc hành động mà người dùng muốn thực hiện thông qua câu nói của họ.
B. Tạo ra phản hồi tự động cho người dùng.
C. Phân tích cảm xúc của người dùng.
D. Tóm tắt lại cuộc hội thoại.
118. Trong các kỹ thuật nhúng từ (Word Embeddings), mô hình ‘Word2Vec’ (như Skip-gram hoặc CBOW) có khả năng gì nổi bật?
A. Học các biểu diễn vector dày đặc (dense vectors) cho từ, nắm bắt được các mối quan hệ ngữ nghĩa và cú pháp (ví dụ: ‘vua’ – ‘đàn ông’ + ‘phụ nữ’ ≈ ‘nữ hoàng’).
B. Chỉ tạo ra các vector dạng one-hot encoding, mỗi từ là một chiều duy nhất.
C. Phân tích cấu trúc câu phức tạp mà không cần ngữ cảnh xung quanh từ.
D. Sử dụng tần suất xuất hiện của từ làm trọng số duy nhất cho vector.
119. So với ‘Stemming’, ‘Lemmatization’ trong NLP có ưu điểm gì?
A. Lemmatization sử dụng từ điển để đưa từ về dạng gốc có nghĩa (lemma), đảm bảo tính ngữ pháp và ý nghĩa của từ.
B. Lemmatization đơn giản và nhanh hơn Stemming vì không cần tra cứu từ điển.
C. Lemmatization chỉ áp dụng cho các từ tiếng Anh, không dùng cho các ngôn ngữ khác.
D. Lemmatization chỉ loại bỏ các tiền tố, không xử lý hậu tố.
120. Trong các mô hình ngôn ngữ lớn (LLMs) như GPT, ‘pre-training’ (huấn luyện trước) có vai trò gì?
A. Huấn luyện mô hình trên một lượng lớn dữ liệu văn bản không được gán nhãn để học các biểu diễn ngôn ngữ tổng quát.
B. Huấn luyện mô hình trên một tập dữ liệu nhỏ, cụ thể cho một tác vụ duy nhất.
C. Chỉ tập trung vào việc tạo ra văn bản mạch lạc.
D. Loại bỏ tất cả các từ không có ý nghĩa trong dữ liệu huấn luyện.
121. Kỹ thuật ‘Coreference Resolution’ trong NLP nhằm mục đích gì?
A. Xác định các từ có nghĩa tương tự nhau.
B. Phát hiện và liên kết các biểu thức trong văn bản đề cập đến cùng một thực thể.
C. Phân loại các câu theo mục đích sử dụng.
D. Tạo ra các câu đồng nghĩa.
122. Mô hình ‘BERT’ (Bidirectional Encoder Representations from Transformers) nổi bật nhờ điều gì?
A. Chỉ xử lý văn bản theo một chiều.
B. Sử dụng cơ chế attention hai chiều để hiểu ngữ cảnh của từ từ cả hai phía.
C. Yêu cầu ít dữ liệu huấn luyện hơn bất kỳ mô hình nào khác.
D. Không thể thực hiện fine-tuning cho các tác vụ cụ thể.
123. Đâu là ứng dụng điển hình của mô hình ‘Sequence-to-Sequence’ (Seq2Seq) trong NLP?
A. Phân loại văn bản (Text Classification).
B. Nhận dạng thực thể có tên (Named Entity Recognition).
C. Dịch máy (Machine Translation).
D. Tóm tắt văn bản (Text Summarization).
124. Trong Xử lý Ngôn ngữ Tự nhiên (NLP), thuật ngữ ‘tokenization’ đề cập đến quá trình nào sau đây?
A. Chuyển đổi văn bản thành các vector số học để máy tính có thể xử lý.
B. Chia nhỏ văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ.
C. Xác định và loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Biểu diễn ý nghĩa của từ bằng các mối quan hệ ngữ nghĩa.
125. Trong các mô hình Transformer, ‘positional encoding’ được sử dụng để làm gì?
A. Mã hóa thông tin ngữ nghĩa của từ.
B. Cung cấp thông tin về thứ tự của các từ trong chuỗi đầu vào cho mô hình.
C. Giảm số lượng tham số của mô hình.
D. Xác định các từ dừng (stop words).
126. Đâu là một kỹ thuật thường được sử dụng để giảm số chiều (dimensionality reduction) của biểu diễn từ (word embeddings)?
A. Phân tích thành phần chính (Principal Component Analysis – PCA).
B. Mạng nơ-ron tích chập (Convolutional Neural Network – CNN).
C. Mạng nơ-ron hồi tiếp (Recurrent Neural Network – RNN).
D. Học sâu (Deep Learning).
127. Phương pháp nào sau đây thường được sử dụng để biểu diễn ý nghĩa của từ dựa trên ngữ cảnh xuất hiện của nó trong một tập văn bản lớn?
A. Bag-of-Words (BoW)
B. TF-IDF (Term Frequency-Inverse Document Frequency)
C. Word Embeddings (ví dụ: Word2Vec, GloVe)
D. N-grams
128. Trong ngữ cảnh các mô hình ngôn ngữ lớn (LLMs), khái niệm ‘prompt engineering’ đề cập đến việc gì?
A. Huấn luyện mô hình từ đầu.
B. Thiết kế và tối ưu hóa các câu lệnh (prompts) để đạt được kết quả mong muốn từ LLM.
C. Đánh giá hiệu suất của LLM trên các tập dữ liệu chuẩn.
D. Xử lý lỗi trong quá trình suy luận của LLM.
129. Trong các mô hình ngôn ngữ, ‘fine-tuning’ là quá trình gì?
A. Huấn luyện mô hình từ đầu trên một tác vụ mới.
B. Điều chỉnh các tham số của một mô hình đã được huấn luyện trước (pre-trained model) trên một tập dữ liệu cụ thể cho một tác vụ mới.
C. Giảm số chiều của dữ liệu đầu vào.
D. Phân tích cấu trúc ngữ pháp của câu.
130. Kỹ thuật ‘lemmatization’ khác với ‘stemming’ ở điểm nào?
A. Lemmatization chỉ áp dụng cho danh từ, stemming cho động từ.
B. Lemmatization dựa trên từ điển để đưa về dạng nguyên thể có nghĩa (lemma), còn stemming chỉ cắt bỏ hậu tố.
C. Lemmatization giữ nguyên chữ hoa, stemming chuyển về chữ thường.
D. Lemmatization loại bỏ từ dừng, stemming không làm điều đó.
131. Kỹ thuật ‘keyword extraction’ nhằm mục đích gì?
A. Xác định các câu quan trọng nhất trong văn bản.
B. Trích xuất các từ hoặc cụm từ quan trọng nhất thể hiện nội dung chính của văn bản.
C. Phân loại văn bản theo chủ đề.
D. Tạo ra các câu đồng nghĩa.
132. Kỹ thuật ‘word sense disambiguation’ (WSD) giải quyết vấn đề gì?
A. Xác định các từ đồng nghĩa.
B. Phân loại ý nghĩa của một từ khi nó có nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh.
C. Loại bỏ các từ có tần suất xuất hiện thấp.
D. Tạo ra các biểu diễn vector cho từ.
133. Trong các mô hình học máy cho NLP, ‘overfitting’ xảy ra khi nào?
A. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
C. Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Mô hình không học được bất kỳ mẫu nào từ dữ liệu.
134. Trong các mô hình Transformer, ‘self-attention’ cho phép mô hình làm gì?
A. Xử lý tuần tự các từ trong câu.
B. Cho phép mỗi từ trong câu tương tác và tính toán trọng số với tất cả các từ khác trong cùng câu.
C. Loại bỏ các từ không cần thiết trong câu.
D. Dự đoán từ tiếp theo dựa trên các từ trước đó.
135. Mô hình ‘Latent Dirichlet Allocation’ (LDA) thường được sử dụng cho tác vụ nào trong NLP?
A. Dịch máy.
B. Phân tích chủ đề (Topic Modeling).
C. Nhận dạng giọng nói.
D. Tạo sinh văn bản.
136. Mục tiêu của ‘Named Entity Recognition’ (NER) là gì?
A. Xác định các từ đồng nghĩa.
B. Phân loại văn bản theo chủ đề.
C. Nhận dạng và phân loại các thực thể được đặt tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
D. Tóm tắt nội dung chính của văn bản.
137. Khi sử dụng TF-IDF, giá trị IDF (Inverse Document Frequency) cao cho một từ có ý nghĩa gì?
A. Từ đó xuất hiện rất phổ biến trong hầu hết các tài liệu.
B. Từ đó có ý nghĩa quan trọng và ít xuất hiện trong tập tài liệu.
C. Từ đó là một từ dừng (stop word).
D. Từ đó có ý nghĩa ngữ pháp quan trọng.
138. Kỹ thuật ‘attention mechanism’ trong các mô hình học sâu cho NLP đã cải thiện đáng kể hiệu suất trong các tác vụ như dịch máy bằng cách?
A. Loại bỏ các từ không quan trọng khỏi câu.
B. Cho phép mô hình tập trung vào các phần liên quan nhất của chuỗi đầu vào khi tạo ra đầu ra.
C. Giảm kích thước của mô hình.
D. Tăng tốc độ huấn luyện.
139. Trong lĩnh vực ‘Question Answering’ (QA), hệ thống QA dựa trên kiến thức (knowledge-based QA) thường yêu cầu?
A. Chỉ phân tích ngữ cảnh của câu hỏi.
B. Truy cập và truy vấn một cơ sở dữ liệu tri thức có cấu trúc (ví dụ: knowledge graph).
C. Tạo ra câu trả lời hoàn toàn mới.
D. Sử dụng các mô hình ngôn ngữ lớn mà không cần dữ liệu bên ngoài.
140. Trong các mô hình ngôn ngữ, ‘masking’ (che giấu) là một kỹ thuật quan trọng trong quá trình huấn luyện cho mô hình nào?
A. Word2Vec
B. TF-IDF
C. BERT
D. N-grams
141. Trong Xử lý Ngôn ngữ Tự nhiên, ‘regular expressions’ (regex) được sử dụng chủ yếu cho mục đích gì?
A. Biểu diễn ý nghĩa ngữ nghĩa của từ.
B. Tạo ra các biểu diễn vector cho câu.
C. Tìm kiếm và thao tác với các mẫu ký tự trong văn bản.
D. Đánh giá độ liên quan giữa các tài liệu.
142. Mục tiêu của ‘extractive summarization’ là gì?
A. Tạo ra các câu mới để tóm tắt văn bản.
B. Chọn ra các câu quan trọng nhất từ văn bản gốc để tạo thành bản tóm tắt.
C. Phân tích ý nghĩa của từng từ.
D. Dịch văn bản sang ngôn ngữ khác.
143. Kỹ thuật ‘part-of-speech tagging’ (POS tagging) thực hiện nhiệm vụ gì?
A. Xác định vị trí của các thực thể có tên.
B. Gán nhãn ngữ pháp (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
C. Đo lường độ phức tạp của câu.
D. Phân tích mối quan hệ giữa các từ.
144. Trong các mô hình ngôn ngữ, ’embedding size’ đề cập đến?
A. Số lượng từ trong từ điển.
B. Kích thước của vector biểu diễn cho mỗi từ.
C. Số lượng lớp trong mạng nơ-ron.
D. Độ dài của câu.
145. Mục tiêu chính của ‘syntactic parsing’ trong NLP là gì?
A. Xác định chủ đề của văn bản.
B. Phân tích cấu trúc ngữ pháp và mối quan hệ giữa các từ trong câu.
C. Tạo ra các câu mới có ý nghĩa tương tự.
D. Đánh giá tình cảm của người viết.
146. Trong mô hình ngôn ngữ, tại sao ‘padding’ lại cần thiết khi xử lý các câu có độ dài khác nhau?
A. Để tăng tốc độ xử lý.
B. Để làm cho tất cả các chuỗi đầu vào có cùng độ dài, phù hợp với cấu trúc tensor của mạng nơ-ron.
C. Để loại bỏ các từ không quan trọng.
D. Để chuẩn hóa văn bản về chữ thường.
147. Khái niệm ‘language model’ (mô hình ngôn ngữ) trong NLP có thể hiểu là gì?
A. Một chương trình dịch tự động.
B. Một mô hình thống kê hoặc học máy dự đoán xác suất của một chuỗi từ.
C. Một công cụ kiểm tra ngữ pháp.
D. Một cơ sở dữ liệu từ điển.
148. Khi phân tích tình cảm (sentiment analysis), mục tiêu chính là gì?
A. Trích xuất các thực thể có tên (Named Entities) như tên người, địa điểm.
B. Xác định chủ đề chính của một đoạn văn bản.
C. Phân loại văn bản dựa trên cảm xúc (tích cực, tiêu cực, trung tính) mà nó thể hiện.
D. Tóm tắt nội dung chính của một tài liệu dài.
149. Trong các mô hình phân loại văn bản, ‘precision’ đo lường điều gì?
A. Tỷ lệ các trường hợp đúng trong số tất cả các trường hợp được dự đoán là đúng.
B. Tỷ lệ các trường hợp đúng trong số tất cả các trường hợp thực tế là đúng.
C. Khả năng của mô hình dự đoán đúng tất cả các lớp.
D. Tỷ lệ các trường hợp sai trong số tất cả các trường hợp được dự đoán.
150. Mục tiêu của ‘Text Summarization’ là gì?
A. Chuyển đổi văn bản sang ngôn ngữ khác.
B. Tạo ra một phiên bản ngắn gọn của văn bản gốc mà vẫn giữ được ý chính.
C. Tìm kiếm thông tin liên quan trong một tập hợp tài liệu.
D. Phân loại văn bản theo chủ đề.
151. Kỹ thuật ‘back-translation’ thường được áp dụng trong lĩnh vực nào của NLP?
A. Phân tích tình cảm.
B. Tạo ra dữ liệu huấn luyện cho dịch máy.
C. Nhận dạng thực thể có tên.
D. Tóm tắt văn bản.
152. Trong lĩnh vực ‘dialogue systems’ (hệ thống hội thoại), thành phần ‘dialogue state tracking’ (DST) chịu trách nhiệm gì?
A. Tạo ra câu trả lời cho người dùng.
B. Duy trì và cập nhật thông tin về trạng thái hiện tại của cuộc hội thoại.
C. Nhận dạng ý định của người dùng.
D. Xử lý ngôn ngữ tự nhiên đầu vào.
153. Khái niệm ‘zero-shot learning’ trong NLP có nghĩa là gì?
A. Mô hình được huấn luyện trên tất cả các lớp dữ liệu có thể có.
B. Khả năng của mô hình thực hiện một tác vụ mà không cần huấn luyện trên bất kỳ ví dụ nào của tác vụ đó.
C. Mô hình chỉ có thể hoạt động với các ví dụ đã thấy trong quá trình huấn luyện.
D. Mô hình sử dụng ít tham số nhất có thể.
154. Kỹ thuật ‘data augmentation’ trong NLP có thể giúp ích gì cho việc huấn luyện mô hình?
A. Làm giảm số lượng tham số của mô hình.
B. Tăng cường tính mạnh mẽ (robustness) và khả năng khái quát hóa của mô hình bằng cách tạo thêm dữ liệu huấn luyện.
C. Loại bỏ các lỗi ngữ pháp trong dữ liệu gốc.
D. Tăng tốc độ huấn luyện.
155. Trong mô hình ngôn ngữ, ‘perplexity’ là một thước đo đánh giá điều gì?
A. Độ phức tạp của cấu trúc ngữ pháp trong câu.
B. Khả năng của mô hình dự đoán một chuỗi từ tiếp theo.
C. Tỷ lệ các từ dừng (stop words) trong tập dữ liệu.
D. Số lượng thực thể có tên (Named Entities) được nhận dạng.
156. Trong các mô hình học sâu cho NLP, ‘batch size’ ảnh hưởng đến điều gì?
A. Tốc độ suy luận cuối cùng.
B. Tốc độ huấn luyện, độ ổn định của quá trình học và việc sử dụng bộ nhớ.
C. Số lượng từ trong từ điển.
D. Độ phức tạp của mô hình.
157. Kỹ thuật ‘text generation’ trong NLP liên quan đến việc gì?
A. Trích xuất thông tin từ văn bản.
B. Phân tích cấu trúc ngữ pháp của câu.
C. Tạo ra văn bản mới dựa trên một tập dữ liệu hoặc đầu vào cho trước.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
158. Trong lĩnh vực ‘information retrieval’ (IR) và NLP, ‘cosine similarity’ thường được dùng để đo lường điều gì giữa hai văn bản (hoặc vector biểu diễn văn bản)?
A. Độ dài của văn bản.
B. Mức độ tương đồng về hướng giữa hai vector.
C. Tần suất xuất hiện của các từ chung.
D. Sự khác biệt về ngữ nghĩa.
159. Kỹ thuật ‘dependency parsing’ trong NLP tập trung vào việc gì?
A. Xác định các từ đồng nghĩa.
B. Phân tích mối quan hệ cú pháp (phụ thuộc) giữa các từ trong câu.
C. Tạo ra các biểu diễn vector cho từ.
D. Phân loại tình cảm của câu.
160. Kỹ thuật ‘stemming’ trong tiền xử lý văn bản nhằm mục đích gì?
A. Chuyển đổi tất cả các từ về dạng nguyên thể bằng cách loại bỏ hậu tố.
B. Chuẩn hóa văn bản về chữ thường.
C. Loại bỏ các từ có tần suất xuất hiện thấp.
D. Tạo ra các biểu diễn vector cho từ.
161. Kỹ thuật ‘Sequence-to-Sequence’ (Seq2Seq) được ứng dụng phổ biến trong các tác vụ NLP nào?
A. Dịch máy, tóm tắt văn bản, tạo sinh văn bản.
B. Phân loại văn bản, nhận dạng thực thể.
C. Phân tích cú pháp, phân tích cảm xúc.
D. Trích xuất thông tin, trả lời câu hỏi.
162. Phương pháp nào dưới đây thường được sử dụng để biểu diễn ý nghĩa ngữ nghĩa của từ dưới dạng vector số?
A. Word Embeddings (ví dụ: Word2Vec, GloVe, FastText).
B. Bag-of-Words (BoW).
C. TF-IDF (Term Frequency-Inverse Document Frequency).
D. One-Hot Encoding.
163. Attention Mechanism (Cơ chế chú ý) trong các mô hình NLP hiện đại giúp cải thiện điều gì?
A. Cho phép mô hình tập trung vào các phần quan trọng nhất của chuỗi đầu vào khi tạo ra chuỗi đầu ra.
B. Giảm kích thước của vector từ.
C. Tăng tốc độ huấn luyện mô hình.
D. Loại bỏ stop words hiệu quả hơn.
164. Nhiệm vụ ‘Text Summarization’ (Tóm tắt văn bản) có mục tiêu chính là gì?
A. Tạo ra một bản tóm tắt ngắn gọn, súc tích và chứa đựng những thông tin quan trọng nhất của văn bản gốc.
B. Phân loại văn bản theo chủ đề.
C. Dịch văn bản sang ngôn ngữ khác.
D. Nhận dạng các thực thể tên riêng.
165. TF-IDF (Term Frequency-Inverse Document Frequency) là một kỹ thuật dùng để:
A. Đánh giá mức độ quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu.
B. Biểu diễn ý nghĩa ngữ nghĩa của các cụm từ.
C. Xác định các cặp từ đồng nghĩa.
D. Tạo ra các vector từ có thể học được.
166. Mô hình BERT sử dụng kiến trúc Transformer với cơ chế Self-Attention, và được huấn luyện theo phương pháp nào?
A. Masked Language Model (MLM) và Next Sentence Prediction (NSP).
B. Chỉ Masked Language Model (MLM).
C. Chỉ Next Sentence Prediction (NSP).
D. Sequence-to-Sequence.
167. Biểu diễn ‘one-hot encoding’ cho một từ thường gặp hạn chế gì trong NLP?
A. Không nắm bắt được mối quan hệ ngữ nghĩa giữa các từ và tạo ra các vector rất lớn, thưa thớt (sparse).
B. Không thể biểu diễn các từ có nhiều nghĩa.
C. Yêu cầu lượng lớn dữ liệu huấn luyện.
D. Không phù hợp cho các ngôn ngữ có bảng chữ cái lớn.
168. Word Sense Disambiguation (WSD) là một nhiệm vụ NLP nhằm mục đích gì?
A. Xác định nghĩa chính xác của một từ trong một ngữ cảnh cụ thể khi từ đó có nhiều nghĩa.
B. Tạo ra các từ đồng nghĩa cho một từ đã cho.
C. Loại bỏ các từ đa nghĩa khỏi văn bản.
D. Đo lường mức độ phức tạp của ngôn ngữ.
169. Cross-lingual NLP (NLP đa ngôn ngữ) đề cập đến việc gì?
A. Xử lý và phân tích ngôn ngữ trên nhiều ngôn ngữ khác nhau, hoặc chuyển đổi giữa các ngôn ngữ.
B. Tập trung vào một ngôn ngữ duy nhất với độ chính xác cao.
C. Phân tích ngữ âm của một ngôn ngữ.
D. Tạo ra các mô hình ngôn ngữ cho các ngôn ngữ ít tài nguyên.
170. Sentiment Analysis (Phân tích cảm xúc) là một ứng dụng của NLP nhằm mục đích gì?
A. Xác định thái độ hoặc cảm xúc (tích cực, tiêu cực, trung tính) được thể hiện trong văn bản.
B. Trích xuất các thực thể tên riêng (người, địa điểm, tổ chức) từ văn bản.
C. Tạo ra văn bản mới dựa trên một chủ đề cho trước.
D. Tìm kiếm thông tin liên quan trong một tập hợp lớn các tài liệu.
171. Entity Linking (Liên kết thực thể) là một tác vụ NLP nhằm mục đích gì?
A. Liên kết các thực thể được nhận dạng trong văn bản với các mục nhập tương ứng trong một cơ sở kiến thức (ví dụ: Wikipedia).
B. Nhận dạng các thực thể tên riêng.
C. Phân loại cảm xúc của thực thể.
D. Tóm tắt các đoạn văn bản chứa thực thể.
172. Machine Translation (Dịch máy) là một lĩnh vực của NLP tập trung vào việc gì?
A. Tự động dịch văn bản hoặc lời nói từ một ngôn ngữ sang ngôn ngữ khác.
B. Phân tích cảm xúc của người dùng trên mạng xã hội.
C. Tạo ra các câu hỏi trắc nghiệm tự động.
D. Nhận dạng giọng nói.
173. Mô hình ngôn ngữ n-gram dựa trên nguyên tắc nào?
A. Giả định Markov, cho rằng xác suất của từ tiếp theo chỉ phụ thuộc vào N-1 từ trước đó.
B. Xác suất của từ tiếp theo độc lập với tất cả các từ trước đó.
C. Tất cả các từ trong câu đều có xác suất như nhau.
D. Chỉ xem xét tần suất xuất hiện của từng từ riêng lẻ.
174. Mô hình ngôn ngữ (Language Model) trong NLP có chức năng chính là gì?
A. Dự đoán xác suất của một chuỗi từ.
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Phân loại cảm xúc của văn bản.
D. Tóm tắt nội dung văn bản.
175. Question Answering (QA) systems trong NLP có chức năng gì?
A. Cung cấp câu trả lời tự động cho các câu hỏi của người dùng dựa trên một tập hợp dữ liệu hoặc kiến thức.
B. Tạo ra các đoạn văn bản mô tả một hình ảnh.
C. Dự đoán từ tiếp theo trong một câu.
D. Phân loại các loại văn bản khác nhau.
176. Trong Xử lý Ngôn ngữ Tự nhiên (NLP), khái niệm ‘tokenization’ đề cập đến quá trình nào sau đây?
A. Phân tách văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
B. Chuyển đổi văn bản sang dạng số để mô hình máy học có thể xử lý.
C. Xác định mối quan hệ ngữ pháp giữa các từ trong câu.
D. Loại bỏ các từ không mang nhiều ý nghĩa ngữ nghĩa như ‘và’, ‘là’, ‘the’.
177. Trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên, ‘corpus’ (bộ ngữ liệu) là gì?
A. Một tập hợp lớn các văn bản hoặc lời nói được sử dụng để huấn luyện và đánh giá các mô hình NLP.
B. Một thuật toán để phân tích cú pháp.
C. Một phương pháp để biểu diễn từ dưới dạng vector.
D. Một kỹ thuật để loại bỏ stop words.
178. Co-reference Resolution (Giải quyết đồng quy chiếu) là gì trong NLP?
A. Xác định các biểu thức trong văn bản (như đại từ) đề cập đến cùng một thực thể.
B. Phân tích cấu trúc ngữ pháp của câu.
C. Tóm tắt các đoạn văn bản dài.
D. Tìm kiếm các từ khóa có liên quan.
179. Transformer là kiến trúc mạng nơ-ron đã cách mạng hóa NLP, nổi bật với việc sử dụng cơ chế nào?
A. Self-Attention (Tự chú ý).
B. Recurrent Neural Networks (RNNs).
C. Convolutional Neural Networks (CNNs).
D. Support Vector Machines (SVMs).
180. Named Entity Recognition (NER) là kỹ thuật NLP dùng để làm gì?
A. Xác định và phân loại các thực thể có tên trong văn bản thành các loại định trước như người, tổ chức, địa điểm, ngày tháng.
B. Hiểu mối quan hệ giữa các từ trong một câu.
C. Tạo ra các bản dịch tự động.
D. Tóm tắt các tài liệu dài thành các câu ngắn gọn.
181. Mô hình ‘Text-to-Speech’ (TTS) là gì?
A. Chuyển đổi văn bản viết thành giọng nói tổng hợp.
B. Chuyển đổi giọng nói thành văn bản.
C. Phân tích cảm xúc trong giọng nói.
D. Tạo ra các đoạn văn bản mới.
182. Pre-trained Language Models (Mô hình ngôn ngữ được huấn luyện trước) như BERT, GPT-3 có ưu điểm chính là gì?
A. Đã học được kiến thức ngữ pháp và ngữ nghĩa rộng lớn từ lượng lớn dữ liệu, cho phép fine-tuning hiệu quả trên các tác vụ cụ thể.
B. Chỉ có thể sử dụng cho một tác vụ NLP duy nhất.
C. Cần lượng dữ liệu rất nhỏ để huấn luyện từ đầu.
D. Không có khả năng hiểu ngữ cảnh của từ.
183. Trong các mô hình NLP, ‘Fine-tuning’ có nghĩa là gì?
A. Huấn luyện thêm một mô hình đã được pre-trained trên một tập dữ liệu nhỏ hơn cho một tác vụ cụ thể.
B. Huấn luyện mô hình từ đầu trên một tập dữ liệu lớn.
C. Giảm kích thước của mô hình.
D. Loại bỏ các tham số không cần thiết của mô hình.
184. Kỹ thuật ‘Text Classification’ (Phân loại văn bản) được sử dụng để làm gì?
A. Gán một hoặc nhiều nhãn (category) cho một văn bản.
B. Tạo ra các câu hỏi mới từ văn bản.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Xác định mối quan hệ giữa các thực thể.
185. Kỹ thuật ‘Semantic Role Labeling’ (SRL) trong NLP tập trung vào việc gì?
A. Xác định các vai trò ngữ nghĩa (ai làm gì, cho ai, ở đâu, khi nào) của các thành phần trong câu.
B. Phân loại cảm xúc của câu.
C. Tạo ra các bản dịch tự động.
D. Nhận dạng các thực thể tên riêng.
186. Trong Xử lý Ngôn ngữ Tự nhiên, ‘parsing’ (phân tích cú pháp) có vai trò gì?
A. Phân tích cấu trúc ngữ pháp của câu, xác định các thành phần câu và mối quan hệ giữa chúng.
B. Chuyển đổi văn bản sang dạng mã hóa số.
C. Tìm kiếm các từ khóa quan trọng.
D. Đo lường mức độ tương đồng giữa hai câu.
187. Deep Learning đã mang lại những cải tiến đột phá nào cho NLP?
A. Cải thiện đáng kể hiệu suất trên nhiều tác vụ NLP nhờ khả năng học các biểu diễn phức tạp và phụ thuộc ngữ cảnh.
B. Chỉ phù hợp cho các tác vụ dịch máy đơn giản.
C. Làm cho các mô hình NLP trở nên kém chính xác hơn.
D. Yêu cầu ít dữ liệu huấn luyện hơn các phương pháp truyền thống.
188. Trong các mô hình Transformer, ‘Positional Encoding’ (Mã hóa vị trí) được thêm vào để làm gì?
A. Cung cấp thông tin về vị trí của các từ trong chuỗi đầu vào, vì cơ chế Self-Attention không có tính tuần tự.
B. Tăng cường khả năng hiểu ngữ nghĩa của từ.
C. Giảm số lượng tham số của mô hình.
D. Loại bỏ các từ có tần suất thấp.
189. Stop words là gì trong ngữ cảnh xử lý văn bản?
A. Các từ xuất hiện rất thường xuyên trong văn bản nhưng ít mang ý nghĩa phân biệt nội dung, thường bị loại bỏ.
B. Các từ hiếm gặp nhất trong một bộ dữ liệu văn bản.
C. Các từ khóa quan trọng nhất để tóm tắt nội dung văn bản.
D. Các từ dùng để đánh dấu các đoạn văn bản khác nhau.
190. Zero-shot learning trong NLP có ý nghĩa gì?
A. Khả năng thực hiện một tác vụ NLP mà không cần bất kỳ dữ liệu huấn luyện nào cho tác vụ đó.
B. Huấn luyện mô hình trên mọi ngôn ngữ cùng lúc.
C. Tạo ra các câu trả lời dựa trên dữ liệu có sẵn.
D. Phân tích ngữ nghĩa của các từ đơn lẻ.
191. Nhiệm vụ ‘Text Simplification’ (Đơn giản hóa văn bản) nhằm mục đích gì?
A. Chuyển đổi văn bản phức tạp thành văn bản dễ hiểu hơn cho các đối tượng như trẻ em, người nước ngoài, hoặc người có khó khăn về đọc hiểu.
B. Tóm tắt các đoạn văn bản dài.
C. Phân loại văn bản theo chủ đề.
D. Trích xuất các thực thể tên riêng.
192. Trong các mô hình NLP, ‘Embedding’ của một từ đại diện cho điều gì?
A. Một biểu diễn vector của từ trong một không gian đa chiều, nơi các từ có ngữ nghĩa tương tự có các vector gần nhau.
B. Tần suất xuất hiện của từ trong văn bản.
C. Thứ tự của từ trong câu.
D. Một mã duy nhất cho mỗi từ.
193. Trong mô hình Bag-of-Words (BoW), điều gì quan trọng nhất được giữ lại để biểu diễn văn bản?
A. Tần suất xuất hiện của từng từ trong văn bản, bỏ qua thứ tự từ.
B. Thứ tự của các từ trong văn bản.
C. Mối quan hệ ngữ pháp giữa các từ.
D. Ý nghĩa ngữ nghĩa sâu sắc của từng từ.
194. Extractive Summarization (Tóm tắt trích xuất) khác với Abstractive Summarization (Tóm tắt diễn giải) ở chỗ nào?
A. Extractive Summarization chọn và ghép các câu hoặc cụm từ quan trọng từ văn bản gốc, còn Abstractive Summarization tạo ra câu mới, diễn đạt lại ý chính.
B. Extractive Summarization tạo ra văn bản mới, còn Abstractive Summarization chỉ trích xuất câu.
C. Extractive Summarization yêu cầu hiểu sâu ngữ nghĩa, còn Abstractive Summarization chỉ quan tâm đến tần suất từ.
D. Abstractive Summarization phức tạp hơn vì nó yêu cầu mô hình phải suy luận và diễn đạt lại ý tưởng.
195. Trong lĩnh vực NLP, ‘Intent Recognition’ (Nhận dạng ý định) thường được dùng trong ngữ cảnh nào?
A. Các hệ thống đối thoại (chatbots, trợ lý ảo) để hiểu mục tiêu hoặc yêu cầu của người dùng.
B. Phân tích cảm xúc của các bài đánh giá sản phẩm.
C. Tóm tắt các bản tin tức.
D. Dịch tự động giữa các ngôn ngữ.
196. Mô hình ‘Retrieval-based’ khác với ‘Generative-based’ trong các hệ thống trả lời câu hỏi (QA) hoặc chatbot như thế nào?
A. Retrieval-based tìm kiếm câu trả lời có sẵn từ một kho dữ liệu, còn Generative-based tạo ra câu trả lời mới.
B. Retrieval-based tạo ra câu trả lời mới, còn Generative-based tìm kiếm câu có sẵn.
C. Retrieval-based chỉ dùng cho các câu hỏi có cấu trúc, còn Generative-based cho câu hỏi mở.
D. Generative-based luôn yêu cầu ít dữ liệu huấn luyện hơn Retrieval-based.
197. Nhiệm vụ ‘Text Generation’ (Tạo sinh văn bản) trong NLP liên quan đến việc gì?
A. Tạo ra các đoạn văn bản mới, mạch lạc và có ý nghĩa.
B. Phân loại văn bản thành các chủ đề khác nhau.
C. Trích xuất thông tin từ văn bản có cấu trúc.
D. Xác định các thực thể tên riêng.
198. Lemmatization trong NLP khác với stemming ở điểm nào?
A. Lemmatization sử dụng từ điển để trả về dạng nguyên thể (lemma) của từ, trong khi stemming chỉ cắt bỏ hậu tố dựa trên luật lệ.
B. Stemming hiệu quả hơn cho các ngôn ngữ có cấu trúc ngữ pháp phức tạp hơn lemmatization.
C. Lemmatization thường cho kết quả không phải là từ có nghĩa, còn stemming thì luôn cho từ có nghĩa.
D. Stemming là quá trình dịch nghĩa của từ, còn lemmatization là quá trình rút gọn từ.
199. Mô hình ‘Bag-of-N-Grams’ khác với ‘Bag-of-Words’ ở điểm nào?
A. Bag-of-N-Grams xem xét các chuỗi N từ liền kề (N-grams) thay vì chỉ các từ đơn lẻ.
B. Bag-of-N-Grams bỏ qua tần suất từ.
C. Bag-of-N-Grams chỉ dùng cho các ngôn ngữ có cấu trúc đơn giản.
D. Bag-of-N-Grams luôn tạo ra vector có kích thước cố định.
200. Prompt Engineering là gì trong bối cảnh các mô hình ngôn ngữ lớn (LLMs)?
A. Quá trình thiết kế và tinh chỉnh các câu lệnh (prompts) để hướng dẫn mô hình ngôn ngữ thực hiện tác vụ mong muốn một cách hiệu quả.
B. Huấn luyện một mô hình ngôn ngữ mới từ đầu.
C. Phân tích cú pháp của câu lệnh.
D. Đánh giá hiệu suất của mô hình ngôn ngữ.