Skip to content
Phần mềm trọn đời

Blog Cá Nhân | Kiến Thức Công Nghệ | Thủ Thuật

  • Trang chủ
    • Về chúng tôi
    • Bản quyền & Khiếu nại
    • Miễn trừ trách nhiệm
    • Quy định sử dụng
  • Kiến thức
  • Windows
  • Office
  • Game
  • Thủ thuật công nghệ
  • Hình ảnh
  • Trắc nghiệm
    • Đáp án Quiz
    • Phát triển Phần mềm và Dữ liệu Quiz
    • Hạ tầng Mạng và Quản trị Hệ thống Quiz
  • Liên hệ
  • Sitemap
  • Or check our Popular Categories...
    01680168 đổi thành đầu số gì0x0 0x01 vạn bằng bao nhiêu km1 vạn là bao nhiêu100% Full disk14/414/4 là ngày gì14/4 là ngày gì ai tặng quà cho ai
  • Trang chủ
    • Về chúng tôi
    • Bản quyền & Khiếu nại
    • Miễn trừ trách nhiệm
    • Quy định sử dụng
  • Kiến thức
  • Windows
  • Office
  • Game
  • Thủ thuật công nghệ
  • Hình ảnh
  • Trắc nghiệm
    • Đáp án Quiz
    • Phát triển Phần mềm và Dữ liệu Quiz
    • Hạ tầng Mạng và Quản trị Hệ thống Quiz
  • Liên hệ
  • Sitemap
Phần mềm trọn đời

Blog Cá Nhân | Kiến Thức Công Nghệ | Thủ Thuật

  • Or check our Popular Categories...
    01680168 đổi thành đầu số gì0x0 0x01 vạn bằng bao nhiêu km1 vạn là bao nhiêu100% Full disk14/414/4 là ngày gì14/4 là ngày gì ai tặng quà cho ai
Trang chủ » Trắc nghiệm online » Phát triển Phần mềm và Dữ liệu Quiz » 200+ câu hỏi trắc nghiệm Dữ liệu lớn (BigData) (Có đáp án)

Phát triển Phần mềm và Dữ liệu Quiz

200+ câu hỏi trắc nghiệm Dữ liệu lớn (BigData) (Có đáp án)

Ngày cập nhật: 12/07/2025

⚠️ Vui lòng đọc kỹ phần lưu ý và tuyên bố miễn trừ trách nhiệm trước khi bắt đầu: Bộ câu hỏi và đáp án trong bài trắc nghiệm này chỉ mang tính chất tham khảo, nhằm hỗ trợ quá trình học tập và ôn luyện. Đây KHÔNG PHẢI là đề thi chính thức và không đại diện cho bất kỳ tài liệu chuẩn hóa hay kỳ thi cấp chứng chỉ nào từ các cơ quan giáo dục hoặc tổ chức cấp chứng chỉ chuyên ngành. Website không chịu trách nhiệm về tính chính xác của nội dung cũng như bất kỳ quyết định nào được đưa ra dựa trên kết quả từ bài trắc nghiệm.

Chào mừng bạn đến với bộ 200+ câu hỏi trắc nghiệm Dữ liệu lớn (BigData) (Có đáp án). Hệ thống trắc nghiệm này sẽ mang đến cho bạn một trải nghiệm học tập sinh động và hữu ích. Chọn ngay một bộ trắc nghiệm phía dưới để khám phá những nội dung hấp dẫn đang chờ đón bạn. Hãy nỗ lực hoàn thành bài thật tốt và tận dụng tối đa cơ hội ôn luyện này nhé!.

1. Cơ sở dữ liệu NoSQL nào thuộc loại Key-Value store, cung cấp khả năng truy cập nhanh chóng dựa trên khóa duy nhất?

A. MongoDB
B. Neo4j
C. Redis
D. Cassandra

2. Tại sao dữ liệu không cấu trúc (unstructured data) lại là một thách thức lớn trong BigData?

A. Vì nó có dung lượng quá nhỏ.
B. Vì nó không có định dạng hoặc cấu trúc rõ ràng, gây khó khăn cho việc phân tích tự động.
C. Vì nó luôn luôn có độ chính xác cao.
D. Vì nó chỉ có thể được tạo ra bởi các hệ thống máy tính.

3. Đâu là một ví dụ về dữ liệu bán cấu trúc (semi-structured data)?

A. Một tệp CSV chứa thông tin khách hàng.
B. Một tệp văn bản thuần túy.
C. Một tệp JSON hoặc XML mô tả một đối tượng với các thẻ đánh dấu.
D. Một hình ảnh kỹ thuật số.

4. Đâu là một thách thức của BigData liên quan đến việc đảm bảo dữ liệu đến từ nhiều nguồn khác nhau là nhất quán và đáng tin cậy?

A. Volume
B. Variety
C. Veracity
D. Velocity

5. MapReduce là một mô hình lập trình được sử dụng trong Hadoop để:

A. Xây dựng giao diện người dùng đồ họa cho các ứng dụng phân tích dữ liệu.
B. Thực hiện các phép tính toán song song trên các tập dữ liệu lớn phân tán trên nhiều máy.
C. Quản lý cơ sở dữ liệu NoSQL quan hệ.
D. Mã hóa dữ liệu để đảm bảo an toàn thông tin.

6. Trong kiến trúc BigData, vai trò của ‘Data Scientist’ là gì?

A. Chỉ tập trung vào việc thiết kế và triển khai cơ sở hạ tầng BigData.
B. Phân tích các tập dữ liệu lớn để khám phá các mẫu, xu hướng và đưa ra dự đoán.
C. Quản lý và bảo trì các hệ thống lưu trữ dữ liệu.
D. Phát triển các ứng dụng web sử dụng dữ liệu.

7. Cơ sở dữ liệu NoSQL nào thuộc loại Graph database, chuyên dùng để mô hình hóa và quản lý dữ liệu có mối quan hệ phức tạp?

A. MongoDB
B. Cassandra
C. Neo4j
D. Redis

8. Công nghệ nào được sử dụng để xây dựng các ứng dụng phân tích dữ liệu tương tác và truy vấn dữ liệu lớn bằng SQL?

A. Apache Kafka
B. Apache Hive
C. Apache Spark Streaming
D. Apache Storm

9. Khái niệm ‘Velocity’ trong BigData đề cập đến:

A. Tính đa dạng của các nguồn dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý.
C. Khối lượng dữ liệu cần được lưu trữ.
D. Độ chính xác của các phép đo.

10. Trong Hadoop, YARN (Yet Another Resource Negotiator) có vai trò chính là:

A. Lưu trữ và quản lý dữ liệu phân tán.
B. Quản lý tài nguyên tính toán và lập lịch trình cho các ứng dụng xử lý dữ liệu.
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Cung cấp giao diện truy vấn SQL cho HDFS.

11. Trong lĩnh vực BigData, ‘ETL’ (Extract, Transform, Load) là quy trình dùng để:

A. Trực quan hóa dữ liệu trên bảng điều khiển.
B. Thu thập, chuyển đổi và tải dữ liệu từ nhiều nguồn vào một hệ thống đích (thường là Data Warehouse).
C. Xây dựng các mô hình học máy.
D. Quản lý tài nguyên trong cụm Hadoop.

12. Cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ dữ liệu có cấu trúc dạng bảng, tương tự như cơ sở dữ liệu quan hệ nhưng có khả năng mở rộng cao?

A. MongoDB
B. Neo4j
C. Cassandra
D. Redis

13. Mục tiêu chính của việc sử dụng Data Warehouse trong BigData là:

A. Lưu trữ dữ liệu thô, chưa qua xử lý từ nhiều nguồn.
B. Hỗ trợ các quyết định kinh doanh thông qua phân tích dữ liệu lịch sử đã được làm sạch và tổ chức.
C. Xử lý các luồng dữ liệu thời gian thực.
D. Tạo ra các mô hình học máy phức tạp.

14. Trong bối cảnh BigData, ‘Batch Processing’ là phương pháp xử lý dữ liệu bằng cách:

A. Xử lý từng bản ghi dữ liệu ngay khi nó được tạo ra.
B. Thu thập một lượng lớn dữ liệu và xử lý chúng cùng một lúc theo định kỳ.
C. Phân tích dữ liệu trực tiếp trên các thiết bị di động.
D. Sử dụng các thuật toán phân tán để xử lý dữ liệu theo thời gian thực.

15. Trong kiến trúc Hệ thống dữ liệu lớn, khái niệm ‘Data Lake’ thường được mô tả là nơi:

A. Lưu trữ dữ liệu đã được cấu trúc hóa và làm sạch theo sơ đồ xác định trước.
B. Chứa dữ liệu thô, chưa được xử lý, theo định dạng gốc từ nhiều nguồn khác nhau.
C. Là một kho dữ liệu (Data Warehouse) được tối ưu hóa cho các truy vấn phân tích phức tạp.
D. Chỉ chứa dữ liệu giao dịch (transactional data) từ các hệ thống ERP.

16. Trong Hadoop, ‘NameNode’ là một thành phần quan trọng của HDFS chịu trách nhiệm:

A. Thực thi các tác vụ tính toán của MapReduce.
B. Quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm cấu trúc thư mục và ánh xạ tệp đến các DataNode.
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Lưu trữ trực tiếp dữ liệu người dùng.

17. Một ví dụ về dữ liệu có cấu trúc (structured data) trong BigData là:

A. Các bài đăng trên mạng xã hội.
B. Các email và tệp đính kèm.
C. Dữ liệu trong một bảng cơ sở dữ liệu quan hệ với các cột và hàng được xác định rõ ràng.
D. Các tệp âm thanh và video.

18. Mô hình dữ liệu nào của NoSQL phù hợp nhất cho việc lưu trữ và truy vấn các mối quan hệ phức tạp giữa các thực thể, ví dụ như mạng xã hội?

A. Key-Value
B. Document
C. Graph
D. Wide-Column

19. Đâu là đặc điểm chính của ‘Volume’ trong 3V của BigData?

A. Tốc độ tạo ra và xử lý dữ liệu.
B. Sự đa dạng về loại hình dữ liệu.
C. Khối lượng hoặc lượng dữ liệu khổng lồ.
D. Tính chính xác và độ tin cậy của dữ liệu.

20. Trong hệ sinh thái Hadoop, ‘Oozie’ là một công cụ được sử dụng để:

A. Quản lý luồng dữ liệu thời gian thực.
B. Lập lịch và quản lý các chuỗi công việc (workflows) của Hadoop.
C. Truy vấn dữ liệu bằng SQL.
D. Lưu trữ dữ liệu phân tán.

21. Khái niệm ‘Data Governance’ trong BigData liên quan đến việc:

A. Chỉ tập trung vào việc thu thập dữ liệu.
B. Thiết lập các quy tắc, chính sách và quy trình để đảm bảo dữ liệu được quản lý, bảo mật và sử dụng một cách hiệu quả, tuân thủ.
C. Phát triển các thuật toán học máy mới.
D. Xây dựng kiến trúc hạ tầng BigData.

22. Cơ sở dữ liệu NoSQL nào thuộc loại Document store, lưu trữ dữ liệu dưới dạng các tài liệu JSON hoặc BSON?

A. Cassandra
B. Neo4j
C. Redis
D. MongoDB

23. Khái niệm ‘Data Virtualization’ trong quản lý BigData là gì?

A. Lưu trữ tất cả dữ liệu vào một kho vật lý duy nhất.
B. Cung cấp một lớp trừu tượng cho phép người dùng truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép chúng.
C. Chỉ cho phép truy cập dữ liệu thông qua các báo cáo được tạo sẵn.
D. Mã hóa tất cả dữ liệu để bảo vệ quyền riêng tư.

24. Tại sao ‘Veracity’ (tính xác thực) là một yếu tố quan trọng trong BigData?

A. Vì nó ảnh hưởng đến tốc độ xử lý dữ liệu.
B. Vì nó đảm bảo rằng dữ liệu được thu thập từ nhiều nguồn khác nhau.
C. Vì dữ liệu không chính xác hoặc không đáng tin cậy có thể dẫn đến quyết định sai lầm.
D. Vì nó giúp giảm dung lượng lưu trữ cần thiết.

25. Công nghệ nào thường được sử dụng để xử lý các tập dữ liệu rất lớn một cách song song và phân tán, đặc biệt là trong hệ sinh thái Hadoop?

A. SQL Server
B. Apache Spark
C. Oracle Database
D. Microsoft Access

26. Hadoop Distributed File System (HDFS) được thiết kế với nguyên tắc chính là:

A. Tối ưu hóa cho các thao tác ghi/đọc dữ liệu nhỏ và ngẫu nhiên.
B. Phân tán dữ liệu trên nhiều nút và sao chép chúng để đảm bảo tính sẵn sàng cao.
C. Yêu cầu dữ liệu phải được cấu trúc hóa hoàn toàn trước khi lưu trữ.
D. Sử dụng một máy chủ trung tâm duy nhất để quản lý tất cả dữ liệu.

27. Khái niệm ‘Big Data Analytics’ liên quan đến việc:

A. Chỉ đơn thuần là lưu trữ lượng lớn dữ liệu.
B. Sử dụng các kỹ thuật phân tích tiên tiến để trích xuất thông tin có giá trị từ dữ liệu.
C. Thiết kế kiến trúc cho các hệ thống dữ liệu lớn.
D. Xây dựng các ứng dụng di động.

28. Khái niệm ‘Data Mining’ trong lĩnh vực BigData chủ yếu đề cập đến việc:

A. Lưu trữ và quản lý các tập dữ liệu lớn.
B. Khám phá các mẫu tiềm ẩn, mối quan hệ và kiến thức hữu ích từ các tập dữ liệu.
C. Xử lý dữ liệu theo thời gian thực.
D. Xây dựng các mô hình dự báo dựa trên dữ liệu lịch sử.

29. Trong phân tích BigData, ‘Stream Processing’ đề cập đến việc:

A. Lưu trữ toàn bộ dữ liệu vào một kho duy nhất trước khi phân tích.
B. Phân tích dữ liệu ngay khi chúng được tạo ra hoặc di chuyển, theo thời gian thực hoặc gần thời gian thực.
C. Thực hiện các phép phân tích lịch sử trên tập dữ liệu tĩnh.
D. Sử dụng các thuật toán học máy để dự đoán xu hướng trong tương lai.

30. Khái niệm ‘Data Lakehouse’ kết hợp các ưu điểm của:

A. Data Warehouse và cơ sở dữ liệu quan hệ.
B. Data Lake và Data Warehouse.
C. Data Lake và cơ sở dữ liệu NoSQL.
D. Data Warehouse và cơ sở dữ liệu NoSQL.

31. Đâu là một công nghệ xử lý luồng dữ liệu (stream processing) phổ biến trong BigData?

A. Apache Hive
B. Apache Kafka
C. Apache Pig
D. Apache HBase

32. Trong các mô hình xử lý dữ liệu BigData, ‘Near Real-Time Processing’ là gì?

A. Xử lý dữ liệu sau nhiều ngày hoặc tuần.
B. Xử lý dữ liệu với độ trễ rất nhỏ, thường là vài giây hoặc mili giây.
C. Chỉ xử lý dữ liệu đã được lưu trữ hoàn chỉnh.
D. Xử lý dữ liệu theo từng lô lớn định kỳ.

33. Công nghệ nào là một phần của hệ sinh thái Hadoop và được sử dụng để lưu trữ dữ liệu phân tán?

A. Apache Kafka
B. HDFS (Hadoop Distributed File System)
C. Apache Spark
D. Apache Flink

34. Apache Spark được đánh giá cao hơn MapReduce truyền thống ở khía cạnh nào?

A. Khả năng xử lý dữ liệu không cấu trúc.
B. Khả năng xử lý dữ liệu theo thời gian thực.
C. Tốc độ xử lý do sử dụng bộ nhớ (in-memory processing) và tối ưu hóa cho nhiều loại tác vụ.
D. Độ phức tạp trong việc lập trình.

35. Khái niệm ‘Variety’ trong 3V của BigData ám chỉ đến:

A. Tốc độ thay đổi của dữ liệu theo thời gian.
B. Sự phức tạp và đa dạng của các loại hình dữ liệu.
C. Khối lượng dữ liệu được tạo ra mỗi giây.
D. Độ tin cậy và tính nhất quán của dữ liệu.

36. Tại sao việc sử dụng các công cụ phân tích BigData lại quan trọng đối với các doanh nghiệp hiện nay?

A. Để giảm thiểu số lượng dữ liệu cần lưu trữ.
B. Để hiểu rõ hơn về khách hàng, tối ưu hóa hoạt động và đưa ra quyết định kinh doanh dựa trên dữ liệu.
C. Để thay thế hoàn toàn vai trò của con người trong các quyết định.
D. Để chỉ tập trung vào dữ liệu lịch sử mà không cần quan tâm đến dữ liệu mới.

37. Cơ sở dữ liệu NoSQL nào thường được sử dụng cho các trường hợp cần lưu trữ dữ liệu với độ trễ thấp và khả năng mở rộng cao, ví dụ như lưu trữ phiên làm việc của người dùng?

A. Neo4j
B. Cassandra
C. MongoDB
D. Redis

38. Trong Hadoop, ‘Sqoop’ là công cụ được sử dụng để:

A. Trực quan hóa dữ liệu từ HDFS.
B. Truyền dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (ví dụ: MySQL, Oracle).
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Quản lý tài nguyên trong cụm Hadoop.

39. Trong Hadoop, ‘DataNode’ là thành phần chịu trách nhiệm:

A. Quản lý siêu dữ liệu của hệ thống tệp.
B. Lưu trữ và truy xuất các khối dữ liệu (data blocks) theo yêu cầu của NameNode.
C. Lập lịch trình cho các tác vụ MapReduce.
D. Cung cấp giao diện truy vấn SQL.

40. Khái niệm ‘Data Silo’ trong quản lý dữ liệu BigData đề cập đến tình trạng:

A. Dữ liệu được lưu trữ tập trung và dễ dàng truy cập.
B. Dữ liệu bị phân mảnh và cô lập trong các hệ thống hoặc phòng ban khác nhau, gây khó khăn cho việc truy cập và tích hợp.
C. Dữ liệu đã được làm sạch và chuẩn hóa hoàn toàn.
D. Dữ liệu được mã hóa để bảo mật.

41. Một công ty muốn phân tích cảm xúc của khách hàng từ các bình luận trên mạng xã hội. Dữ liệu này thuộc loại nào và cần kỹ thuật xử lý gì?

A. Dữ liệu có cấu trúc; cần kỹ thuật SQL.
B. Dữ liệu bán cấu trúc; cần kỹ thuật phân tích chuỗi thời gian.
C. Dữ liệu phi cấu trúc (văn bản); cần kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP).
D. Dữ liệu có cấu trúc; cần kỹ thuật phân cụm.

42. Trong phân tích Dữ liệu lớn, ‘Data Lake’ và ‘Data Warehouse’ là hai khái niệm thường được nhắc đến. Điểm khác biệt cốt lõi giữa chúng là gì?

A. Data Warehouse lưu trữ dữ liệu thô, Data Lake lưu trữ dữ liệu đã qua xử lý.
B. Data Lake sử dụng mô hình ‘Schema-on-Write’, Data Warehouse sử dụng mô hình ‘Schema-on-Read’.
C. Data Lake lưu trữ dữ liệu thô với mọi định dạng, Data Warehouse lưu trữ dữ liệu đã được định nghĩa cấu trúc và làm sạch.
D. Data Warehouse chỉ phù hợp cho dữ liệu có cấu trúc, Data Lake phù hợp cho mọi loại dữ liệu.

43. Trong Spark SQL, DataFrame là một cấu trúc dữ liệu phổ biến. So với RDD, DataFrame cung cấp những lợi ích gì?

A. DataFrame chỉ hỗ trợ dữ liệu phi cấu trúc.
B. DataFrame có hiệu suất xử lý kém hơn RDD do thêm lớp trừu tượng.
C. DataFrame cung cấp tối ưu hóa truy vấn thông minh hơn và có thể làm việc với dữ liệu có cấu trúc, bán cấu trúc hiệu quả hơn.
D. DataFrame không thể thực hiện các phép biến đổi phức tạp.

44. Một nhà phân tích dữ liệu đang xem xét dữ liệu bán hàng và nhận thấy rằng có một số giá trị rất cao hoặc rất thấp so với phần lớn dữ liệu. Các giá trị này có thể ảnh hưởng đến kết quả phân tích thống kê và mô hình học máy. Các giá trị này được gọi là gì?

A. Giá trị trung vị (Median).
B. Độ lệch chuẩn (Standard Deviation).
C. Điểm ngoại lai (Outliers).
D. Giá trị ngoại suy (Extrapolated Values).

45. Hadoop MapReduce xử lý dữ liệu bằng cách chia thành hai giai đoạn chính. Giai đoạn ‘Reduce’ có vai trò gì?

A. Phân chia dữ liệu đầu vào thành các cặp khóa-giá trị.
B. Thực hiện các phép biến đổi trên từng bản ghi dữ liệu.
C. Tổng hợp và gom nhóm dữ liệu dựa trên các khóa giống nhau từ giai đoạn Map.
D. Lưu trữ dữ liệu cuối cùng vào HDFS.

46. Trong lĩnh vực Dữ liệu lớn, ‘ETL’ là một quy trình quan trọng. ETL là viết tắt của từ gì và thứ tự các bước trong quy trình này là gì?

A. Extract, Transform, Load; thứ tự: Transform, Extract, Load.
B. Extract, Transform, Load; thứ tự: Extract, Transform, Load.
C. Enterprise, Transform, Link; thứ tự: Extract, Load, Transform.
D. Extract, Transfer, Load; thứ tự: Load, Transform, Extract.

47. Trong xử lý Dữ liệu lớn, thuật toán phân cụm (Clustering) thường được sử dụng để làm gì?

A. Dự đoán giá trị tương lai dựa trên dữ liệu lịch sử.
B. Phân loại dữ liệu vào các nhóm đã định trước.
C. Tìm kiếm các mối quan hệ ẩn giữa các biến dữ liệu.
D. Nhóm các điểm dữ liệu tương tự nhau thành các cụm mà không cần nhãn trước.

48. Một công ty phân tích dữ liệu giao dịch tài chính, nơi mỗi giao dịch được ghi lại ngay lập tức và cần được xử lý để phát hiện gian lận trong vòng vài mili giây. Yếu tố nào của Dữ liệu lớn được nhấn mạnh nhất ở đây?

A. Volume (Khối lượng).
B. Variety (Đa dạng).
C. Velocity (Tốc độ).
D. Veracity (Tính xác thực).

49. Trong Apache Spark, khái niệm ‘Lazy Evaluation’ có ý nghĩa gì đối với việc thực thi các phép biến đổi trên RDD hoặc DataFrame?

A. Mọi phép biến đổi được thực thi ngay lập tức khi được định nghĩa.
B. Các phép biến đổi chỉ được thực thi khi một hành động (action) yêu cầu kết quả cuối cùng.
C. Các phép biến đổi chỉ được thực thi khi dữ liệu được lưu vào HDFS.
D. Các phép biến đổi được thực thi theo thứ tự ngược lại.

50. Trong Spark, ‘Spark Core’ cung cấp những chức năng cơ bản nào?

A. Chỉ cung cấp chức năng xử lý luồng dữ liệu (streaming).
B. Cung cấp API để làm việc với RDD, lập lịch tác vụ, quản lý bộ nhớ và truy cập tệp.
C. Chỉ cung cấp chức năng xử lý SQL và Machine Learning.
D. Cung cấp giao diện người dùng để giám sát các ứng dụng Spark.

51. Một công ty muốn theo dõi và phân tích các sự kiện xảy ra trên hệ thống máy chủ của mình theo thời gian thực để phát hiện các lỗi hoặc hành vi bất thường. Dữ liệu này có đặc điểm gì về ‘Velocity’?

A. Dữ liệu có khối lượng lớn nhưng ít thay đổi.
B. Dữ liệu được tạo ra liên tục và cần được xử lý ngay lập tức.
C. Dữ liệu có cấu trúc cố định và dễ dự đoán.
D. Dữ liệu chỉ được thu thập sau khi có sự cố xảy ra.

52. Một hệ thống Dữ liệu lớn cần đảm bảo rằng dữ liệu được sao lưu và có thể phục hồi khi có sự cố. Khía cạnh nào của Dữ liệu lớn liên quan trực tiếp đến yêu cầu này?

A. Volume (Khối lượng).
B. Variety (Đa dạng).
C. Velocity (Tốc độ).
D. Veracity (Tính xác thực) / Resilience (Khả năng phục hồi).

53. Một công ty thu thập dữ liệu từ các cảm biến IoT đặt tại nhiều địa điểm khác nhau. Dữ liệu này thường có đặc điểm gì về ‘Velocity’?

A. Dữ liệu có khối lượng lớn nhưng ít thay đổi.
B. Dữ liệu được tạo ra và cập nhật liên tục với tần suất cao.
C. Dữ liệu có cấu trúc rõ ràng và ít biến động.
D. Dữ liệu chỉ được thu thập định kỳ.

54. Một nhà phân tích dữ liệu muốn dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí. Đây là một bài toán thuộc loại học máy nào?

A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Hồi quy (Regression).
D. Học tăng cường (Reinforcement Learning).

55. Một nhà phân tích dữ liệu cần xây dựng mô hình để phân loại email là thư rác (spam) hay không phải thư rác (not spam). Đây là một bài toán thuộc loại học máy nào?

A. Học không giám sát (Unsupervised Learning).
B. Học có giám sát (Supervised Learning) – Phân loại (Classification).
C. Học tăng cường (Reinforcement Learning).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

56. Hệ thống phân tán Hadoop MapReduce được thiết kế để xử lý dữ liệu trên quy mô lớn. Đâu là vai trò chính của giai đoạn ‘Map’ trong quá trình này?

A. Tổng hợp và giảm thiểu dữ liệu từ các tác vụ Map.
B. Phân chia dữ liệu đầu vào thành các phần nhỏ và xử lý song song.
C. Lọc và biến đổi dữ liệu để chuẩn bị cho giai đoạn Reduce.
D. Trình bày kết quả cuối cùng sau khi xử lý.

57. Hadoop YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong hệ sinh thái Hadoop. Chức năng chính của YARN là gì?

A. Quản lý lưu trữ dữ liệu phân tán.
B. Quản lý tài nguyên và lập lịch cho các ứng dụng xử lý dữ liệu trên Hadoop.
C. Thực hiện các phép biến đổi dữ liệu trong bộ nhớ.
D. Cung cấp giao diện truy vấn SQL cho HDFS.

58. Một nhà phân tích dữ liệu muốn xác định các mẫu hình trong dữ liệu mà không có ý tưởng trước về các mẫu đó. Phương pháp nào sau đây phù hợp nhất?

A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering) hoặc Khai thác luật kết hợp (Association Rule Mining).
D. Học tăng cường (Reinforcement Learning).

59. Một ứng dụng cần phân tích lưu lượng truy cập website theo thời gian thực để phát hiện các bất thường. Yếu tố ‘Velocity’ của Dữ liệu lớn được thể hiện rõ nhất trong trường hợp này là gì?

A. Dữ liệu truy cập có nhiều loại khác nhau (văn bản log, hình ảnh).
B. Dữ liệu truy cập có khối lượng lớn.
C. Dữ liệu truy cập được tạo ra và cần xử lý với tốc độ rất cao.
D. Dữ liệu truy cập có thể không nhất quán về định dạng.

60. Một nhà khoa học dữ liệu muốn xây dựng một mô hình dự đoán xem một giao dịch thẻ tín dụng có phải là gian lận hay không. Đây là một bài toán thuộc loại học máy nào?

A. Học không giám sát (Unsupervised Learning).
B. Học có giám sát (Supervised Learning) – Phân loại (Classification).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).

61. Trong Hadoop, ‘DataNode’ có chức năng gì?

A. Quản lý siêu dữ liệu của hệ thống tệp.
B. Lưu trữ các khối dữ liệu thực tế và thực hiện các hoạt động đọc/ghi theo yêu cầu.
C. Lập lịch và phân bổ tài nguyên cho các ứng dụng.
D. Cung cấp giao diện người dùng để quản lý Hadoop.

62. Một công ty thu thập dữ liệu giao dịch của khách hàng từ nhiều nguồn khác nhau như website, ứng dụng di động và cửa hàng vật lý. Dữ liệu này có đặc điểm gì nổi bật về ‘Variety’ trong Dữ liệu lớn?

A. Dữ liệu có tốc độ tạo ra rất nhanh.
B. Dữ liệu có cấu trúc đa dạng, từ có cấu trúc đến phi cấu trúc.
C. Dữ liệu có khối lượng rất lớn.
D. Dữ liệu có thể không nhất quán hoặc không chính xác.

63. Trong phân tích Dữ liệu lớn, ‘data lineage’ là một khái niệm quan trọng. Nó đề cập đến điều gì?

A. Chất lượng và độ tin cậy của dữ liệu.
B. Nguồn gốc, quá trình di chuyển và các biến đổi mà dữ liệu đã trải qua.
C. Tốc độ xử lý của hệ thống dữ liệu.
D. Khối lượng dữ liệu được lưu trữ.

64. Apache Kafka là một nền tảng phân tán dùng để xử lý luồng dữ liệu (stream processing). Vai trò chính của Kafka là gì trong hệ sinh thái Dữ liệu lớn?

A. Lưu trữ dữ liệu có cấu trúc trong kho dữ liệu.
B. Thực hiện các phép biến đổi dữ liệu phức tạp trong bộ nhớ.
C. Cung cấp một nền tảng nhắn tin phân tán, có khả năng chịu lỗi, để xây dựng các pipeline dữ liệu thời gian thực.
D. Thực hiện phân tích dữ liệu theo lô (batch processing).

65. Apache Spark là một framework xử lý dữ liệu lớn phổ biến. Điểm mạnh chính của Spark so với MapReduce truyền thống trong Hadoop là gì?

A. Chỉ hỗ trợ xử lý dữ liệu batch, không hỗ trợ streaming.
B. Xử lý dữ liệu chủ yếu dựa trên đĩa (disk-based), chậm hơn MapReduce.
C. Xử lý dữ liệu trong bộ nhớ (in-memory processing), cho phép tốc độ nhanh hơn đáng kể.
D. Yêu cầu cấu trúc dữ liệu nghiêm ngặt và không hỗ trợ dữ liệu phi cấu trúc.

66. Một nhà phân tích dữ liệu muốn tìm hiểu hành vi mua sắm của khách hàng bằng cách nhóm các khách hàng có lịch sử mua sắm tương tự nhau. Phương pháp nào sau đây phù hợp nhất cho nhiệm vụ này?

A. Hồi quy tuyến tính (Linear Regression).
B. Phân cụm (Clustering).
C. Phân loại (Classification).
D. Học tăng cường (Reinforcement Learning).

67. Trong kiến trúc Dữ liệu lớn, ‘Data Streaming’ đề cập đến việc xử lý loại dữ liệu nào?

A. Dữ liệu được lưu trữ trong các tệp tĩnh và được xử lý theo lô (batch).
B. Dữ liệu được tạo ra và truyền liên tục, cần được xử lý gần như ngay lập tức.
C. Dữ liệu có cấu trúc được truy vấn bằng SQL.
D. Dữ liệu được nén và lưu trữ trong kho dữ liệu.

68. Trong kiến trúc Dữ liệu lớn, khái niệm ‘3Vs’ ban đầu được đề xuất bởi ai và thường được mở rộng thêm những ‘V’ nào để mô tả sự phức tạp của dữ liệu?

A. Doug Laney; mở rộng thêm Veracity và Value.
B. Michael Stonebraker; mở rộng thêm Velocity và Variety.
C. Jeff Hammerbacher và DJ Patil; mở rộng thêm Veracity, Variability và Value.
D. Tim Berners-Lee; mở rộng thêm Volume và Velocity.

69. Một công ty muốn phân tích hành vi người dùng trên ứng dụng di động để hiểu rõ hơn về cách họ tương tác với các tính năng. Dữ liệu thu thập được bao gồm lượt nhấp, thời gian sử dụng tính năng, và các sự kiện người dùng. Dữ liệu này có đặc điểm gì về ‘Variety’?

A. Dữ liệu có khối lượng rất lớn.
B. Dữ liệu có tốc độ tạo ra rất nhanh.
C. Dữ liệu có thể là sự kết hợp của dữ liệu có cấu trúc (như thông tin người dùng) và bán cấu trúc (như chuỗi sự kiện).
D. Dữ liệu có thể không nhất quán hoặc sai lệch.

70. Khi phân tích Dữ liệu lớn, yếu tố ‘Veracity’ đề cập đến điều gì?

A. Tốc độ tạo ra dữ liệu.
B. Khối lượng dữ liệu.
C. Tính đa dạng của dữ liệu.
D. Độ tin cậy, tính chính xác và chất lượng của dữ liệu.

71. Trong phân tích Dữ liệu lớn, thuật toán ‘Decision Tree’ thường được sử dụng cho bài toán gì?

A. Phân cụm (Clustering).
B. Phân loại (Classification) và Hồi quy (Regression).
C. Giảm chiều dữ liệu (Dimensionality Reduction).
D. Phát hiện bất thường (Anomaly Detection).

72. Hadoop Distributed File System (HDFS) là hệ thống lưu trữ phân tán cốt lõi của Hadoop. Đặc điểm nào sau đây mô tả đúng cách HDFS lưu trữ các tệp lớn?

A. Lưu trữ toàn bộ tệp trên một máy chủ duy nhất để đảm bảo tính nhất quán.
B. Chia tệp thành các khối có kích thước cố định và phân tán chúng trên nhiều máy chủ (DataNodes).
C. Nén toàn bộ tệp trước khi lưu trữ để tiết kiệm không gian.
D. Sử dụng cơ sở dữ liệu quan hệ để quản lý siêu dữ liệu của tệp.

73. Trong kiến trúc Hadoop, ‘Secondary NameNode’ (hoặc Checkpoint Node) có vai trò gì?

A. Sao lưu toàn bộ dữ liệu từ các DataNodes.
B. Thực thi các tác vụ MapReduce.
C. Hỗ trợ NameNode bằng cách định kỳ hợp nhất các chỉnh sửa vào tệp fsimage và tạo ra một bản sao lưu của nó.
D. Quản lý việc phân phối tài nguyên trên cụm Hadoop.

74. Trong Spark, RDD (Resilient Distributed Dataset) là một cấu trúc dữ liệu cơ bản. Đặc điểm ‘Resilient’ của RDD có nghĩa là gì?

A. RDD chỉ có thể được xử lý trên một máy tính.
B. RDD có khả năng tự phục hồi khi một phần dữ liệu bị mất hoặc lỗi.
C. RDD luôn được lưu trữ trên đĩa.
D. RDD yêu cầu tất cả các nút trong cụm phải hoạt động.

75. Trong các framework xử lý Dữ liệu lớn, ‘batch processing’ và ‘stream processing’ là hai mô hình khác nhau. Điểm khác biệt cơ bản giữa chúng là gì?

A. Batch processing xử lý dữ liệu liên tục, stream processing xử lý theo lô.
B. Batch processing xử lý các tập dữ liệu lớn đã hoàn chỉnh, stream processing xử lý dữ liệu đến theo thời gian thực.
C. Batch processing yêu cầu độ trễ thấp, stream processing có thể chấp nhận độ trễ cao.
D. Batch processing chỉ phù hợp với dữ liệu có cấu trúc, stream processing phù hợp với mọi loại dữ liệu.

76. Trong phân tích Dữ liệu lớn, kỹ thuật ‘Association Rule Mining’ thường được sử dụng để tìm kiếm gì?

A. Các điểm dữ liệu bất thường (outliers).
B. Các nhóm khách hàng có hành vi tương tự.
C. Các mối quan hệ hoặc quy luật phổ biến giữa các mục trong tập dữ liệu (ví dụ: ‘khách hàng mua sản phẩm A thường mua sản phẩm B’).
D. Dự đoán một biến liên tục dựa trên các biến khác.

77. Trong Hadoop, ‘JobTracker’ và ‘TaskTrackers’ là các thành phần của kiến trúc MapReduce cũ (trước YARN). Vai trò của JobTracker là gì?

A. Quản lý lưu trữ các khối dữ liệu.
B. Thực thi các tác vụ xử lý Map và Reduce trên các TaskTrackers.
C. Lập lịch các công việc (jobs), theo dõi trạng thái và phân phối tác vụ cho các TaskTrackers.
D. Cung cấp giao diện người dùng để giám sát Hadoop.

78. Trong Hadoop, ‘NameNode’ đóng vai trò quan trọng trong HDFS. Chức năng chính của NameNode là gì?

A. Thực thi các tác vụ xử lý MapReduce.
B. Lưu trữ và quản lý các khối dữ liệu thực tế.
C. Quản lý siêu dữ liệu của hệ thống tệp, bao gồm cấu trúc thư mục và vị trí các khối dữ liệu.
D. Cung cấp giao diện người dùng để tương tác với HDFS.

79. Một nhà khoa học dữ liệu đang làm việc với tập dữ liệu lớn chứa nhiều thuộc tính (features). Để giảm số chiều của dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng, kỹ thuật nào sau đây thường được áp dụng?

A. Phân cụm (Clustering).
B. Hồi quy (Regression).
C. Giảm chiều dữ liệu (Dimensionality Reduction), ví dụ PCA (Principal Component Analysis).
D. Phân loại (Classification).

80. Trong phân tích Dữ liệu lớn, ‘Data Governance’ là một khía cạnh quan trọng. Mục tiêu chính của Data Governance là gì?

A. Tăng tốc độ xử lý dữ liệu.
B. Đảm bảo chất lượng, tính nhất quán, bảo mật và khả năng sử dụng của dữ liệu.
C. Phát triển các thuật toán học máy mới.
D. Thiết kế kiến trúc lưu trữ dữ liệu mới.

81. Khái niệm ‘Data Virtuality’ trong Big Data đề cập đến việc gì?

A. Tạo ra dữ liệu giả lập để thử nghiệm.
B. Truy cập và tích hợp dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép chúng.
C. Đảm bảo tính chính xác và toàn vẹn của dữ liệu.
D. Phân tích dữ liệu bằng cách sử dụng các kỹ thuật thực tế ảo.

82. Công cụ ‘Apache Hive’ được phát triển trên nền tảng Hadoop. Chức năng chính của Hive là gì?

A. Quản lý tài nguyên cluster.
B. Cung cấp một hệ thống truy vấn SQL cho dữ liệu được lưu trữ trong HDFS.
C. Thực thi các tác vụ xử lý luồng dữ liệu.
D. Lưu trữ dữ liệu dưới dạng key-value.

83. Tại sao việc xử lý dữ liệu theo thời gian thực (real-time processing) ngày càng trở nên quan trọng trong các ứng dụng Big Data?

A. Nó giúp giảm chi phí lưu trữ dữ liệu.
B. Nó cho phép đưa ra quyết định và hành động ngay lập tức dựa trên dữ liệu mới nhất.
C. Nó đơn giản hóa quá trình làm sạch dữ liệu.
D. Nó chỉ yêu cầu một lượng nhỏ dữ liệu để hoạt động.

84. Khái niệm ‘Data Pipeline’ trong Big Data ám chỉ điều gì?

A. Một hệ thống lưu trữ dữ liệu tập trung.
B. Một chuỗi các bước xử lý dữ liệu, từ thu thập, làm sạch, chuyển đổi đến phân tích và lưu trữ.
C. Một công cụ để trực quan hóa dữ liệu.
D. Một thuật toán học máy để dự đoán.

85. Hadoop Ecosystem bao gồm nhiều công cụ khác nhau. Công cụ nào thường được sử dụng để xử lý dữ liệu dạng bảng và thực hiện các truy vấn phức tạp giống SQL trên Big Data?

A. Apache Kafka
B. Apache Spark
C. Apache Pig
D. Apache Hive

86. Trong các mô hình NoSQL, ‘Key-Value Stores’ (Kho Key-Value) là loại cơ sở dữ liệu đơn giản nhất. Ví dụ điển hình nào về ứng dụng của Key-Value Stores?

A. Lưu trữ dữ liệu mạng xã hội và các mối quan hệ phức tạp.
B. Lưu trữ cấu hình ứng dụng, phiên người dùng (session data) hoặc bộ nhớ đệm (caching).
C. Phân tích dữ liệu bán cấu trúc như XML hoặc JSON.
D. Xử lý các giao dịch tài chính theo thời gian thực.

87. Hadoop là một framework mã nguồn mở quan trọng trong hệ sinh thái Big Data. Thành phần cốt lõi nào của Hadoop chịu trách nhiệm về lưu trữ dữ liệu phân tán?

A. MapReduce
B. HDFS (Hadoop Distributed File System)
C. YARN (Yet Another Resource Negotiator)
D. Hive

88. Apache Spark được biết đến với hiệu năng xử lý nhanh hơn MapReduce. Yếu tố chính nào đóng góp vào sự vượt trội về tốc độ của Spark?

A. Spark chỉ chạy trên các cụm phần cứng chuyên dụng và đắt tiền.
B. Spark xử lý dữ liệu trong bộ nhớ (in-memory processing) thay vì ghi trung gian ra đĩa.
C. Spark sử dụng mô hình lập trình đơn giản hơn và không cần giai đoạn Reduce.
D. Spark chỉ tập trung vào xử lý dữ liệu có cấu trúc và bỏ qua dữ liệu phi cấu trúc.

89. Khi xây dựng một hệ thống Big Data, yếu tố ‘Variety’ (Đa dạng) ám chỉ điều gì?

A. Tốc độ dữ liệu được tạo ra và xử lý.
B. Số lượng lớn của dữ liệu.
C. Sự phong phú về định dạng và loại hình dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc).
D. Tính chính xác và đáng tin cậy của dữ liệu.

90. Trong các mô hình lưu trữ NoSQL, ‘Cơ sở dữ liệu Cột’ (Columnar Database) có ưu điểm gì so với cơ sở dữ liệu Quan hệ truyền thống khi xử lý các tập dữ liệu rất lớn?

A. Cột lưu trữ toàn bộ dữ liệu của một hàng cùng nhau, giúp truy cập nhanh các hàng.
B. Cột lưu trữ dữ liệu theo từng cột riêng biệt, hiệu quả cho các truy vấn chỉ cần một vài cột.
C. Cột có cấu trúc bảng cố định và tuân thủ nghiêm ngặt ACID.
D. Cột phù hợp cho các giao dịch có tần suất ghi cao.

91. Hadoop YARN (Yet Another Resource Negotiator) là một hệ chế độ quản lý tài nguyên cho Hadoop. Vai trò chính của YARN là gì?

A. Quản lý việc lưu trữ dữ liệu trong HDFS.
B. Phân phối tài nguyên tính toán (CPU, bộ nhớ) cho các ứng dụng chạy trên Hadoop.
C. Thực thi các tác vụ MapReduce trên các DataNodes.
D. Cung cấp giao diện người dùng để tương tác với Hadoop.

92. Trong lĩnh vực Big Data, ‘Machine Learning Operations’ (MLOps) là một phương pháp quan trọng. Mục tiêu chính của MLOps là gì?

A. Phát triển các thuật toán học máy mới.
B. Tự động hóa và đơn giản hóa quy trình triển khai, quản lý và giám sát các mô hình học máy trong môi trường sản xuất.
C. Thu thập và làm sạch dữ liệu huấn luyện.
D. Thiết kế giao diện người dùng cho các ứng dụng AI.

93. Khi sử dụng Apache Spark, khái niệm ‘DataFrame’ là gì và nó khác gì với RDD?

A. DataFrame là một tập hợp các phần tử có thể chịu lỗi, còn RDD là một cấu trúc có lược đồ.
B. DataFrame là một cấu trúc dữ liệu có tổ chức dưới dạng các cột có tên, giống như bảng trong cơ sở dữ liệu quan hệ, cung cấp hiệu năng tốt hơn RDD thông qua tối ưu hóa.
C. DataFrame chỉ hỗ trợ dữ liệu phi cấu trúc, còn RDD hỗ trợ dữ liệu có cấu trúc.
D. DataFrame yêu cầu ghi dữ liệu ra đĩa sau mỗi phép toán, còn RDD xử lý hoàn toàn trong bộ nhớ.

94. So với cơ sở dữ liệu quan hệ truyền thống, cơ sở dữ liệu NoSQL thường được ưu tiên sử dụng cho các ứng dụng Big Data vì lý do gì?

A. Cơ sở dữ liệu NoSQL có tính nhất quán mạnh mẽ hơn và cấu trúc bảng rõ ràng.
B. Cơ sở dữ liệu NoSQL có khả năng mở rộng theo chiều ngang (horizontal scalability) tốt hơn và linh hoạt với lược đồ dữ liệu.
C. Cơ sở dữ liệu NoSQL chỉ hỗ trợ các loại dữ liệu có cấu trúc và yêu cầu ít tài nguyên hơn.
D. Cơ sở dữ liệu NoSQL tuân thủ nghiêm ngặt các tiêu chuẩn ACID (Atomicity, Consistency, Isolation, Durability).

95. Trong các công nghệ xử lý Big Data, ‘Apache Flink’ thường được sử dụng cho mục đích gì?

A. Lưu trữ dữ liệu có cấu trúc.
B. Xử lý luồng dữ liệu theo thời gian thực với độ trễ thấp và khả năng xử lý sự kiện phức tạp (CEP).
C. Xây dựng các kho dữ liệu truyền thống.
D. Thực hiện các truy vấn batch trên HDFS.

96. Trong Machine Learning cho Big Data, thuật toán nào thường được sử dụng để phân loại dữ liệu hoặc dự đoán xác suất?

A. K-Means Clustering.
B. Linear Regression.
C. Logistic Regression.
D. Principal Component Analysis (PCA).

97. Trong Spark, ‘Spark SQL’ là một module cho phép làm việc với dữ liệu có cấu trúc. Nó hỗ trợ những loại nguồn dữ liệu nào?

A. Chỉ hỗ trợ các tệp văn bản thuần túy.
B. Hỗ trợ nhiều nguồn dữ liệu như HDFS, Hive, JSON, Parquet, và cơ sở dữ liệu quan hệ thông qua JDBC.
C. Chỉ hỗ trợ các định dạng dữ liệu NoSQL.
D. Chỉ hỗ trợ dữ liệu được lưu trữ trong bộ nhớ của Spark.

98. Khi nói về các loại dữ liệu trong Big Data, ‘dữ liệu bán cấu trúc’ (semi-structured data) có đặc điểm gì nổi bật?

A. Dữ liệu hoàn toàn không có bất kỳ cấu trúc nào, ví dụ như hình ảnh hoặc video.
B. Dữ liệu tuân theo một lược đồ cố định và có thể được lưu trữ trong bảng, ví dụ như cơ sở dữ liệu SQL.
C. Dữ liệu có các thẻ hoặc dấu hiệu để phân tách các yếu tố ngữ nghĩa, ví dụ như JSON hoặc XML.
D. Dữ liệu được tạo ra theo thời gian thực từ các cảm biến hoặc nhật ký hệ thống.

99. Trong phân tích Big Data, ‘Data Visualization’ (Trực quan hóa dữ liệu) đóng vai trò gì?

A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Làm sạch và tiền xử lý dữ liệu.
C. Giúp người dùng hiểu và diễn giải các mẫu, xu hướng và các điểm bất thường trong dữ liệu một cách trực quan.
D. Xây dựng các mô hình học máy phức tạp.

100. Trong lĩnh vực Big Data, ‘Data Governance’ đóng vai trò quan trọng. Khái niệm này bao quát những khía cạnh nào?

A. Chỉ tập trung vào việc lựa chọn công nghệ và công cụ phân tích dữ liệu.
B. Quản lý vòng đời dữ liệu, bao gồm chất lượng, bảo mật, quyền riêng tư và tuân thủ quy định.
C. Tự động hóa quá trình thu thập dữ liệu từ Internet.
D. Đào tạo nhân viên về các kỹ năng phân tích dữ liệu.

101. Khía cạnh ‘Value’ (Giá trị) trong Big Data đề cập đến điều gì?

A. Tốc độ dữ liệu được tạo ra.
B. Độ chính xác của dữ liệu.
C. Khả năng biến dữ liệu thô thành thông tin hữu ích và có thể hành động được.
D. Sự đa dạng của các loại dữ liệu.

102. Trong kiến trúc Big Data, khái niệm ‘Volume’ đề cập đến khía cạnh nào của dữ liệu?

A. Tốc độ tạo và xử lý dữ liệu.
B. Đa dạng về định dạng và nguồn gốc của dữ liệu.
C. Số lượng lớn của dữ liệu.
D. Tính chính xác và độ tin cậy của dữ liệu.

103. MapReduce là một mô hình lập trình cho phép xử lý song song lượng lớn dữ liệu trên các cụm máy tính. Giai đoạn ‘Map’ trong MapReduce có vai trò gì?

A. Kết hợp các cặp khóa-giá trị trung gian để tạo ra kết quả cuối cùng.
B. Lọc và chuyển đổi dữ liệu đầu vào thành các cặp khóa-giá trị trung gian.
C. Sắp xếp dữ liệu theo khóa để chuẩn bị cho giai đoạn Reduce.
D. Xử lý các lỗi và ngoại lệ trong quá trình phân tích dữ liệu.

104. Kafka là một nền tảng stream processing phổ biến. Mục đích chính của Kafka trong kiến trúc Big Data là gì?

A. Lưu trữ dữ liệu lịch sử trong kho dữ liệu.
B. Cung cấp một hệ thống nhắn tin phân tán, chịu lỗi cao để xử lý luồng dữ liệu thời gian thực.
C. Thực hiện các truy vấn phân tích phức tạp trên dữ liệu tĩnh.
D. Trực quan hóa dữ liệu dưới dạng biểu đồ và bảng điều khiển.

105. Khi nói về các mô hình lưu trữ dữ liệu NoSQL, loại nào phù hợp nhất cho việc lưu trữ các tài liệu có cấu trúc phức tạp và có thể thay đổi, như hồ sơ khách hàng hoặc bài viết blog?

A. Cơ sở dữ liệu Key-Value.
B. Cơ sở dữ liệu Cột (Columnar Database).
C. Cơ sở dữ liệu Tài liệu (Document Database).
D. Cơ sở dữ liệu Đồ thị (Graph Database).

106. Hadoop YARN có hai thành phần chính quản lý tài nguyên và ứng dụng. Đó là những thành phần nào?

A. NameNode và DataNode.
B. ResourceManager và NodeManager.
C. Map và Reduce.
D. JobTracker và TaskTracker.

107. Hadoop MapReduce sử dụng mô hình ‘Map’ và ‘Reduce’. Giai đoạn ‘Reduce’ có vai trò gì sau khi giai đoạn ‘Map’ đã hoàn thành?

A. Tạo ra các cặp khóa-giá trị trung gian.
B. Tổng hợp, lọc hoặc chuyển đổi các cặp khóa-giá trị trung gian để tạo ra kết quả cuối cùng.
C. Sắp xếp dữ liệu đầu vào.
D. Lưu trữ kết quả vào HDFS.

108. Trong ngữ cảnh Big Data, ‘Batch processing’ (xử lý theo lô) khác với ‘Stream processing’ (xử lý theo luồng) ở điểm nào?

A. Batch processing xử lý dữ liệu liên tục, còn Stream processing xử lý dữ liệu theo nhóm lớn.
B. Batch processing xử lý dữ liệu theo nhóm lớn tại một thời điểm, còn Stream processing xử lý dữ liệu liên tục khi chúng đến.
C. Batch processing yêu cầu phản hồi tức thời, còn Stream processing có thể chậm trễ.
D. Batch processing chỉ phù hợp với dữ liệu phi cấu trúc, còn Stream processing chỉ với dữ liệu có cấu trúc.

109. Trong phân tích Big Data, ‘ETL’ là viết tắt của gì và quy trình này thường được sử dụng để làm gì?

A. Extract, Transform, Load – dùng để chuẩn bị dữ liệu cho kho dữ liệu.
B. Evaluate, Tune, Leverage – dùng để tối ưu hóa hiệu suất hệ thống.
C. Explore, Test, Learn – dùng để thử nghiệm các mô hình học máy.
D. Embed, Track, Log – dùng để ghi lại hoạt động của người dùng.

110. Apache Spark có một khái niệm quan trọng gọi là ‘Resilient Distributed Datasets’ (RDDs). RDDs đại diện cho điều gì trong Spark?

A. Các tệp dữ liệu lớn được lưu trữ trong HDFS.
B. Một tập hợp các phần tử có thể được truy cập song song trên các nút trong một cluster, có khả năng chịu lỗi.
C. Các lệnh SQL được thực thi trên dữ liệu.
D. Các dịch vụ quản lý tài nguyên của Spark.

111. Trong các kỹ thuật phân tích Big Data, ‘Phân tích dự đoán’ (Predictive Analytics) tập trung vào mục tiêu gì?

A. Mô tả những gì đã xảy ra trong quá khứ.
B. Chẩn đoán nguyên nhân của một vấn đề.
C. Dự báo các sự kiện hoặc xu hướng trong tương lai dựa trên dữ liệu lịch sử.
D. Đề xuất các hành động tối ưu để đạt được mục tiêu.

112. So sánh giữa ‘Data Warehouse’ và ‘Data Lake’, điểm khác biệt cơ bản nhất là gì?

A. Data Warehouse lưu trữ dữ liệu thô, Data Lake lưu trữ dữ liệu đã xử lý.
B. Data Warehouse có cấu trúc dữ liệu linh hoạt, Data Lake có cấu trúc cố định.
C. Data Warehouse lưu trữ dữ liệu đã được định nghĩa lược đồ (schema-on-write), Data Lake lưu trữ dữ liệu thô ở định dạng gốc (schema-on-read).
D. Data Warehouse chỉ dùng cho phân tích thời gian thực, Data Lake cho xử lý theo lô.

113. Tại sao việc ‘Data Cleansing’ (Làm sạch dữ liệu) là một bước thiết yếu trong quy trình phân tích Big Data?

A. Để tăng dung lượng lưu trữ của dữ liệu.
B. Để đảm bảo tính chính xác và tin cậy của kết quả phân tích.
C. Để giảm thời gian xử lý dữ liệu.
D. Để chuyển đổi dữ liệu sang định dạng phi cấu trúc.

114. Trong phân tích Big Data, ‘Data Mining’ là một quá trình quan trọng. Mục tiêu chính của Data Mining là gì?

A. Trực quan hóa dữ liệu để dễ hiểu hơn.
B. Thu thập dữ liệu từ nhiều nguồn khác nhau.
C. Phát hiện các mẫu, xu hướng và mối quan hệ ẩn trong tập dữ liệu lớn.
D. Làm sạch và chuẩn hóa dữ liệu trước khi lưu trữ.

115. Hệ thống tệp phân tán Hadoop (HDFS) được thiết kế để lưu trữ dữ liệu có kích thước rất lớn trên nhiều máy chủ. Cấu trúc chính của HDFS bao gồm những thành phần nào?

A. Một máy chủ trung tâm (NameNode) quản lý metadata và nhiều máy chủ dữ liệu (DataNodes) lưu trữ các khối dữ liệu.
B. Nhiều máy chủ NameNode cân bằng tải metadata và nhiều máy chủ DataNodes lưu trữ dữ liệu.
C. Một máy chủ NameNode quản lý toàn bộ dữ liệu và metadata trên một hệ thống duy nhất.
D. Nhiều máy chủ dữ liệu (DataNodes) tự quản lý metadata và dữ liệu của chúng.

116. Khi nói về các thách thức của Big Data, ‘Velocity’ (Tốc độ) liên quan đến khía cạnh nào?

A. Độ phức tạp về cấu trúc dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý.
C. Số lượng lớn các loại dữ liệu.
D. Tính chính xác của dữ liệu.

117. Trong kiến trúc Big Data, các kho dữ liệu NoSQL được phân loại dựa trên cấu trúc dữ liệu mà chúng hỗ trợ. Loại nào phù hợp nhất để lưu trữ dữ liệu có mối quan hệ phức tạp giữa các thực thể, ví dụ như mạng xã hội hoặc hệ thống đề xuất?

A. Cơ sở dữ liệu Tài liệu (Document Database).
B. Cơ sở dữ liệu Cột (Columnar Database).
C. Cơ sở dữ liệu Key-Value.
D. Cơ sở dữ liệu Đồ thị (Graph Database).

118. Một trong những thách thức lớn nhất của Big Data là ‘Veracity’. Khái niệm này ám chỉ điều gì?

A. Khả năng xử lý dữ liệu theo thời gian thực.
B. Độ chính xác, độ tin cậy và tính xác thực của dữ liệu.
C. Sự đa dạng về loại hình dữ liệu.
D. Khả năng mở rộng của hệ thống lưu trữ.

119. Một kiến trúc Big Data hiện đại thường bao gồm lớp ‘Data Lake’. Chức năng chính của Data Lake là gì?

A. Lưu trữ dữ liệu có cấu trúc đã được xử lý và làm sạch.
B. Lưu trữ một lượng lớn dữ liệu thô, có cấu trúc, bán cấu trúc và phi cấu trúc ở định dạng gốc.
C. Chỉ lưu trữ dữ liệu giao dịch từ các ứng dụng trực tuyến.
D. Cung cấp giao diện truy vấn SQL trực tiếp trên các file CSV.

120. Trong phân tích Big Data, ‘Sentiment Analysis’ (Phân tích cảm xúc) là một kỹ thuật thuộc lĩnh vực nào?

A. Phân tích dự đoán.
B. Phân tích mô tả.
C. Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP).
D. Phân tích nhân đồ thị.

121. Trong các công nghệ của Hadoop, công cụ nào được sử dụng để thực hiện các truy vấn SQL trên dữ liệu được lưu trữ trong HDFS?

A. Apache Spark
B. Apache Hive
C. Apache Pig
D. Apache ZooKeeper

122. Công nghệ nào là một công cụ tìm kiếm và phân tích dữ liệu phân tán, có khả năng xử lý các truy vấn tìm kiếm phức tạp trên các tập dữ liệu lớn?

A. Apache Kafka
B. Apache Spark
C. Apache Solr
D. Apache Cassandra

123. Hệ thống nào cung cấp một nền tảng để xây dựng và quản lý các luồng dữ liệu lớn bằng cách sử dụng một mô hình xuất bản/đăng ký (publish/subscribe)?

A. Apache Kafka
B. Apache Cassandra
C. Apache Solr
D. Apache Flink

124. Khái niệm ‘Variety’ trong BigData đề cập đến:

A. Tốc độ mà dữ liệu được tạo ra và cập nhật.
B. Số lượng bản ghi trong tập dữ liệu.
C. Đa dạng về định dạng dữ liệu, bao gồm có cấu trúc, bán cấu trúc và phi cấu trúc.
D. Độ chính xác và độ tin cậy của dữ liệu.

125. Hệ thống NoSQL nào thuộc loại ‘Graph’ và được thiết kế để lưu trữ, truy vấn và quản lý các mối quan hệ giữa các thực thể dữ liệu?

A. MongoDB
B. Cassandra
C. Neo4j
D. Redis

126. Hệ thống NoSQL nào thường được sử dụng cho các ứng dụng yêu cầu truy cập dữ liệu nhanh chóng và có khả năng mở rộng cao, với mô hình dữ liệu dạng key-value?

A. PostgreSQL
B. MongoDB
C. Redis
D. MySQL

127. Trong kiến trúc Lambda, vai trò của ‘Serving Layer’ (Lớp phục vụ) là gì?

A. Xử lý dữ liệu lịch sử theo lô.
B. Lưu trữ dữ liệu thô chưa xử lý.
C. Truy vấn và tổng hợp kết quả từ cả Batch Layer và Speed Layer để cung cấp câu trả lời cho người dùng.
D. Quản lý các thuật toán học máy.

128. Trong bối cảnh BigData, ‘Data Cleansing’ (Làm sạch dữ liệu) là quá trình:

A. Tạo ra các mô hình dự đoán từ dữ liệu.
B. Xác định các mẫu và xu hướng trong dữ liệu.
C. Phát hiện và sửa chữa các lỗi, thiếu sót, hoặc không nhất quán trong dữ liệu.
D. Trực quan hóa dữ liệu dưới dạng biểu đồ.

129. Apache Spark được biết đến với khả năng xử lý dữ liệu nhanh hơn Hadoop MapReduce chủ yếu nhờ vào:

A. Sử dụng đĩa cứng làm bộ nhớ chính.
B. Xử lý dữ liệu trong bộ nhớ (in-memory processing).
C. Phụ thuộc hoàn toàn vào Apache HDFS.
D. Chỉ hỗ trợ xử lý dữ liệu có cấu trúc.

130. Cơ sở dữ liệu NoSQL nào thuộc loại ‘Column-family’ và thường được sử dụng để lưu trữ lượng lớn dữ liệu phi cấu trúc và bán cấu trúc trên các cụm máy tính phân tán?

A. MongoDB
B. Neo4j
C. Cassandra
D. Couchbase

131. Trong phân tích BigData, ‘Data Profiling’ (Phân tích hồ sơ dữ liệu) là quá trình:

A. Xây dựng các mô hình dự đoán.
B. Trực quan hóa dữ liệu dưới dạng biểu đồ.
C. Kiểm tra cấu trúc, nội dung, chất lượng và mối quan hệ của dữ liệu để hiểu rõ đặc điểm của nó.
D. Tối ưu hóa hiệu suất của cơ sở dữ liệu.

132. Đâu là một trong những thách thức chính khi làm việc với Dữ liệu lớn?

A. Thiếu hụt các công cụ phân tích dữ liệu.
B. Chi phí lưu trữ dữ liệu rất thấp.
C. Quản lý và xử lý dữ liệu có khối lượng, tốc độ và đa dạng cao.
D. Dữ liệu lớn luôn có cấu trúc rõ ràng.

133. Trong kiến trúc BigData, vai trò của ‘Data Warehouse’ là gì?

A. Lưu trữ dữ liệu thô từ nhiều nguồn khác nhau mà không cần xử lý.
B. Cung cấp một kho dữ liệu có cấu trúc, tích hợp, được thiết kế cho các truy vấn phân tích và báo cáo kinh doanh.
C. Xử lý dữ liệu theo thời gian thực.
D. Quản lý các dịch vụ web và API.

134. Đâu là một ví dụ về việc ứng dụng BigData trong lĩnh vực tài chính?

A. Phân tích hành vi người dùng trên website bán lẻ.
B. Phát hiện gian lận giao dịch thẻ tín dụng theo thời gian thực.
C. Tối ưu hóa lộ trình giao hàng.
D. Quản lý chuỗi cung ứng nông sản.

135. Trong Hadoop, vai trò của NameNode là gì?

A. Thực thi các tác vụ xử lý dữ liệu.
B. Quản lý metadata của hệ thống tệp HDFS (tên tệp, thư mục, vị trí block).
C. Thu thập dữ liệu từ các nguồn bên ngoài.
D. Lưu trữ dữ liệu thực tế trên các DataNode.

136. Công nghệ nào là một công cụ quan trọng trong hệ sinh thái Hadoop, được sử dụng để lập lịch và quản lý các công việc xử lý dữ liệu lớn?

A. Apache Kafka
B. Apache ZooKeeper
C. Apache Oozie
D. Apache Cassandra

137. Hệ thống NoSQL nào thuộc loại ‘Time Series’ và được tối ưu hóa để lưu trữ và truy vấn các chuỗi dữ liệu theo thời gian, thường dùng cho IoT hoặc giám sát hiệu suất?

A. MongoDB
B. Cassandra
C. InfluxDB
D. Neo4j

138. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) thường được định nghĩa là:

A. Một kho dữ liệu có cấu trúc cao, đã được làm sạch và chuyển đổi.
B. Một hệ thống lưu trữ tập trung, cho phép lưu trữ tất cả dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc ở định dạng gốc.
C. Một cơ sở dữ liệu quan hệ được tối ưu hóa cho các truy vấn phân tích phức tạp.
D. Một công cụ trực quan hóa dữ liệu tương tác.

139. Đâu là một ví dụ về dữ liệu có cấu trúc (structured data)?

A. Nội dung các bài đăng trên mạng xã hội.
B. Các tệp log từ máy chủ web.
C. Bảng trong cơ sở dữ liệu quan hệ với các cột và hàng được định nghĩa rõ ràng.
D. Các tệp âm thanh và hình ảnh.

140. Công nghệ nào thường được sử dụng để xử lý dữ liệu theo thời gian thực hoặc gần thời gian thực trong các ứng dụng BigData?

A. Apache Spark Streaming
B. Apache Hive
C. Apache Pig
D. Apache HBase

141. Khái niệm ‘Velocity’ trong BigData đề cập đến khía cạnh nào?

A. Sự đa dạng về định dạng dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý.
C. Tổng khối lượng dữ liệu.
D. Tính chính xác và độ tin cậy của dữ liệu.

142. Hệ thống NoSQL nào thuộc loại ‘Document’ và lưu trữ dữ liệu dưới dạng các tài liệu JSON hoặc BSON, cho phép truy vấn linh hoạt?

A. Cassandra
B. Redis
C. MongoDB
D. Neo4j

143. Trong phân tích BigData, ‘Data Mining’ thường liên quan đến việc:

A. Lưu trữ dữ liệu trên các máy chủ phân tán.
B. Trực quan hóa dữ liệu dưới dạng biểu đồ.
C. Khám phá các mẫu, xu hướng và mối quan hệ ẩn trong tập dữ liệu lớn.
D. Xây dựng các mô hình học máy từ đầu.

144. Đâu là một ứng dụng phổ biến của phân tích Dữ liệu lớn trong lĩnh vực y tế?

A. Tối ưu hóa chuỗi cung ứng phần cứng.
B. Phân tích hồ sơ bệnh án điện tử để dự đoán bệnh và cá nhân hóa điều trị.
C. Quản lý mạng xã hội.
D. Tự động hóa quy trình sản xuất.

145. Trong Hadoop, vai trò của DataNode là gì?

A. Quản lý metadata của hệ thống tệp.
B. Thực thi các tác vụ xử lý dữ liệu.
C. Lưu trữ các khối dữ liệu (data blocks) của HDFS và phục vụ yêu cầu đọc/ghi từ NameNode.
D. Lập lịch và giám sát các công việc.

146. Trong phân tích BigData, ‘Data Governance’ (Quản trị dữ liệu) có vai trò gì?

A. Phát triển các thuật toán học máy mới.
B. Thiết lập và thực thi các chính sách, quy trình, tiêu chuẩn để đảm bảo chất lượng, bảo mật và tuân thủ dữ liệu.
C. Trực quan hóa dữ liệu trên các bảng điều khiển.
D. Tối ưu hóa hiệu suất của các cụm Hadoop.

147. Công nghệ nào là một công cụ cho phép chạy các truy vấn SQL tương tác trên dữ liệu trong Hadoop hoặc các nguồn dữ liệu khác, thường được coi là nhanh hơn Hive cho các truy vấn ad-hoc?

A. Apache Pig
B. Apache Spark SQL
C. Apache Kafka
D. Apache Cassandra

148. Công nghệ nào là một công cụ ETL (Extract, Transform, Load) phổ biến trong hệ sinh thái Hadoop, cho phép người dùng viết các chương trình xử lý dữ liệu bằng ngôn ngữ giống Python?

A. Apache Hive
B. Apache Spark
C. Apache Pig
D. Apache HBase

149. Công nghệ nào là một công cụ quản lý tài nguyên và lập lịch cho các ứng dụng BigData chạy trên các cụm máy tính, ví dụ như Hadoop?

A. Apache Kafka
B. Apache Spark
C. Apache Mesos
D. Apache Cassandra

150. Trong kiến trúc Lambda, vai trò của ‘Speed Layer’ (Lớp tốc độ) là gì?

A. Xử lý và lưu trữ dữ liệu lịch sử một cách batch.
B. Cung cấp các cập nhật dữ liệu gần thời gian thực, sử dụng các thuật toán xử lý luồng.
C. Chỉ lưu trữ dữ liệu thô chưa qua xử lý.
D. Thực hiện các truy vấn SQL phức tạp trên dữ liệu đã tổng hợp.

151. Trong kiến trúc Lambda, vai trò của ‘Batch Layer’ (Lớp batch) là gì?

A. Cung cấp các cập nhật dữ liệu gần thời gian thực.
B. Xử lý dữ liệu lịch sử theo lô (batch) để tạo ra một ‘master dataset’ đáng tin cậy.
C. Lưu trữ dữ liệu thô chưa qua xử lý.
D. Quản lý các API cho ứng dụng.

152. Khái niệm ‘Veracity’ (Tính xác thực) trong BigData đề cập đến:

A. Tốc độ tạo ra dữ liệu.
B. Khối lượng của dữ liệu.
C. Sự đa dạng của dữ liệu.
D. Tính chính xác, độ tin cậy và chất lượng của dữ liệu.

153. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data)?

A. Bảng tính Excel chứa dữ liệu bán hàng.
B. Cơ sở dữ liệu quan hệ với các bảng và cột được định nghĩa rõ ràng.
C. Tệp âm thanh hoặc video.
D. Tệp CSV chứa danh sách khách hàng.

154. Hệ thống NoSQL nào thuộc loại ‘Wide-column Store’ và cung cấp khả năng mở rộng tuyến tính, tính sẵn sàng cao, với mô hình dữ liệu linh hoạt cho các ứng dụng BigData?

A. MongoDB
B. Neo4j
C. Cassandra
D. Redis

155. Hệ thống NoSQL nào được thiết kế để xử lý lượng lớn dữ liệu có tính sẵn sàng cao và chịu lỗi, sử dụng mô hình dữ liệu key-value và có khả năng phân tán mạnh mẽ?

A. PostgreSQL
B. Redis
C. Amazon DynamoDB
D. Microsoft SQL Server

156. Hệ thống phân tán nào là nền tảng cho nhiều công nghệ BigData, cho phép lưu trữ và xử lý dữ liệu lớn trên các cụm máy tính?

A. SQL Server
B. Oracle Database
C. Apache Hadoop Distributed File System (HDFS)
D. Microsoft Access

157. Trong Hadoop, vai trò của ResourceManager là gì?

A. Quản lý metadata của HDFS.
B. Lưu trữ các khối dữ liệu.
C. Quản lý tài nguyên tổng thể của cụm Hadoop và lập lịch cho các ứng dụng (ví dụ: MapReduce, Spark).
D. Xử lý các truy vấn SQL.

158. Trong phân tích BigData, thuật ngữ ‘Data Visualization’ (Trực quan hóa dữ liệu) đề cập đến:

A. Quá trình làm sạch và chuẩn hóa dữ liệu.
B. Biểu diễn dữ liệu dưới dạng biểu đồ, đồ thị hoặc bản đồ để dễ dàng hiểu và phân tích.
C. Thu thập dữ liệu từ nhiều nguồn khác nhau.
D. Xây dựng các mô hình dự đoán.

159. Trong bối cảnh Dữ liệu lớn, thuật ngữ ‘Volume’ đề cập đến khía cạnh nào của dữ liệu?

A. Tốc độ tạo và xử lý dữ liệu.
B. Đa dạng về định dạng và nguồn gốc của dữ liệu.
C. Khối lượng hoặc quy mô của dữ liệu.
D. Tính chân thực và độ tin cậy của dữ liệu.

160. Đâu là một ví dụ về dữ liệu bán cấu trúc (semi-structured data)?

A. Tệp hình ảnh JPEG.
B. Tệp âm thanh MP3.
C. Tệp XML hoặc JSON.
D. Tệp văn bản thuần túy.

161. Công nghệ NoSQL (Not Only SQL) nào thường được sử dụng cho các ứng dụng yêu cầu khả năng mở rộng cao và xử lý dữ liệu dạng văn bản hoặc tài liệu?

A. Apache Cassandra.
B. MongoDB.
C. Neo4j.
D. Redis.

162. DataNode trong HDFS có chức năng gì?

A. Quản lý toàn bộ hệ thống tệp và siêu dữ liệu.
B. Lưu trữ và truy xuất các block dữ liệu theo yêu cầu của NameNode.
C. Lập lịch và điều phối các tác vụ MapReduce.
D. Xử lý các yêu cầu đọc/ghi dữ liệu từ client.

163. Khái niệm ‘Schema-on-Read’ trong Big Data có nghĩa là:

A. Schema của dữ liệu phải được định nghĩa và áp dụng trước khi dữ liệu được lưu trữ.
B. Schema được định nghĩa và áp dụng tại thời điểm đọc dữ liệu.
C. Schema chỉ cần thiết cho dữ liệu có cấu trúc.
D. Schema được tạo tự động sau khi dữ liệu được xử lý.

164. Trong phân tích Big Data, khái niệm ‘Data Lake’ thường đề cập đến:

A. Một kho dữ liệu có cấu trúc, được tổ chức theo schema định sẵn.
B. Một kho dữ liệu lớn, thô, lưu trữ dữ liệu ở định dạng gốc của nó.
C. Một hệ thống xử lý dữ liệu thời gian thực.
D. Một cơ sở dữ liệu quan hệ được tối ưu hóa cho các truy vấn phân tích.

165. Apache Kafka được thiết kế chủ yếu để làm gì trong kiến trúc Big Data?

A. Lưu trữ dữ liệu có cấu trúc trong các bảng.
B. Thực hiện các phép phân tích dữ liệu thời gian thực.
C. Xây dựng các ứng dụng web có khả năng mở rộng.
D. Xây dựng các pipeline dữ liệu phân tán, có khả năng chịu lỗi và độ trễ thấp.

166. Trong kiến trúc Lambda, vai trò của lớp ‘Batch Layer’ là gì?

A. Xử lý dữ liệu thời gian thực với độ trễ thấp.
B. Lưu trữ toàn bộ dữ liệu lịch sử và thực hiện các phép tính phức tạp, chính xác trên dữ liệu đã hoàn chỉnh.
C. Kết hợp kết quả từ lớp Batch và Speed để tạo ra kết quả cuối cùng.
D. Chỉ xử lý dữ liệu mới được thêm vào hệ thống.

167. Apache Pig là một nền tảng phát triển ứng dụng trên Hadoop, cung cấp một ngôn ngữ cấp cao gọi là Pig Latin. Mục đích chính của Pig Latin là:

A. Thực hiện các giao dịch cơ sở dữ liệu quan hệ.
B. Viết các kịch bản xử lý dữ liệu ETL một cách đơn giản hơn so với MapReduce thuần túy.
C. Quản lý các cluster Hadoop.
D. Trực quan hóa dữ liệu.

168. Trong Apache Spark, khái niệm RDD (Resilient Distributed Dataset) là gì?

A. Một cấu trúc dữ liệu có thể thay đổi và không có khả năng chịu lỗi.
B. Một tập hợp các phần tử không có thứ tự và không thể chia nhỏ.
C. Một tập hợp các phần tử được phân chia trên nhiều máy, có khả năng chịu lỗi và không thể thay đổi.
D. Một biến toàn cục được chia sẻ giữa các tiến trình xử lý.

169. Đâu là thách thức chính khi làm việc với dữ liệu bán cấu trúc (semi-structured data) trong hệ thống Big Data?

A. Khó khăn trong việc tìm kiếm và truy vấn do thiếu schema cố định.
B. Yêu cầu về dung lượng lưu trữ rất lớn so với dữ liệu có cấu trúc.
C. Tốc độ xử lý chậm hơn nhiều so với dữ liệu phi cấu trúc.
D. Khó khăn trong việc phân tích mối quan hệ giữa các biến.

170. Đâu là mục đích chính của việc sử dụng ‘Reduce’ trong mô hình MapReduce?

A. Phân chia dữ liệu thành các phần nhỏ hơn để xử lý song song.
B. Lọc bỏ các bản ghi không phù hợp với tiêu chí.
C. Tổng hợp các cặp khóa-giá trị trung gian đã được ‘shuffle’ và ‘sort’ để tạo ra kết quả cuối cùng.
D. Trực quan hóa dữ liệu đã được xử lý.

171. Khía cạnh ‘Veracity’ trong các đặc tính của Big Data liên quan đến vấn đề gì?

A. Tốc độ xử lý dữ liệu.
B. Khối lượng dữ liệu.
C. Tính không chắc chắn, độ tin cậy và chất lượng của dữ liệu.
D. Sự đa dạng của dữ liệu.

172. Apache HBase là một cơ sở dữ liệu NoSQL được xây dựng trên HDFS, có đặc điểm chính là:

A. Lưu trữ dữ liệu theo định dạng tài liệu JSON.
B. Hỗ trợ các giao dịch ACID đầy đủ.
C. Cung cấp truy cập theo thời gian thực, độ trễ thấp cho các hàng dữ liệu lớn.
D. Sử dụng mô hình đồ thị để biểu diễn dữ liệu.

173. Trong HDFS, NameNode có vai trò gì?

A. Thực thi các tác vụ Map và Reduce.
B. Lưu trữ và quản lý siêu dữ liệu (metadata) của hệ thống tệp.
C. Chịu trách nhiệm về việc sao chép dữ liệu giữa các DataNode.
D. Giám sát hiệu suất của các DataNode.

174. Công cụ nào thường được sử dụng để truy vấn dữ liệu lớn được lưu trữ trong HDFS hoặc các hệ thống lưu trữ tương tự, sử dụng cú pháp giống SQL?

A. Apache Spark.
B. Apache Kafka.
C. Apache Hive hoặc Apache Impala.
D. Apache Cassandra.

175. Khi thực hiện phân tích cảm xúc (sentiment analysis) trên dữ liệu văn bản lớn, phương pháp nào là phù hợp?

A. Sử dụng thuật toán phân cụm K-Means để nhóm các từ khóa.
B. Áp dụng các kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP) và mô hình phân loại.
C. Chỉ phân tích tần suất xuất hiện của các từ.
D. Sử dụng thuật toán hồi quy tuyến tính để dự đoán cảm xúc.

176. Khái niệm ‘Volume’ trong 3V (hoặc 5V) của Big Data đề cập đến khía cạnh nào?

A. Tốc độ mà dữ liệu được tạo ra và xử lý.
B. Sự đa dạng về loại hình và định dạng của dữ liệu.
C. Khối lượng hoặc số lượng lớn của dữ liệu.
D. Tính xác thực và độ tin cậy của dữ liệu.

177. Trong việc xây dựng một hệ thống đề xuất (recommendation system) dựa trên dữ liệu Big Data, thuật toán nào thường được sử dụng?

A. K-Means Clustering.
B. Linear Regression.
C. Collaborative Filtering hoặc Content-Based Filtering.
D. Decision Tree.

178. Khái niệm ‘Variety’ trong các đặc tính của Big Data nhấn mạnh đến:

A. Tốc độ thu thập dữ liệu.
B. Sự đa dạng về nguồn, định dạng và loại hình dữ liệu.
C. Khả năng mở rộng của hệ thống lưu trữ.
D. Độ chính xác của dữ liệu.

179. Công nghệ nào thường được sử dụng để lưu trữ và xử lý dữ liệu có khối lượng lớn, phân tán trên nhiều máy chủ trong hệ sinh thái Big Data?

A. Apache Hadoop.
B. SQL Server.
C. Oracle Database.
D. Microsoft Access.

180. Khi nói về ‘Velocity’ trong các đặc tính của Big Data, điều này ám chỉ đến:

A. Sự đa dạng về nguồn và định dạng của dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và cần được xử lý.
C. Tính chính xác và độ tin cậy của dữ liệu.
D. Khối lượng dữ liệu được lưu trữ.

181. Công cụ nào thường được sử dụng để trực quan hóa dữ liệu Big Data, cho phép tạo ra các bảng điều khiển (dashboards) tương tác?

A. Apache Kafka.
B. Apache Spark.
C. Tableau, Power BI, hoặc Grafana.
D. Apache HBase.

182. Trong phân tích Big Data, ‘Data Governance’ đề cập đến:

A. Việc lưu trữ dữ liệu trên các hệ thống phân tán.
B. Quản lý chất lượng, bảo mật, khả năng sử dụng và tuân thủ của dữ liệu trong toàn bộ vòng đời của nó.
C. Việc sử dụng các thuật toán học máy để khám phá mẫu.
D. Việc xây dựng các pipeline dữ liệu thời gian thực.

183. Trong phân tích Big Data, thuật toán nào thường được sử dụng để gom nhóm các điểm dữ liệu tương tự nhau thành các cụm (clusters) mà không cần nhãn định trước?

A. Linear Regression.
B. Logistic Regression.
C. K-Means Clustering.
D. Decision Tree.

184. Công nghệ nào là một công cụ quan trọng trong hệ sinh thái Hadoop, được sử dụng để quản lý các công việc và tài nguyên phân tán?

A. Apache Kafka.
B. Apache Spark.
C. Apache ZooKeeper.
D. Apache Hive.

185. So với ‘Data Warehouse’, ‘Data Lake’ có đặc điểm gì khác biệt chính?

A. Data Lake yêu cầu schema được định nghĩa trước khi dữ liệu được nạp (schema-on-write).
B. Data Lake lưu trữ dữ liệu đã được làm sạch và chuyển đổi (ETL).
C. Data Lake lưu trữ dữ liệu thô ở định dạng gốc và schema được định nghĩa khi đọc (schema-on-read).
D. Data Lake chỉ phù hợp với dữ liệu có cấu trúc.

186. Apache Spark được phát triển với mục tiêu cải thiện hiệu suất so với Apache Hadoop MapReduce, chủ yếu bằng cách nào?

A. Sử dụng đĩa cứng làm bộ nhớ chính cho việc xử lý.
B. Thực hiện xử lý dữ liệu trong bộ nhớ (in-memory processing).
C. Chỉ hỗ trợ xử lý dữ liệu có cấu trúc.
D. Giới hạn số lượng nút trong cluster.

187. Trong phân tích Big Data, ‘Data Mining’ chủ yếu tập trung vào việc:

A. Lưu trữ và quản lý dữ liệu.
B. Trực quan hóa dữ liệu.
C. Khám phá các mẫu ẩn, xu hướng và mối quan hệ có ý nghĩa trong tập dữ liệu lớn.
D. Xử lý dữ liệu theo thời gian thực.

188. So với RDD, DataFrame trong Spark có ưu điểm gì nổi bật hơn?

A. Cho phép thao tác trực tiếp trên từng byte dữ liệu.
B. Cung cấp API cấp thấp hơn, kiểm soát chi tiết hơn.
C. Có schema rõ ràng, cho phép tối ưu hóa truy vấn và hiệu suất tốt hơn.
D. Không yêu cầu dữ liệu phải có cấu trúc.

189. Đâu là một thách thức trong việc đảm bảo ‘Quality’ (Chất lượng) của dữ liệu Big Data?

A. Tốc độ xử lý dữ liệu quá nhanh.
B. Sự đa dạng của nguồn dữ liệu và khả năng dữ liệu bị thiếu, sai lệch hoặc không nhất quán.
C. Khối lượng dữ liệu quá nhỏ.
D. Dữ liệu chỉ có một định dạng duy nhất.

190. Một ứng dụng phân tích dữ liệu thời gian thực (real-time analytics) sẽ hưởng lợi nhiều nhất từ công nghệ nào sau đây?

A. Apache Hadoop MapReduce.
B. Apache Spark Streaming hoặc Apache Flink.
C. Cơ sở dữ liệu SQL truyền thống.
D. Apache Hive.

191. Trong mô hình xử lý dữ liệu phân tán, ‘Map’ trong MapReduce có vai trò gì?

A. Thu thập và tổng hợp kết quả từ các tác vụ ‘Reduce’.
B. Thực hiện các phép tính phức tạp trên dữ liệu đã được lọc.
C. Chia nhỏ dữ liệu và áp dụng một hàm xử lý để tạo ra các cặp khóa-giá trị trung gian.
D. Sắp xếp dữ liệu theo một tiêu chí nhất định trước khi xử lý.

192. Trong kiến trúc Lambda, vai trò của lớp ‘Speed Layer’ (hoặc Real-time Layer) là gì?

A. Xử lý toàn bộ dữ liệu lịch sử một cách chính xác.
B. Lưu trữ dữ liệu thô ở định dạng gốc.
C. Xử lý dữ liệu mới đến theo thời gian thực để cung cấp kết quả cập nhật nhanh chóng, có thể hy sinh một phần độ chính xác.
D. Kết hợp kết quả từ lớp Batch và Serving.

193. Khi cần phân tích các chuỗi thời gian (time series data) với khối lượng lớn, công nghệ nào sau đây là phù hợp?

A. Apache Cassandra.
B. Apache Kafka.
C. Apache Spark với các thư viện xử lý chuỗi thời gian hoặc các công cụ chuyên dụng như InfluxDB.
D. Apache ZooKeeper.

194. Khi cần lưu trữ và truy vấn lượng lớn dữ liệu dạng chuỗi (time-series data) hoặc dữ liệu nhật ký (log data) với khả năng mở rộng cao, lựa chọn nào là phù hợp?

A. Apache Cassandra.
B. Apache Kafka.
C. InfluxDB hoặc TimescaleDB.
D. Apache ZooKeeper.

195. Khái niệm ‘ETL’ trong xử lý dữ liệu Big Data là viết tắt của gì?

A. Extract, Transform, Load.
B. Execute, Transfer, Load.
C. Extract, Transfer, Execute.
D. Execute, Transform, Transfer.

196. Trong lĩnh vực Machine Learning áp dụng cho Big Data, thuật toán nào thường được sử dụng để phân loại dữ liệu dựa trên việc học các quy tắc phân chia?

A. K-Means Clustering.
B. Linear Regression.
C. Decision Tree.
D. Principal Component Analysis (PCA).

197. Hệ thống tệp phân tán của Hadoop (HDFS) được thiết kế để:

A. Lưu trữ dữ liệu có cấu trúc trên một máy chủ duy nhất.
B. Xử lý các giao dịch trực tuyến với độ trễ thấp.
C. Lưu trữ dữ liệu với khối lượng lớn, có khả năng chịu lỗi và phân tán trên nhiều máy.
D. Quản lý các kết nối mạng giữa các ứng dụng.

198. Công nghệ nào trong hệ sinh thái Hadoop được sử dụng để tạo ra một kho dữ liệu cho phép truy vấn dữ liệu lớn bằng SQL?

A. Apache Kafka.
B. Apache Spark.
C. Apache Hive.
D. Apache ZooKeeper.

199. Công nghệ nào cho phép thực hiện các truy vấn tương tác (interactive queries) trên dữ liệu lớn được lưu trữ trong HDFS, với độ trễ thấp hơn Apache Hive?

A. Apache Kafka.
B. Apache Pig.
C. Apache Impala.
D. Apache HBase.

200. Trong kiến trúc Hệ thống dữ liệu lớn (Big Data), các loại dữ liệu phi cấu trúc (unstructured data) bao gồm những loại nào sau đây?

A. Tệp văn bản, email, hình ảnh, video, âm thanh.
B. Cơ sở dữ liệu quan hệ (SQL), tệp CSV, tệp Excel.
C. Dữ liệu sensor, tệp log hệ thống, dữ liệu giao dịch.
D. Dữ liệu từ các API, dữ liệu tài chính, dữ liệu địa lý.

Số câu đã làm: 0/0
Thời gian còn lại: 00:00:00
  • Đã làm
  • Chưa làm
  • Cần kiểm tra lại

Về Phần Mềm Trọn Đời

Phần Mềm Trọn Đời - Blog cá nhân, chuyên chia sẻ kiến thức về công nghệ, thủ thuật công nghệ, game PC, Mobile, thủ thuật Game, đồ họa, video,…

Gmail: info.phanmemtrondoi@gmail.com

Địa chỉ: 123 Đ Nguyễn Văn Tăng, Long Thạnh Mỹ, Thủ Đức, Hồ Chí Minh 700000, Việt Nam

Giờ làm việc: T2-CN: 09:00 – 17:00

Social

  • LinkedIn
  • Pinterest
  • Tumblr
  • Gravatar
  • Vimeo

Miễn Trừ Trách Nhiệm

Các thông tin trên trang web này chỉ dành cho mục đích tham khảo và tra cứu.

Phần Mềm Trọn Đời không chịu trách nhiệm dưới bất kỳ hình thức nào đối với các thiệt hại, dù là trực tiếp hay gián tiếp, phát sinh từ việc sử dụng hoặc làm theo các nội dung trên trang web.

Phần Mềm Trọn Đời được xây dựng nhằm mục đích thử nghiệm, hỗ trợ học tập và nghiên cứu.

Bộ câu hỏi và đáp án trên trang Trắc nghiệm chỉ mang tính chất tham khảo, nhằm hỗ trợ quá trình học tập và ôn luyện. KHÔNG PHẢI là đề thi chính thức và không đại diện cho bất kỳ tài liệu chuẩn hóa hay kỳ thi cấp chứng chỉ nào từ các cơ quan giáo dục hoặc tổ chức cấp chứng chỉ chuyên ngành. Website không chịu trách nhiệm về tính chính xác của câu hỏi, đáp án cũng như bất kỳ quyết định nào được đưa ra dựa trên kết quả từ bài trắc nghiệm.

Chịu Trách Nhiệm Nội Dung

Blogger Công Nghệ: Phần Mềm Trọn Đời

Mọi vấn đề liên quan đến bản quyền nội dung vui lòng liên hệ qua Gmail: info.phanmemtrondoi@gmail.com

Website Cùng Hệ Thống

All Thing Share - Sharing | Knowledge | Technology | Tips | Pets | Life Tài Liệu Trọn Đời - Thư Viện Tài Liệu Học Tập Miễn Phí Kiến Thức Live - Tin Tức | Kiến Thức Cuộc Sống | Công Nghệ All Thing Pet – We Love Pets Trending New 24h - Cập Nhật Xu Hướng | Trend | News 24h
Copyright © 2025 Phần Mềm Trọn Đời

Bạn ơi!!! Để xem được kết quả, bạn vui lòng làm nhiệm vụ nhỏ xíu này nha

HƯỚNG DẪN TÌM MẬT KHẨU

Đang tải nhiệm vụ...

Bước 1: Mở tab mới và truy cập Google.com. Sau đó tìm kiếm chính xác từ khóa sau:

Bước 2: Tìm và click vào kết quả có trang web giống như hình ảnh dưới đây:

Hướng dẫn tìm kiếm

Bước 3: Kéo xuống cuối trang đó để tìm mật khẩu như hình ảnh hướng dẫn:

Hướng dẫn lấy mật khẩu

Nếu tìm không thấy mã bạn có thể Đổi nhiệm vụ để lấy mã khác nhé.