200+ câu hỏi trắc nghiệm Dữ liệu lớn (BigData) (Có đáp án)

📜 Đọc lưu ý & miễn trừ trách nhiệm trước khi làm bài (Click để đọc)

⚠️ Xin lưu ý và đọc kỹ phần miễn trừ trách nhiệm: Các câu hỏi và đáp án được cung cấp trong bộ trắc nghiệm này mang tính chất tham khảo, phục vụ cho mục đích học tập và luyện tập kiến thức. Đây KHÔNG phải là đề thi chính thức, cũng không đại diện cho tài liệu chuẩn hoặc kỳ thi chứng chỉ do bất kỳ cơ quan giáo dục hay tổ chức cấp chứng chỉ nào ban hành. Website không chịu trách nhiệm về tính chính xác của nội dung cũng như các quyết định được đưa ra dựa trên kết quả làm bài.

Bộ số 1

Câu 1

Cơ sở dữ liệu NoSQL nào thuộc loại Key-Value store, cung cấp khả năng truy cập nhanh chóng dựa trên khóa duy nhất?

A. MongoDB
B. Neo4j
C. Redis
D. Cassandra

Câu 2

Tại sao dữ liệu không cấu trúc (unstructured data) lại là một thách thức lớn trong BigData?

A. Vì nó có dung lượng quá nhỏ.
B. Vì nó không có định dạng hoặc cấu trúc rõ ràng, gây khó khăn cho việc phân tích tự động.
C. Vì nó luôn luôn có độ chính xác cao.
D. Vì nó chỉ có thể được tạo ra bởi các hệ thống máy tính.

Câu 3

Đâu là một ví dụ về dữ liệu bán cấu trúc (semi-structured data)?

A. Một tệp CSV chứa thông tin khách hàng.
B. Một tệp văn bản thuần túy.
C. Một tệp JSON hoặc XML mô tả một đối tượng với các thẻ đánh dấu.
D. Một hình ảnh kỹ thuật số.

Câu 4

Đâu là một thách thức của BigData liên quan đến việc đảm bảo dữ liệu đến từ nhiều nguồn khác nhau là nhất quán và đáng tin cậy?

A. Volume
B. Variety
C. Veracity
D. Velocity

Câu 5

MapReduce là một mô hình lập trình được sử dụng trong Hadoop để:

A. Xây dựng giao diện người dùng đồ họa cho các ứng dụng phân tích dữ liệu.
B. Thực hiện các phép tính toán song song trên các tập dữ liệu lớn phân tán trên nhiều máy.
C. Quản lý cơ sở dữ liệu NoSQL quan hệ.
D. Mã hóa dữ liệu để đảm bảo an toàn thông tin.

Câu 6

Trong kiến trúc BigData, vai trò của 'Data Scientist' là gì?

A. Chỉ tập trung vào việc thiết kế và triển khai cơ sở hạ tầng BigData.
B. Phân tích các tập dữ liệu lớn để khám phá các mẫu, xu hướng và đưa ra dự đoán.
C. Quản lý và bảo trì các hệ thống lưu trữ dữ liệu.
D. Phát triển các ứng dụng web sử dụng dữ liệu.

Câu 7

Cơ sở dữ liệu NoSQL nào thuộc loại Graph database, chuyên dùng để mô hình hóa và quản lý dữ liệu có mối quan hệ phức tạp?

A. MongoDB
B. Cassandra
C. Neo4j
D. Redis

Câu 8

Công nghệ nào được sử dụng để xây dựng các ứng dụng phân tích dữ liệu tương tác và truy vấn dữ liệu lớn bằng SQL?

A. Apache Kafka
B. Apache Hive
C. Apache Spark Streaming
D. Apache Storm

Câu 9

Khái niệm 'Velocity' trong BigData đề cập đến:

A. Tính đa dạng của các nguồn dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra, thu thập và xử lý.
C. Khối lượng dữ liệu cần được lưu trữ.
D. Độ chính xác của các phép đo.

Câu 10

Trong Hadoop, YARN (Yet Another Resource Negotiator) có vai trò chính là:

A. Lưu trữ và quản lý dữ liệu phân tán.
B. Quản lý tài nguyên tính toán và lập lịch trình cho các ứng dụng xử lý dữ liệu.
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Cung cấp giao diện truy vấn SQL cho HDFS.

Câu 11

Trong lĩnh vực BigData, 'ETL' (Extract, Transform, Load) là quy trình dùng để:

A. Trực quan hóa dữ liệu trên bảng điều khiển.
B. Thu thập, chuyển đổi và tải dữ liệu từ nhiều nguồn vào một hệ thống đích (thường là Data Warehouse).
C. Xây dựng các mô hình học máy.
D. Quản lý tài nguyên trong cụm Hadoop.

Câu 12

Cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ dữ liệu có cấu trúc dạng bảng, tương tự như cơ sở dữ liệu quan hệ nhưng có khả năng mở rộng cao?

A. MongoDB
B. Neo4j
C. Cassandra
D. Redis

Câu 13

Mục tiêu chính của việc sử dụng Data Warehouse trong BigData là:

A. Lưu trữ dữ liệu thô, chưa qua xử lý từ nhiều nguồn.
B. Hỗ trợ các quyết định kinh doanh thông qua phân tích dữ liệu lịch sử đã được làm sạch và tổ chức.
C. Xử lý các luồng dữ liệu thời gian thực.
D. Tạo ra các mô hình học máy phức tạp.

Câu 14

Trong bối cảnh BigData, 'Batch Processing' là phương pháp xử lý dữ liệu bằng cách:

A. Xử lý từng bản ghi dữ liệu ngay khi nó được tạo ra.
B. Thu thập một lượng lớn dữ liệu và xử lý chúng cùng một lúc theo định kỳ.
C. Phân tích dữ liệu trực tiếp trên các thiết bị di động.
D. Sử dụng các thuật toán phân tán để xử lý dữ liệu theo thời gian thực.

Câu 15

Trong kiến trúc Hệ thống dữ liệu lớn, khái niệm 'Data Lake' thường được mô tả là nơi:

A. Lưu trữ dữ liệu đã được cấu trúc hóa và làm sạch theo sơ đồ xác định trước.
B. Chứa dữ liệu thô, chưa được xử lý, theo định dạng gốc từ nhiều nguồn khác nhau.
C. Là một kho dữ liệu (Data Warehouse) được tối ưu hóa cho các truy vấn phân tích phức tạp.
D. Chỉ chứa dữ liệu giao dịch (transactional data) từ các hệ thống ERP.

Câu 16

Trong Hadoop, 'NameNode' là một thành phần quan trọng của HDFS chịu trách nhiệm:

A. Thực thi các tác vụ tính toán của MapReduce.
B. Quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm cấu trúc thư mục và ánh xạ tệp đến các DataNode.
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Lưu trữ trực tiếp dữ liệu người dùng.

Câu 17

Một ví dụ về dữ liệu có cấu trúc (structured data) trong BigData là:

A. Các bài đăng trên mạng xã hội.
B. Các email và tệp đính kèm.
C. Dữ liệu trong một bảng cơ sở dữ liệu quan hệ với các cột và hàng được xác định rõ ràng.
D. Các tệp âm thanh và video.

Câu 18

Mô hình dữ liệu nào của NoSQL phù hợp nhất cho việc lưu trữ và truy vấn các mối quan hệ phức tạp giữa các thực thể, ví dụ như mạng xã hội?

A. Key-Value
B. Document
C. Graph
D. Wide-Column

Câu 19

Đâu là đặc điểm chính của 'Volume' trong 3V của BigData?

A. Tốc độ tạo ra và xử lý dữ liệu.
B. Sự đa dạng về loại hình dữ liệu.
C. Khối lượng hoặc lượng dữ liệu khổng lồ.
D. Tính chính xác và độ tin cậy của dữ liệu.

Câu 20

Trong hệ sinh thái Hadoop, 'Oozie' là một công cụ được sử dụng để:

A. Quản lý luồng dữ liệu thời gian thực.
B. Lập lịch và quản lý các chuỗi công việc (workflows) của Hadoop.
C. Truy vấn dữ liệu bằng SQL.
D. Lưu trữ dữ liệu phân tán.

Câu 21

Khái niệm 'Data Governance' trong BigData liên quan đến việc:

A. Chỉ tập trung vào việc thu thập dữ liệu.
B. Thiết lập các quy tắc, chính sách và quy trình để đảm bảo dữ liệu được quản lý, bảo mật và sử dụng một cách hiệu quả, tuân thủ.
C. Phát triển các thuật toán học máy mới.
D. Xây dựng kiến trúc hạ tầng BigData.

Câu 22

Cơ sở dữ liệu NoSQL nào thuộc loại Document store, lưu trữ dữ liệu dưới dạng các tài liệu JSON hoặc BSON?

A. Cassandra
B. Neo4j
C. Redis
D. MongoDB

Câu 23

Khái niệm 'Data Virtualization' trong quản lý BigData là gì?

A. Lưu trữ tất cả dữ liệu vào một kho vật lý duy nhất.
B. Cung cấp một lớp trừu tượng cho phép người dùng truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép chúng.
C. Chỉ cho phép truy cập dữ liệu thông qua các báo cáo được tạo sẵn.
D. Mã hóa tất cả dữ liệu để bảo vệ quyền riêng tư.

Câu 24

Tại sao 'Veracity' (tính xác thực) là một yếu tố quan trọng trong BigData?

A. Vì nó ảnh hưởng đến tốc độ xử lý dữ liệu.
B. Vì nó đảm bảo rằng dữ liệu được thu thập từ nhiều nguồn khác nhau.
C. Vì dữ liệu không chính xác hoặc không đáng tin cậy có thể dẫn đến quyết định sai lầm.
D. Vì nó giúp giảm dung lượng lưu trữ cần thiết.

Câu 25

Công nghệ nào thường được sử dụng để xử lý các tập dữ liệu rất lớn một cách song song và phân tán, đặc biệt là trong hệ sinh thái Hadoop?

A. SQL Server
B. Apache Spark
C. Oracle Database
D. Microsoft Access

Câu 26

Hadoop Distributed File System (HDFS) được thiết kế với nguyên tắc chính là:

A. Tối ưu hóa cho các thao tác ghi/đọc dữ liệu nhỏ và ngẫu nhiên.
B. Phân tán dữ liệu trên nhiều nút và sao chép chúng để đảm bảo tính sẵn sàng cao.
C. Yêu cầu dữ liệu phải được cấu trúc hóa hoàn toàn trước khi lưu trữ.
D. Sử dụng một máy chủ trung tâm duy nhất để quản lý tất cả dữ liệu.

Câu 27

Khái niệm 'Big Data Analytics' liên quan đến việc:

A. Chỉ đơn thuần là lưu trữ lượng lớn dữ liệu.
B. Sử dụng các kỹ thuật phân tích tiên tiến để trích xuất thông tin có giá trị từ dữ liệu.
C. Thiết kế kiến trúc cho các hệ thống dữ liệu lớn.
D. Xây dựng các ứng dụng di động.

Câu 28

Khái niệm 'Data Mining' trong lĩnh vực BigData chủ yếu đề cập đến việc:

A. Lưu trữ và quản lý các tập dữ liệu lớn.
B. Khám phá các mẫu tiềm ẩn, mối quan hệ và kiến thức hữu ích từ các tập dữ liệu.
C. Xử lý dữ liệu theo thời gian thực.
D. Xây dựng các mô hình dự báo dựa trên dữ liệu lịch sử.

Câu 29

Trong phân tích BigData, 'Stream Processing' đề cập đến việc:

A. Lưu trữ toàn bộ dữ liệu vào một kho duy nhất trước khi phân tích.
B. Phân tích dữ liệu ngay khi chúng được tạo ra hoặc di chuyển, theo thời gian thực hoặc gần thời gian thực.
C. Thực hiện các phép phân tích lịch sử trên tập dữ liệu tĩnh.
D. Sử dụng các thuật toán học máy để dự đoán xu hướng trong tương lai.

Câu 30

Khái niệm 'Data Lakehouse' kết hợp các ưu điểm của:

A. Data Warehouse và cơ sở dữ liệu quan hệ.
B. Data Lake và Data Warehouse.
C. Data Lake và cơ sở dữ liệu NoSQL.
D. Data Warehouse và cơ sở dữ liệu NoSQL.

Câu 31

Đâu là một công nghệ xử lý luồng dữ liệu (stream processing) phổ biến trong BigData?

A. Apache Hive
B. Apache Kafka
C. Apache Pig
D. Apache HBase

Câu 32

Trong các mô hình xử lý dữ liệu BigData, 'Near Real-Time Processing' là gì?

A. Xử lý dữ liệu sau nhiều ngày hoặc tuần.
B. Xử lý dữ liệu với độ trễ rất nhỏ, thường là vài giây hoặc mili giây.
C. Chỉ xử lý dữ liệu đã được lưu trữ hoàn chỉnh.
D. Xử lý dữ liệu theo từng lô lớn định kỳ.

Câu 33

Công nghệ nào là một phần của hệ sinh thái Hadoop và được sử dụng để lưu trữ dữ liệu phân tán?

A. Apache Kafka
B. HDFS (Hadoop Distributed File System)
C. Apache Spark
D. Apache Flink

Câu 34

Apache Spark được đánh giá cao hơn MapReduce truyền thống ở khía cạnh nào?

A. Khả năng xử lý dữ liệu không cấu trúc.
B. Khả năng xử lý dữ liệu theo thời gian thực.
C. Tốc độ xử lý do sử dụng bộ nhớ (in-memory processing) và tối ưu hóa cho nhiều loại tác vụ.
D. Độ phức tạp trong việc lập trình.

Câu 35

Khái niệm 'Variety' trong 3V của BigData ám chỉ đến:

A. Tốc độ thay đổi của dữ liệu theo thời gian.
B. Sự phức tạp và đa dạng của các loại hình dữ liệu.
C. Khối lượng dữ liệu được tạo ra mỗi giây.
D. Độ tin cậy và tính nhất quán của dữ liệu.

Câu 36

Tại sao việc sử dụng các công cụ phân tích BigData lại quan trọng đối với các doanh nghiệp hiện nay?

A. Để giảm thiểu số lượng dữ liệu cần lưu trữ.
B. Để hiểu rõ hơn về khách hàng, tối ưu hóa hoạt động và đưa ra quyết định kinh doanh dựa trên dữ liệu.
C. Để thay thế hoàn toàn vai trò của con người trong các quyết định.
D. Để chỉ tập trung vào dữ liệu lịch sử mà không cần quan tâm đến dữ liệu mới.

Câu 37

Cơ sở dữ liệu NoSQL nào thường được sử dụng cho các trường hợp cần lưu trữ dữ liệu với độ trễ thấp và khả năng mở rộng cao, ví dụ như lưu trữ phiên làm việc của người dùng?

A. Neo4j
B. Cassandra
C. MongoDB
D. Redis

Câu 38

Trong Hadoop, 'Sqoop' là công cụ được sử dụng để:

A. Trực quan hóa dữ liệu từ HDFS.
B. Truyền dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (ví dụ: MySQL, Oracle).
C. Xử lý dữ liệu theo luồng thời gian thực.
D. Quản lý tài nguyên trong cụm Hadoop.

Câu 39

Trong Hadoop, 'DataNode' là thành phần chịu trách nhiệm:

A. Quản lý siêu dữ liệu của hệ thống tệp.
B. Lưu trữ và truy xuất các khối dữ liệu (data blocks) theo yêu cầu của NameNode.
C. Lập lịch trình cho các tác vụ MapReduce.
D. Cung cấp giao diện truy vấn SQL.

Câu 40

Khái niệm 'Data Silo' trong quản lý dữ liệu BigData đề cập đến tình trạng:

A. Dữ liệu được lưu trữ tập trung và dễ dàng truy cập.
B. Dữ liệu bị phân mảnh và cô lập trong các hệ thống hoặc phòng ban khác nhau, gây khó khăn cho việc truy cập và tích hợp.
C. Dữ liệu đã được làm sạch và chuẩn hóa hoàn toàn.
D. Dữ liệu được mã hóa để bảo mật.

Or check our Popular Categories...

Or check our Popular Categories...