Bộ số 1

Câu 1

Một nhà nghiên cứu muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau đối với kết quả học tập của sinh viên. Phương pháp thống kê nào phù hợp nhất để phân tích dữ liệu này?

Câu 2

Trong thống kê mô tả, 'trung vị' (median) có ưu điểm gì so với 'trung bình' (mean) khi mô tả xu hướng trung tâm của dữ liệu?

Câu 3

Khi nào 'hồi quy logistic' (logistic regression) được sử dụng thay vì hồi quy tuyến tính trong thống kê ứng dụng?

Câu 4

Khi nào thì phương pháp 'Bootstrap' thường được ưu tiên sử dụng trong thống kê ứng dụng?

Câu 5

Trong phân tích dữ liệu đa biến, 'phân tích thành phần chính' (Principal Component Analysis - PCA) chủ yếu được sử dụng để làm gì?

Câu 6

Khi dữ liệu có nhiều giá trị ngoại lai (outliers), đại lượng đo lường sự phân tán nào sau đây ít bị ảnh hưởng nhất?

Câu 7

Một nhà nghiên cứu muốn xác định liệu có sự khác biệt có ý nghĩa thống kê về mức độ hài lòng công việc giữa ba bộ phận khác nhau trong một công ty. Phương pháp nào sau đây phù hợp để kiểm tra giả thuyết này?

Câu 8

Giả sử bạn thực hiện một nghiên cứu và nhận được giá trị p = 0.03. Nếu mức ý nghĩa (alpha) đã đặt ra là 0.05, kết luận nào sau đây là hợp lý nhất?

Câu 9

Một nhà quản lý muốn đánh giá hiệu quả của chiến dịch marketing mới bằng cách so sánh doanh số bán hàng trước và sau chiến dịch. Phương pháp thống kê nào phù hợp nhất?

Câu 10

Trong phân tích hồi quy, 'đa cộng tuyến' (multicollinearity) xảy ra khi nào và nó ảnh hưởng như thế nào đến mô hình?

Câu 11

Khi phân tích dữ liệu chuỗi thời gian, chỉ số 'tự tương quan' (autocorrelation) đo lường điều gì?

Câu 12

Trong thống kê phi tham số, khi nào 'Kiểm định Wilcoxon rank-sum' (còn gọi là Mann-Whitney U test) được sử dụng thay vì t-test hai mẫu độc lập?

Câu 13

Trong thống kê kiểm định, 'power of a test' (sức mạnh của kiểm định) đề cập đến điều gì?

Câu 14

Trong kiểm định t-test hai mẫu độc lập, giả định quan trọng nhất cần được kiểm tra trước khi diễn giải kết quả là gì?

Câu 15

Khi nào 'kiểm định Fisher's Exact Test' thường được ưu tiên sử dụng thay vì kiểm định Chi-squared cho bảng tần số 2x2?

Câu 16

Một nhà khoa học dữ liệu đang xây dựng mô hình phân loại để dự đoán liệu một giao dịch có phải là gian lận hay không. Tỷ lệ gian lận trong dữ liệu là rất thấp (ví dụ: 1%). Chỉ số nào sau đây là quan trọng nhất để đánh giá hiệu suất của mô hình trong trường hợp này?

Câu 17

Khi thực hiện phân tích dữ liệu bằng phương pháp 'Mô phỏng Monte Carlo', mục đích chính của việc lặp lại nhiều lần một mô hình với các đầu vào ngẫu nhiên là gì?

Câu 18

Một nhà nghiên cứu muốn xem xét mối quan hệ giữa thời gian học và điểm thi của sinh viên. Phương pháp trực quan hóa dữ liệu nào sau đây là phù hợp nhất để hiển thị mối quan hệ này?

Câu 19

Khi phân tích dữ liệu bảng chéo, mục đích của 'kiểm định McNemar' là gì?

Câu 20

Trong kiểm định giả thuyết, 'mức ý nghĩa' (significance level - alpha) được đặt ra trước khi phân tích để làm gì?

Câu 21

Khái niệm 'Sai số loại I' (Type I error) trong kiểm định giả thuyết đề cập đến tình huống nào?

Câu 22

Trong thống kê ứng dụng, 'khoảng tin cậy' (confidence interval) cho trung bình tổng thể cho biết điều gì?

Câu 23

Trong phân tích hồi quy tuyến tính bội, hệ số xác định R-squared (R²) biểu thị điều gì?

Câu 24

Trong thống kê ứng dụng, khi nào khái niệm 'sai số chuẩn của trung bình' (standard error of the mean - SEM) được sử dụng?

Câu 25

Một nhà kinh tế muốn ước tính tác động của chi tiêu quảng cáo lên doanh số bán hàng. Phương pháp nào sau đây là phù hợp nhất để phân tích mối quan hệ này?