Một số thứ liên quan đến bài thi giữa kỳ
Định nghĩa
Thống kê là một khoa học, đồng thời là một công nghệ cung cấp cho ta những phương pháp, công cụ để thu thập và tạo dữ liệu, trình bày và phân tích dữ liệu để hiểu nội dung ẩn chứa trong dữ liệu. Từ đó rút ra những thông tin, tri thức hữu ích và đưa ra những quyết định, chính sách thích hợp.
Vai trò
Khoa học xã hội
Trong Khoa học xã hội (Xã hội học, Tâm lý học, Kinh tế học, Giáo dục học, ...), ngoài những yếu tố mang tính chất khách quan, tất yếu và phổ biến, các quy luật xã hội còn thể hiện những mỗi liên hệ và sự tác động lẫn nhau vô cùng phức tạp giữa người và người. Do đó, nó đòi hỏi những phương pháp và công cụ nghiên cứu trong thống kê.
Khoa học sự sống
Trong Khoa học sự sống (sinh vật, y tế,...), các phương pháp thống kê giúp các nhà nghiên cứu thu thập dữ liệu, thiết kế thí nghiệm đúng đắn và đánh giá kết quả thí nghiệm.
Một số khái niệm thường dùng trong thống kê
Tổng thể
- Tổng thể là tập hợp toàn bộ các đối tượng có chung một tính chất nào đó mà chúng ta đang quan tâm (thường là người, sự vật, sự kiện).
- Mỗi phần tử của tổng thể được gọi là một cá thể của tổng thể đó.
- Số lượng cá thể của tổng thể được gọi là quy mô của tổng thể.
Mẫu
- Mẫu là một tập hợp con được rút ra từ tổng thể theo một cách nào đó.
- Số cá thể trong mẫu được gọi là kích thước mẫu.
- Nếu ta tiến hành lấy số đo mọi đơn vị tổng thể thì ta gọi là tổng điều tra.
Tiêu thức thống kê
- Tiêu thức thống kê là đặc điểm của đơn vị tổng thể được chọn ra để nghiên cứu tùy theo mục đích nghiên cứu khác nhau (Ví dụ: Điều tra tình hình sức khỏe của trẻ sơ sinh, tổng điều tra dân số,...).
Ví dụ 1
- Ta cần đo chiều cao của các cây gỗ "Sưa" tại rừng Quốc Gia Cúc Phương.
- Tổng thể là tất cả các cây gỗ "Sưa" trong rừng Quốc Gia.
- Mẫu là một số lượng nhỏ các cây gỗ "Sưa" trong rừng được quan sát.
- Tiêu thức thống kê là chiều cao của cây gỗ.
Giới thiệu về phân tích dữ liệu
Dữ liệu
- Dữ liệu là các con số, từ ngữ hay hình ảnh phản ánh thực tế của đối tượng nghiên cứu.
Phân tích dữ liệu
Phân tích dữ liệu là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý nghĩa trong dữ liệu; đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất.
Các dạng phân tích dữ liệu
| Phân tích mô tả | Miêu tả những gì đã xảy ra trong một khoảng thời gian nhất định. |
| Phân tích chẩn đoán | Tập trung nhiều hơn vào lí do tại sao một hiện tượng nào đó xảy ra. Điều này yêu cầu dữ liệu đầu vào đa dạng hơn và cần một vài giả thuyết. |
| Phân tích dự đoán | Cho biết những gì có thể sẽ xảy ra trong thời gian tới. |
| Phân tích đề xuất | Đề xuất những hành động nên thực hiện. |
Các phương pháp thống kê
Thống kê mô tả
- Thu thập dữ liệu
- Trình bày dữ liệu
- Các thông tin đặc trưng của dữ liệu
Thống kê mô tả có nhiệm vụ mô tả và thu thập dữ liệu.
Thống kê suy diễn
- Ước lượng cho một tham số
- Kiểm định một giả thiết thống kê
Thống kê suy diễn có nhiệm vụ ra quyết định dựa tr ên những dữ liệu từ mẫu.
Các phương pháp chọn mẫu
| Chọn mẫu phi xác suất | Phương pháp chọn mẫu mà các đơn vị trong tổng thể chung không có khả năng ngang nhau để được chọn vào mẫu nghiên cứu. |
| Chọn mẫu xác suất | Phương pháp chọn mẫu mà khả năng được chọn vào tổng thể của tất cả các đơn vị của tổng thể đều như nhau. |
Mẫu xác suất
Mẫu ngẫu nhiên đơn giản
- Mẫu ngẫu nhiên đơn giản là một cách chọn mẫu thỏa mãn các tiêu chí dưới đây:
- Mỗi đơn vị đều có cơ hội được chọn như nhau.
- Sự lựa chọn này có thể thay thế được (with replacement) hoặc không thay thế được (without replacement), tức là chọn hoàn lại hoặc chọn không hoàn lại.
- Có thể sử dụng bảng số ngẫu nhiên để chọn mẫu.
Mẫu hệ thống (Chia đều)
- Quyết định cỡ mẫu: .
- Chia tổng thể chung gồm đơn vị thành các tổ, gồm đơn vị: .
- Từ mỗi tổ chọn ra duy nhất đơn vị. Ta được một mẫu hệ thống với cỡ mẫu là .
Mẫu phân tổ (Chia theo tính chất)
- Tổng thể chung được chia làm hai hoặc hơn hai tổ theo một số đặc điểm chung.
- Từ mỗi tổ sẽ chọn ngẫu nhiên một số đơn vị.
- Ghép các đơn vị đó lại với nhau thành một mẫu phân tổ.
Mẫu phân chùm
- Tổng thể chung được chia thành nhiều chùm (khối), mỗi chùm đều có thể đại diện cho tổng thể chung.
- Chọn ngẫu nhiên một hoặc một số chùm từ tất cả các chùm đó.
- Các chùm này kết hợp lại với nhau thành một mẫu phân chùm.
Ví dụ 2
Để điều tra điểm thi thử đợt 1 kì thi trung học phổ thông môn toán của các học sinh trên thành phố Hà Nội, ta chọn mẫu theo các tiêu chí sau đây:
- Chọn mỗi 100 mã học sinh bất kì bằng lệnh Random, giả sử mỗi học sinh được cấp 1 mã học sinh khác nhau.
- Chọn mỗi trường một vài bạn học sinh sao cho đủ 100 bạn.
- Chọn mỗi khối thi một vài bạn sao cho đủ 100 bạn.
- Chọn 100 mã học sinh ⇒ mẫu ngẫu nhiên.
- Chọn mỗi trường vài bạn học sinh ⇒ mẫu phân tổ cùng chung tính chất "cùng một trường".
- Chọn mỗi khối thi vài bạn học sinh ⇒ mẫu phân tổ chùng chung tính chất "Thi cùng khối".
Biến và dữ liệu
Biến là một dấu hiệu ta quan tâm nghiên cứu trên tổng thể. Ta gọi nó là biến vì nó thay đổi từ cá thể này sang cá thể khác. Biến có hai loại: biến định lượng và biến định tính.
Biến định lượng và dữ liệu định lượng
- Một biến được gọi là biến định lượng nếu nó có thể đo được trên mỗi cá thể và có giá trị là một số. Ta gọi đó là giá trị của biến.
- Tập hợp các giá trị của biến định lượng trên toàn bộ tổng thể cho ta dữ liệu định lượng.
Biến định tính và dữ liệu định tính
- Một biến được gọi là biến định tính nếu giá trị của biến đó trên mỗi cá thể là việc gán cho cá thể đó một thuộc tính hay gán nó vào một phàm trù, mức độ nào đó.
- Giá trị của biến định tính là một trong các phạm trù (thuộc tính) mà nhà nghiên cứu đưa ra. Biến định tính là loại biến rất thường gặp trong khoa học xã hội.
- Tập hợp các giá trị của biến định tính trên toàn bộ tổng thể cho ta dữ liệu định tính.
Ví dụ 3
Các bác sĩ đã thực hiện việc đánh giá sức khoẻ (thông qua cân nặng) và nghiên cứu giới tính của trẻ sơ sinh ở Hà Nội.
- Tổng thể là tập hợp tất cả các trẻ sơ sinh ở Hà Nội. Mỗi trẻ sơ sinh là một cá thể.
- Biến định lượng là cân nặng của trẻ sơ sinh. Giá trị của biến là một số thực dương.
- Dữ liệu định lượng (thô) là tập hợp các giá trị về cân nặng của trẻ sơ sinh.
- Biến định tính là giới tính của trẻ sơ sinh. Mỗi trẻ sơ sinh được gán cho một trong hai thuộc tính: "Nam" hay "Nữ".
- Dữ liệu định tính là tập hợp các giá trị về giới tính của trẻ sơ sinh.
Các nguồn dữ liệu
Nguồn dữ liệu thứ cấp
Là dữ liệu từ một nguồn có sẵn đã công bố hoặc chưa công bố. Hiện nay khá nhiều dữ liệu thứ cấp (đã hoặc chưa qua xửa lý, tổng hợp) được đưa lên mạng dưới dạng nguồn dữ liệu mở. Nhà nghiên cứu dùng các công cụ tìm kiếm như Google để khai thác và tìm kiếm dữ liệu.
Nguồn dữ liệu sơ cấp
Là dữ liệu mà nhà nghiên cứu tự thu thập theo một quy trình bài bản phục vụ một mục tiêu và nội dung nghiên cứu đã xác định. Những phương pháp để thu thập dữ liệu sơ cấp thường dùng là:
- Tiến hành thí nghiệm.
- Tiến hành quan sát, điều tra, khảo sát.
Các loại thang đo
Thang đo định danh
Thang đo định danh dùng cho các biến định tính. Số đo của các biến này là các mã số để phân loại đối tượng. Giữa các mã số ở đây không có quan hệ hơn kém, chỉ dùng để đếm tần số xuất hiện của các biểu hiện.
Ví dụ 4
Số đo của biến giới tính (nam, nữ), biến màu sắc (xanh, đỏ, tím,...), biến khu vực sống,... thuộc thang đo định danh.
Thang đo thứ bậc
Thang đo thứ bậc thường dùng cho các biến định tính, đôi khi dùng cho cả biến định lượng. Trong thang đo này giữa các số đo của các biến có quan hệ thứ bậc hơn kém. Tuy nhiên, sự chênh lệch giữa các số đo không nhất thiết bằng nhau.
Ví dụ 5
Kết quả của các câu trả lời sau thuộc thang đo thứ bậc:
- Bạn đánh giá thế nào về việc tiếp thu của mình đối với việc học các môn tự nhiên:
- Tốt
- Bình thường
- Kém
- Ý kiến của bạn về việc sắp xếp lại vỉa hè của thành phố:
- Rất không ủng hộ
- Không ủng hộ
- Không ý kiến
- Ủng hộ
- Rất ủng hộ
Thang đo khoảng
Thang đo khoảng thường dùng cho các biến định lượng. Thang đo khoảng là thang đo thứ bậc có các khoảng cách đều nhau. Các phép tính cộng trừ đều có nghĩa nhưng không có giá trị 0 xác định một cách chính xác và không thể lấy tỉ lệ giữa các số đo.
Ví dụ 6
Số đo nhiệt độ, chỉ số IQ,... thuộc thang đo khoảng.
Thang đo tỉ lệ
Thang đo tỉ lệ dùng cho các biến định lượng. Thang đo tỉ lệ là thang đo khoảng, hơn nữa thang đo này có giá trị 0 xác định một cách chính xác và có thể lấy tỉ lệ giữa các số đo.
Ví dụ 7
Đơn vị đo tiền tệ (VND, dollar, pound, yen,...); đơn vị đo chiều dài (cm, m, km,...); đơn vị đo khối lượng (kg, tấn, tạ, yến,...),... thuộc thang đo tỉ lệ.
Phương pháp thu thập dữ liệu
Các phương pháp điều tra
- Điều tra trực tiếp: Phỏng vấn, quan sát, thí nghiệm, thực nghiệm.
- Sử dụng cơ sử dữ liệu có sẵn.
Phương án điều tra
- Xác định mục đích nghiên cứu
- Xác định phạm vi, đối tượng và đơn vị điều tra
- Xác định nội dung điều tra
- Chọn phương pháp thu thập thông tin
- Soạn thảo bảng hỏi
- Chọn mẫu điều tra
- Lập kế hoạch tổ chức và tiến hành điều tra
Một số sai số khi điều tra
Dưới đây là một vài sai số chủ yếu khi khi điều tra, thu thập số liệu:
- Sai số phi chọn mẫu: Là sai số xảy ra ở các cuộc điều tra do nhân viên cân đong, đo đếm sai, ghi chép sai, đơn vị điều tra cung cấp sai sự thật,... Sai số này không do việc chọn mẫu gây ra.
- Sai số chọn mẫu: Là sai số xảy ra trong điều tra chọn mẫu, do điều tra một số ít đơn vị nhưng kết quả lại ước lượng cho cả tổng thể.
- Sai số do không có câu trả lời.
- Sai số do thước đo: Chọn câu hỏi không tốt, chọn sai thang đo.