Thứ Tư, 25 tháng 2, 2026

MODULE 17: BẢO TRÌ CƠ SỞ DỮ LIỆU ĐỊNH KỲ

Chúng ta chính thức bước vào Phần 4: Bảo trì, tuning nâng cao, tự động hóa.

Một hệ thống CSDL dù được thiết kế phần cứng hoàn hảo đến đâu, nếu không được "bảo dưỡng" định kỳ, hiệu năng sẽ suy giảm nghiêm trọng theo thời gian. Nguyên nhân lõi đến từ hai vấn đề: Thống kê dữ liệu (Statistics) bị cũ khiến bộ tối ưu hóa (Optimizer) chọn sai chiến lược thực thi, và Chỉ mục (Index) bị phân mảnh làm tăng I/O thừa thãi.

Dưới đây là Module 17: Bảo trì CSDL (Rebuild Index, Update Statistics & Integrity Check).

1. Tổng quan

Bảo trì định kỳ là nghệ thuật duy trì phong độ cho CSDL. Bộ tối ưu hóa truy vấn (Query Optimizer) của bất kỳ hệ thống RDBMS nào cũng hoạt động dựa trên toán học xác suất (Cost-Based Optimizer - CBO). Nó cần dữ liệu thống kê (Statistics) chính xác về số lượng dòng, độ phân tán dữ liệu (Histogram) để quyết định dùng Index Scan hay Table Scan. Bên cạnh đó, việc kiểm tra tính toàn vẹn vật lý (Physical Integrity) giúp anh phát hiện sớm các Block/Page bị hỏng (Corrupt) do lỗi phần cứng trước khi quá muộn.

2. Chi tiết các nội dung

A. Cập nhật Thống kê (Update Statistics)

  • Oracle: Gói DBMS_STATS là công cụ quyền lực nhất. Hệ thống có job tự động chạy ban đêm, nhưng với các bảng biến động lớn, DBA phải chủ động gather stats.

  • SQL Server: Có tính năng tự động cập nhật thống kê (Auto Update Statistics), nhưng với các database hàng Terabyte, tính năng này quét qua quá chậm (hoặc lấy mẫu - sampling không đủ sâu). DBA phải lên lịch chạy UPDATE STATISTICS thủ công với tỷ lệ FULLSCAN.

  • PostgreSQL: Tiến trình Autovacuum sẽ kiêm luôn việc thu thập thống kê (thông qua lệnh ANALYZE chạy ngầm). Tuy nhiên, sau khi import một lượng dữ liệu khổng lồ, anh bắt buộc phải gõ lệnh ANALYZE ngay lập tức để Optimizer không bị "mù".

  • MySQL: Mặc định InnoDB tự động cập nhật thống kê khi 10% dữ liệu của bảng thay đổi. Lệnh ANALYZE TABLE được dùng để ép hệ thống tính toán lại ngay lập tức.

  • MongoDB: Bộ tối ưu hóa của MongoDB cũng chọn Plan dựa trên số liệu thống kê. Mặc dù tự động, thỉnh thoảng DBA cần xóa bộ nhớ cache của các Plan cũ đi lệch hướng.

B. Chống phân mảnh Chỉ mục (Index Defragmentation)

  • Oracle: Dùng ALTER INDEX ... REBUILD hoặc COALESCE.

  • SQL Server: Anh có hai lựa chọn: REORGANIZE (Sắp xếp lại các page rác đang có ở mức độ nhẹ, chạy online) hoặc REBUILD (Đập đi xây lại toàn bộ cây Index). Ngưỡng chuẩn: Phân mảnh > 5% thì Reorganize, > 30% thì Rebuild.

  • PostgreSQL: Dùng lệnh REINDEX. Kể từ Postgres 12, anh có thể dùng REINDEX CONCURRENTLY để xây lại index mà không khóa bảng.

  • MySQL: Lệnh OPTIMIZE TABLE sẽ tái cấu trúc toàn bộ file .ibd, qua đó sắp xếp lại cả dữ liệu vật lý lẫn cây Clustered Index.

  • MongoDB: Lệnh compact được dùng để chống phân mảnh dữ liệu và tái tạo index ở tầng WiredTiger.

C. Kiểm tra Toàn vẹn Vật lý (Physical Integrity Checks)

Đây là bước quét qua toàn bộ đĩa cứng để xem có Page/Block nào bị checksum sai do lỗi RAM hoặc lỗi Disk I/O ngầm hay không.

  • Oracle: Dùng tiện ích DBVERIFY hoặc lệnh RMAN VALIDATE DATABASE.

  • SQL Server: Lệnh DBCC CHECKDB là bắt buộc phải chạy mỗi cuối tuần. Nó kiểm tra sự nhất quán về cấu trúc và dữ liệu.

  • PostgreSQL: Thường dùng công cụ amcheck (extension) để kiểm tra tính toàn vẹn của B-Tree.

  • MySQL: Dùng lệnh CHECK TABLE.

  • MongoDB: Dùng lệnh db.collection.validate({full: true}).

D. Câu lệnh Quản trị & Kết quả đầu ra (Quy trình Bảo trì tiêu chuẩn)

1. Oracle: Cập nhật thống kê toàn bộ Schema

SQL
EXEC DBMS_STATS.GATHER_SCHEMA_STATS(
    ownname => 'SALES_SCHEMA', 
    estimate_percent => DBMS_STATS.AUTO_SAMPLE_SIZE, 
    cascade => TRUE, 
    degree => 4
);
-- Kết quả: PL/SQL procedure successfully completed. Mọi execution plan liên quan đến schema này sẽ được parse lại.

2. SQL Server: Kiểm tra toàn vẹn và Cập nhật thống kê

SQL
-- Kiểm tra toàn vẹn vật lý (chạy vào Chủ Nhật)
DBCC CHECKDB ('sopirs_new') WITH NO_INFOMSGS;
-- Kết quả: Lệnh hoàn tất mà không in ra dòng nào tức là Database khỏe mạnh 100%.

-- Cập nhật thống kê toàn bộ database
EXEC sp_updatestats;
-- Kết quả: Updating [dbo].[orders]... Statistics for [PK_orders] have been updated.

3. PostgreSQL: Rebuild Index không khóa bảng và Analyze

SQL
-- Phân tích lại biểu đồ phân tán dữ liệu
ANALYZE VERBOSE sales_schema.orders;
-- Xây dựng lại Index bị phình to do MVCC mà không chặn user INSERT/UPDATE
REINDEX INDEX CONCURRENTLY idx_orders_date;
-- Kết quả: Reindex chạy ngầm mất một lúc, sau đó trả về INFO: index "idx_orders_date" was reindexed.

4. MySQL / MariaDB: Tối ưu và Kiểm tra bảng

SQL
ANALYZE TABLE sales_schema.orders;
-- Tái cấu trúc file vật lý, chống phân mảnh
OPTIMIZE TABLE sales_schema.orders;
-- Kiểm tra cấu trúc nội bộ của bảng
CHECK TABLE sales_schema.orders;
/* Kết quả trả về một bảng thống kê: 
| Table                | Op       | Msg_type | Msg_text |
| sales_schema.orders  | optimize | status   | OK       |
*/

5. MongoDB: Validate dữ liệu và Index

JavaScript
use sales_schema;
db.orders.validate({full: true});
/* Kết quả:
{
  "ns" : "sales_schema.orders",
  "nrecords" : 150000,
  "nInvalidDocuments" : 0,
  "warnings" : [ ],
  "valid" : true  // Dòng này báo hiệu cấu trúc an toàn
}
*/

3. Tóm tắt lại nội dung của bài học

  • Bộ CBO (Cost-Based Optimizer) của Oracle, SQL Server hay Postgres đều rất thông minh, nhưng chúng bị "mù" nếu thiếu Statistics. Khi một câu lệnh hôm qua chạy 1 giây, hôm nay chạy 10 phút, việc đầu tiên anh cần làm là Cập nhật Thống kê (Update Statistics) thay vì vội vã sửa code SQL.

  • Lệnh DBCC CHECKDB của SQL Server cực kỳ tốn tài nguyên (I/O và CPU). Trong các hệ thống cực lớn, DBA thường phải restore một bản Full Backup sang server test rồi chạy DBCC CHECKDB trên server test đó để giảm tải cho Production (gọi là kỹ thuật Offload Integrity Check).

  • Với Postgres và MySQL, khái niệm chống phân mảnh Index (Reindex/Optimize) gắn liền với việc thu hồi không gian đĩa vật lý bị lãng phí do các thao tác DELETE ngầm. Chạy định kỳ giúp bảo vệ hiệu năng I/O tối đa.

  • MongDB không quá nhạy cảm với Statistics như RDBMS vì cấu trúc NoSQL, nhưng việc quét validate định kỳ giúp phát hiện các BSON document bị lỗi cấu trúc vật lý.


4. Câu hỏi ôn tập

  1. Hỏi (Oracle): Tham số CASCADE => TRUE trong gói thủ tục DBMS_STATS.GATHER_TABLE_STATS có tác dụng gì?

    • Đáp: Nó báo cho Oracle biết ngoài việc thu thập thống kê cho Bảng (Table), hệ thống phải thu thập luôn thống kê cho tất cả các Chỉ mục (Indexes) gắn liền với bảng đó.

  2. Hỏi (SQL Server): Tùy chọn WITH NO_INFOMSGS khi chạy lệnh DBCC CHECKDB có lợi ích gì cho DBA?

    • Đáp: Nó ẩn đi hàng ngàn dòng tin nhắn thông báo bình thường. DBA chỉ nhìn thấy kết quả màn hình nếu thực sự có lỗi (Corruption) xảy ra, giúp dễ dàng đưa lệnh này vào các script tự động hóa báo động qua email.

  3. Hỏi (PostgreSQL): Điểm khác biệt giữa lệnh VACUUM và lệnh ANALYZE là gì?

    • Đáp: VACUUM là dọn dẹp rác vật lý (thu hồi Dead Tuples) sinh ra từ cơ chế MVCC. Còn ANALYZE là thu thập số liệu toán học (Histogram, tỷ lệ phân tán) để phục vụ cho Query Optimizer lên kế hoạch thực thi.

  4. Hỏi (MySQL): Tại sao khi chạy lệnh OPTIMIZE TABLE trên InnoDB, hệ thống có thể sẽ khóa bảng (Table Lock) trong một khoảng thời gian?

    • Đáp: Vì bản chất của lệnh này là InnoDB sẽ tạo ra một bảng tạm (rỗng), sao chép toàn bộ dữ liệu từ bảng cũ sang bảng tạm đó một cách có trật tự để tái tạo cây Clustered Index, sau đó đổi tên bảng và xóa bảng cũ.

  5. Hỏi (MongoDB): Khi chạy lệnh db.collection.validate({full: true}), thông số nInvalidDocuments lớn hơn 0 mang ý nghĩa gì?

    • Đáp: Báo hiệu CSDL đang bị lỗi vật lý ổ cứng hoặc có sự cố Engine, khiến một số BSON Documents lưu trên đĩa đã bị hỏng, không thể parse ngược lại thành dữ liệu JSON chuẩn.


5. Bài tập thực hành (Cập nhật Thống kê Cấp tốc)

Đề bài tình huống: Anh vừa thực hiện một lệnh chạy batch khổng lồ, INSERT vào bảng employees 5 triệu bản ghi mới. Các báo cáo SELECT trên bảng này đột ngột chậm hẳn đi do Optimizer vẫn dùng kế hoạch thực thi (Execution Plan) cũ vì tưởng bảng chỉ có 100 dòng. Hãy viết câu lệnh Cập nhật Thống kê / Phân tích dữ liệu ngay lập tức cho riêng bảng employees trên 5 hệ thống.

Đáp án:

1. Oracle:

SQL
EXEC DBMS_STATS.GATHER_TABLE_STATS(
    ownname => 'HR', 
    tabname => 'EMPLOYEES', 
    cascade => TRUE
);

2. SQL Server:

SQL
UPDATE STATISTICS employees WITH FULLSCAN;

3. PostgreSQL:

SQL
ANALYZE employees;

4. MySQL / MariaDB:

SQL
ANALYZE TABLE employees;

5. MongoDB: (Xóa cache bộ lập kế hoạch thực thi để bắt buộc hệ thống đánh giá lại Index)

JavaScript
use hr_db;
db.employees.getPlanCache().clear();

Các thói quen bảo trì này giống như việc "thay dầu định kỳ" cho động cơ. Máy càng sạch, chạy càng bốc.

Với nền tảng CSDL sạch sẽ và Optimizer sắc bén, chúng ta đã mở ra cánh cửa tiến thẳng vào lãnh địa khó nhất của DBA: Module 18: Quản lý hiệu năng CSDL (Performance Monitoring & Bottleneck Analysis)

=============================
TƯ VẤN: Click Here hoặc Hotline/Zalo 090.29.12.888
=============================
Website không chứa bất kỳ quảng cáo nào, mọi đóng góp để duy trì phát triển cho website (donation) xin vui lòng gửi về STK 90.2142.8888 - Ngân hàng Vietcombank Thăng Long - TRAN VAN BINH
=============================
Nếu bạn không muốn bị AI thay thế và tiết kiệm 3-5 NĂM trên con đường trở thành DBA chuyên nghiệp hay làm chủ Database thì hãy đăng ký ngay KHOÁ HỌC ORACLE DATABASE A-Z ENTERPRISE, được Coaching trực tiếp từ tôi với toàn bộ bí kíp thực chiến, thủ tục, quy trình của gần 20 năm kinh nghiệm (mà bạn sẽ KHÔNG THỂ tìm kiếm trên Internet/Google) từ đó giúp bạn dễ dàng quản trị mọi hệ thống Core tại Việt Nam và trên thế giới, đỗ OCP.
- CÁCH ĐĂNG KÝ: Gõ (.) hoặc để lại số điện thoại hoặc inbox https://m.me/tranvanbinh.vn hoặc Hotline/Zalo 090.29.12.888
- Chi tiết tham khảo:
https://bit.ly/oaz_w
=============================
2 khóa học online qua video giúp bạn nhanh chóng có những kiến thức nền tảng về Linux, Oracle, học mọi nơi, chỉ cần có Internet/4G:
- Oracle cơ bản: https://bit.ly/admin_1200
- Linux: https://bit.ly/linux_1200
=============================
KẾT NỐI VỚI CHUYÊN GIA TRẦN VĂN BÌNH:
📧 Mail: binhoracle@gmail.com
☎️ Mobile/Zalo: 0902912888
👨 Facebook: https://www.facebook.com/BinhOracleMaster
👨 Inbox Messenger: https://m.me/101036604657441 (profile)
👨 Fanpage: https://www.facebook.com/tranvanbinh.vn
👨 Inbox Fanpage: https://m.me/tranvanbinh.vn
👨👩 Group FB: https://www.facebook.com/groups/DBAVietNam
👨 Website: https://www.tranvanbinh.vn
👨 Blogger: https://tranvanbinhmaster.blogspot.com
🎬 Youtube: https://www.youtube.com/@binhguru
👨 Tiktok: https://www.tiktok.com/@binhguru
👨 Linkin: https://www.linkedin.com/in/binhoracle
👨 Twitter: https://twitter.com/binhguru
👨 Podcast: https://www.podbean.com/pu/pbblog-eskre-5f82d6
👨 Địa chỉ: Tòa nhà Sun Square - 21 Lê Đức Thọ - Phường Mỹ Đình 1 - Quận Nam Từ Liêm - TP.Hà Nội

=============================
cơ sở dữ liệu, cơ sở dữ liệu quốc gia, database, AI, trí tuệ nhân tạo, artificial intelligence, machine learning, deep learning, LLM, ChatGPT, DeepSeek, Grok, oracle tutorial, học oracle database, Tự học Oracle, Tài liệu Oracle 12c tiếng Việt, Hướng dẫn sử dụng Oracle Database, Oracle SQL cơ bản, Oracle SQL là gì, Khóa học Oracle Hà Nội, Học chứng chỉ Oracle ở đầu, Khóa học Oracle online,sql tutorial, khóa học pl/sql tutorial, học dba, học dba ở việt nam, khóa học dba, khóa học dba sql, tài liệu học dba oracle, Khóa học Oracle online, học oracle sql, học oracle ở đâu tphcm, học oracle bắt đầu từ đâu, học oracle ở hà nội, oracle database tutorial, oracle database 12c, oracle database là gì, oracle database 11g, oracle download, oracle database 19c/21c/23c/23ai, oracle dba tutorial, oracle tunning, sql tunning , oracle 12c, oracle multitenant, Container Databases (CDB), Pluggable Databases (PDB), oracle cloud, oracle security, oracle fga, audit_trail,oracle RAC, ASM, oracle dataguard, oracle goldengate, mview, oracle exadata, oracle oca, oracle ocp, oracle ocm , oracle weblogic, postgresql tutorial, mysql tutorial, mariadb tutorial, ms sql server tutorial, nosql, mongodb tutorial, oci, cloud, middleware tutorial, docker, k8s, micro service, hoc solaris tutorial, hoc linux tutorial, hoc aix tutorial, unix tutorial, securecrt, xshell, mobaxterm, putty

ĐỌC NHIỀU

Trần Văn Bình - Oracle Database Master