Thứ Tư, 4 tháng 2, 2026

Tháo 2 ổ Exadata X4-2 đang chạy để bảo hành

Runbook thay 2 ổ lỗi (goldhnceladm03: 20:0 – bad sector 1494; goldhnceladm02: 20:2 – predictive failure)

Nguyên tắc: thay lần lượt từng ổ, không thao tác đồng thời trên 2 cell; luôn kiểm tra USABLE_FILE_MB > 0 và rebalance xong hẳn trước khi rút ổ tiếp theo. Exadata dùng ASM mirroring theo failgroup, không phải RAID; khi drop 1 physicaldisk, ASM sẽ rebal/resilver các griddisk trên các cell còn lại.

0) Ghi nhận “mẫu chia” để tạo lại griddisk

Trên một cell khác (cùng rack) lấy kích thước 3 griddisk của cùng chỉ số CD (ví dụ CD_00 nếu slot hỏng là 20:0):

cellcli -e "list griddisk where name like '%_CD_00_%' attributes name,size" # ví dụ cho CD_00

Ghi 3 giá trị SIZE tương ứng cho DATA_GOLD, RECO_GOLD, DBFS_DG (để lát nữa tạo lại đúng kích cỡ).

1) Đánh dấu & dạt dữ liệu ra khỏi goldhnceladm03 / 20:0

Trên goldhnceladm03:

# Xác nhận ổ lỗi & đếm bad cellcli -e "list physicaldisk attributes name,errMediaCount,status where name='20:0'" # Ra lệnh thay: dịch dữ liệu & gỡ toàn bộ (grid/cell) disk trên ổ này cellcli -e "alter physicaldisk '20:0' drop for replacement"

Theo dõi ở ASM (trên +ASM):

-- Tăng tốc rebalance (ngoài giờ có thể nâng cao hơn) ALTER SYSTEM SET asm_power_limit=16; -- hoặc từng DG (nên chạy cho DATA_GOLD, RECO_GOLD, DBFS_DG) ALTER DISKGROUP DATA_GOLD REBALANCE POWER 16; ALTER DISKGROUP RECO_GOLD REBALANCE POWER 16; ALTER DISKGROUP DBFS_DG REBALANCE POWER 16; -- Theo dõi tiến độ SELECT GROUP_NUMBER, OPERATION, STATE, POWER, SOFAR, EST_WORK, EST_RATE, EST_MINUTES, ERROR_CODE FROM v$asm_operation;

Chờ tới khi không còn dòng REBAL.

Kiểm tra dư địa bảo vệ:

-- USABLE_FILE_MB phải > 0 SELECT name, usable_file_mb, offline_disks, required_mirror_free_mb FROM v$asm_diskgroup;

2) Rút ổ & lắp ổ mới (chỉ khi REBAL xong)

  • Khi REBAL hoàn tất, trên cell goldhnceladm03 chạy:

# Bật đèn locator nếu cần để nhận diện khay (tùy lifecycle image) # alter physicaldisk '20:0' identify on ; # (chỉ có trên image mới) # Sau đó rút ổ 20:0 và cắm ổ thay thế.

Xác nhận ổ mới đã thấy:

cellcli -e "list physicaldisk 20:0 detail" # phải thấy status=normal, notPresent=NA, firmware nhận diện ok

3) Tạo lại celldisk & 3 griddisk đúng mẫu

Giả sử CD/GR nomenclature của anh là CD_00_gol… / DATA_GOLD_CD_00_gol… (như ảnh anh gửi):

# Tạo celldisk trên ổ mới (đặt đúng tên CD_xx cũ của slot đó) cellcli -e "create celldisk CD_00_goldhnceladm03 on '20:0'" # Tạo 3 griddisk theo kích thước đã ghi ở bước 0 cellcli -e "create griddisk DATA_GOLD_CD_00_goldhnceladm03 celldisk=CD_00_goldhnceladm03 size=<SIZE_DATA>" cellcli -e "create griddisk RECO_GOLD_CD_00_goldhnceladm03 celldisk=CD_00_goldhnceladm03 size=<SIZE_RECO>" cellcli -e "create griddisk DBFS_DG_CD_00_goldhnceladm03 celldisk=CD_00_goldhnceladm03" # phần còn lại

ASM sẽ tự nhận disk mớirebalance (add):

SELECT name, path, header_status, state FROM v$asm_disk WHERE name like 'DATA_GOLD_CD_00_GOLDHNCELADM03' OR name like 'RECO_GOLD%' OR name like 'DBFS_DG%'; SELECT * FROM v$asm_operation; -- theo dõi tới khi xong

4) Lặp lại cho goldhnceladm02 / 20:2 (làm sau khi cell03 đã ổn)

Trên goldhnceladm02:

cellcli -e "list physicaldisk attributes name,errMediaCount,status where name='20:2'" cellcli -e "alter physicaldisk '20:2' drop for replacement" -- Theo dõi REBAL ở ASM như bước 1 -- Khi xong mới rút ổ và lắp ổ mới cellcli -e "create celldisk CD_02_goldhnceladm02 on '20:2'" cellcli -e "create griddisk DATA_GOLD_CD_02_goldhnceladm02 celldisk=CD_02_goldhnceladm02 size=<SIZE_DATA>" cellcli -e "create griddisk RECO_GOLD_CD_02_goldhnceladm02 celldisk=CD_02_goldhnceladm02 size=<SIZE_RECO>" cellcli -e "create griddisk DBFS_DG_CD_02_goldhnceladm02 celldisk=CD_02_goldhnceladm02" -- Theo dõi REBAL (add) cho tới khi hoàn tất

Lưu ý & tiêu chí an toàn

  • Không bao giờ rút ổ khi chưa chạy alter physicaldisk 'X:Y' drop for replacement – nếu không sẽ gặp lỗi kiểu “removed before running DROP FOR REPLACEMENT”không tạo được LUN (anh đã từng gặp).

  • Một ổ mỗi lần; luôn đảm bảo USABLE_FILE_MB còn dương trước khi drop ổ kế tiếp.

  • Nếu v$asm_operation báo ERRS (ORA-15041, …), thường do thiếu usable mirror free hoặc DBFS_DG chiếm chỗ → giải phóng bớt DBFS, tăng asm_power_limit, chạy lại ALTER DISKGROUP … REBALANCE.

  • Kiểm soát firmware ổ mới: cùng họ HGST/SUN, firmware được hỗ trợ với image hiện tại; nếu ổ mới báo Failed to create LUN, thường do chưa drop đúng quy trình hoặc firmware/FRU không match → gắn lại sau khi đã DROP FOR REPLACEMENT (đúng như alert 10_5 của anh).

  • Theo dõi bad sector/S.M.A.R.T.:

cellcli -e "list physicaldisk attributes name,errMediaCount,errOtherCount,status"

errMediaCount tăng nhanh là dấu hiệu đĩa sắp hỏng ⇒ chủ động thay sớm (đang là chủ trương predictive failure).


Vì sao làm như trên là an toàn?

  • Exadata dùng ASM NORMAL/HIGH với failgroup = từng cell; DROP FOR REPLACEMENT sẽ làm:

    1. ASM rebal/resilver bản sao sang các cell khác (vẫn đủ mirror);

    2. Cell gỡ grid/celldisk trên ổ đó → lúc này rút ổ không ảnh hưởng dữ liệu.

  • Làm đúng “mẫu chia” DATA/RECO/DBFS đảm bảo layout đồng nhất giữa các cell.


Một vài lệnh kiểm tra nhanh “all-in”

# Toàn bộ tình trạng PD/CD/GD trên cell cellcli -e "list physicaldisk; list celldisk; list griddisk" # Các GD inactive/mất cellcli -e "list griddisk where status != 'active'" # Các PD ở trạng thái nguy cơ cellcli -e "list physicaldisk where status != 'normal' attributes name,status,errMediaCount" # Trên ASM asmcmd lsdg sqlplus / as sysasm <<'SQL' SELECT name, state, type, required_mirror_free_mb, usable_file_mb, offline_disks FROM v$asm_diskgroup; SELECT group_number, operation, state, sofar, est_work, est_minutes, error_code FROM v$asm_operation; SQL
=============================
TƯ VẤN: Click Here hoặc Hotline/Zalo 090.29.12.888
=============================
Website không chứa bất kỳ quảng cáo nào, mọi đóng góp để duy trì phát triển cho website (donation) xin vui lòng gửi về STK 90.2142.8888 - Ngân hàng Vietcombank Thăng Long - TRAN VAN BINH
=============================
Nếu bạn không muốn bị AI thay thế và tiết kiệm 3-5 NĂM trên con đường trở thành DBA chuyên nghiệp hay làm chủ Database thì hãy đăng ký ngay KHOÁ HỌC ORACLE DATABASE A-Z ENTERPRISE, được Coaching trực tiếp từ tôi với toàn bộ bí kíp thực chiến, thủ tục, quy trình của gần 20 năm kinh nghiệm (mà bạn sẽ KHÔNG THỂ tìm kiếm trên Internet/Google) từ đó giúp bạn dễ dàng quản trị mọi hệ thống Core tại Việt Nam và trên thế giới, đỗ OCP.
- CÁCH ĐĂNG KÝ: Gõ (.) hoặc để lại số điện thoại hoặc inbox https://m.me/tranvanbinh.vn hoặc Hotline/Zalo 090.29.12.888
- Chi tiết tham khảo:
https://bit.ly/oaz_w
=============================
2 khóa học online qua video giúp bạn nhanh chóng có những kiến thức nền tảng về Linux, Oracle, học mọi nơi, chỉ cần có Internet/4G:
- Oracle cơ bản: https://bit.ly/admin_1200
- Linux: https://bit.ly/linux_1200
=============================
KẾT NỐI VỚI CHUYÊN GIA TRẦN VĂN BÌNH:
📧 Mail: binhoracle@gmail.com
☎️ Mobile/Zalo: 0902912888
👨 Facebook: https://www.facebook.com/BinhOracleMaster
👨 Inbox Messenger: https://m.me/101036604657441 (profile)
👨 Fanpage: https://www.facebook.com/tranvanbinh.vn
👨 Inbox Fanpage: https://m.me/tranvanbinh.vn
👨👩 Group FB: https://www.facebook.com/groups/DBAVietNam
👨 Website: https://www.tranvanbinh.vn
👨 Blogger: https://tranvanbinhmaster.blogspot.com
🎬 Youtube: https://www.youtube.com/@binhguru
👨 Tiktok: https://www.tiktok.com/@binhguru
👨 Linkin: https://www.linkedin.com/in/binhoracle
👨 Twitter: https://twitter.com/binhguru
👨 Podcast: https://www.podbean.com/pu/pbblog-eskre-5f82d6
👨 Địa chỉ: Tòa nhà Sun Square - 21 Lê Đức Thọ - Phường Mỹ Đình 1 - Quận Nam Từ Liêm - TP.Hà Nội

=============================
cơ sở dữ liệu, cơ sở dữ liệu quốc gia, database, AI, trí tuệ nhân tạo, artificial intelligence, machine learning, deep learning, LLM, ChatGPT, DeepSeek, Grok, oracle tutorial, học oracle database, Tự học Oracle, Tài liệu Oracle 12c tiếng Việt, Hướng dẫn sử dụng Oracle Database, Oracle SQL cơ bản, Oracle SQL là gì, Khóa học Oracle Hà Nội, Học chứng chỉ Oracle ở đầu, Khóa học Oracle online,sql tutorial, khóa học pl/sql tutorial, học dba, học dba ở việt nam, khóa học dba, khóa học dba sql, tài liệu học dba oracle, Khóa học Oracle online, học oracle sql, học oracle ở đâu tphcm, học oracle bắt đầu từ đâu, học oracle ở hà nội, oracle database tutorial, oracle database 12c, oracle database là gì, oracle database 11g, oracle download, oracle database 19c/21c/23c/23ai, oracle dba tutorial, oracle tunning, sql tunning , oracle 12c, oracle multitenant, Container Databases (CDB), Pluggable Databases (PDB), oracle cloud, oracle security, oracle fga, audit_trail,oracle RAC, ASM, oracle dataguard, oracle goldengate, mview, oracle exadata, oracle oca, oracle ocp, oracle ocm , oracle weblogic, postgresql tutorial, mysql tutorial, mariadb tutorial, ms sql server tutorial, nosql, mongodb tutorial, oci, cloud, middleware tutorial, docker, k8s, micro service, hoc solaris tutorial, hoc linux tutorial, hoc aix tutorial, unix tutorial, securecrt, xshell, mobaxterm, putty

ĐỌC NHIỀU

Trần Văn Bình - Oracle Database Master