Chào các bác,
Em kể chuyện đời em chút là kinh nghiệm thực tế cá nhân mong giúp được bác nào đang có suy nghĩ như em trước đây. Hồi mới vào nghề DevOps, em nghĩ đi nhiều nơi là cách học nhanh. Tính ra, gần 3 năm em nhảy 5 công ty startup có, outsource có, product cũng có. Mỗi nơi cho đụng tí: ở công ty A em lo CI/CD Jenkins, qua công ty B làm tí Ansible, tiếp công ty C cho em nghịch Helm với ArgoCD, rồi công ty D thì vào AWS console làm tay, đến công ty E lại là kiểu “manual DevOps”.
Nhưng các bác biết không, chưa nơi nào em thấy Production sập mà em là người đầu tiên bị gọi cả 😀 Em toàn làm phần set up, phần chạy mượt rồi là out. Mấy cái root-cause analysis hay post-mortem incident chưa bao giờ thấy tên mình trong đó. Tưởng là trải nghiệm, hóa ra là ĐI LƯỚT.
Vào công ty thứ 6 em tỉnh ra.
Công ty này nhỏ thôi, nhưng mọi thứ em phải tự chịu trách nhiệm.
Tháng đầu tiên vào, chưa kịp quen hạ tầng thì Kubernetes cluster hết IP. Flannel bị misconfig, cái subnet CIDR allocate sai khiến Pod mới không lên được. Cả hệ thống đứng vì chẳng service nào scale được. Em debug gần 4 tiếng, vọc log kubelet, CNI, dnsmasq,… mới ngộ ra là “IP exhaustion” là thứ các tutorial không bao giờ nhắc tới.
Đêm khác, Redis đột nhiên timeout hàng loạt. CPU ổn, RAM còn dư, connection count thì thấp. Cuối cùng tìm ra là Redis log đẻ ra quá nhiều dòng vì slowlog-log-slower-than
set sai, khiến disk IO choke luôn, timeout toàn bộ request.
Từ đó em học một bài học: một DevOps tốt là người từng sửa hệ thống trong điều kiện không ai cứu mình.
Kỹ năng thật sự em học được không nằm trong sách:
- Viết playbook như mình là người mất trí nhớ. Không phải cho người khác đọc, mà để chính mình lúc 3h sáng đầu óc lag còn hiểu cần làm gì.
- Alert không được phát khi đã toang. Prometheus em config 2 layer: soft-alert khi có dấu hiệu bất thường (pod restart tăng, CPU > 60% liên tục), hard-alert khi chạm ngưỡng giới hạn. Nhờ đó tụi em từng tránh được vụ autoscaler scale pod làm nghẽn db connection pool.
- Log cần filter kỹ, chứ không phải gom hết về ELK. Hồi trước em collect log toàn bộ
stdout
, về sau Loki die vì overload. Giờ em gom theo pattern rõ ràng: error/warn từ app, nhưng infra log chỉ lấy metrics từ Promtail.
Làm nhiều thì chưa chắc giỏi nhưng sống với nó thì sẽ hiểu.
Nhiều bạn junior hỏi em: “Em học Docker xong nên học Terraform hay Ansible trước?” Em bảo, học cái gì cũng được, miễn là em được giữ hệ thống sống 6 tháng, và phải là người xử lý sự cố đầu tiên. Cái gì cũng sẽ tự học được hết.
Chứ còn cứ học kiểu:
- CI/CD là push code lên rồi đợi build green
- Infrastructure là “terraform apply xong rồi thôi”
- Monitoring là setup Prometheus rồi quên không đặt retention, query thì join loạn xạ trên dashboard…
Thì em xin phép có 10 job cũng không bằng 1 lần Production chết ngay giữa đêm Giáng Sinh 😀
Làm DevOps không phải để học tool mà là để cho hệ thống sống yên bình cả khi mình không có mặt.
Muốn đến được chỗ đó, em thấy chỉ có một cách: phải từng là người đứng ra gánh trách nhiệm thật sự.
Nguồn: DevOps.VN
Website không chứa bất kỳ quảng cáo nào, mọi đóng góp để duy trì phát triển cho website (donation) xin vui lòng gửi về STK 90.2142.8888 - Ngân hàng Vietcombank Thăng Long - TRAN VAN BINH
=============================
Nếu bạn không muốn bị AI thay thế và tiết kiệm 3-5 NĂM trên con đường trở thành DBA chuyên nghiệp hay làm chủ Database thì hãy đăng ký ngay KHOÁ HỌC ORACLE DATABASE A-Z ENTERPRISE, được Coaching trực tiếp từ tôi với toàn bộ bí kíp thực chiến, thủ tục, quy trình của gần 20 năm kinh nghiệm (mà bạn sẽ KHÔNG THỂ tìm kiếm trên Internet/Google) từ đó giúp bạn dễ dàng quản trị mọi hệ thống Core tại Việt Nam và trên thế giới, đỗ OCP.
- CÁCH ĐĂNG KÝ: Gõ (.) hoặc để lại số điện thoại hoặc inbox https://m.me/tranvanbinh.vn hoặc Hotline/Zalo 090.29.12.888
- Chi tiết tham khảo:
https://bit.ly/oaz_w
=============================
2 khóa học online qua video giúp bạn nhanh chóng có những kiến thức nền tảng về Linux, Oracle, học mọi nơi, chỉ cần có Internet/4G:
- Oracle cơ bản: https://bit.ly/admin_1200
- Linux: https://bit.ly/linux_1200
=============================
KẾT NỐI VỚI CHUYÊN GIA TRẦN VĂN BÌNH:
📧 Mail: binhoracle@gmail.com
☎️ Mobile/Zalo: 0902912888
👨 Facebook: https://www.facebook.com/BinhOracleMaster
👨 Inbox Messenger: https://m.me/101036604657441 (profile)
👨 Fanpage: https://www.facebook.com/tranvanbinh.vn
👨 Inbox Fanpage: https://m.me/tranvanbinh.vn
👨👩 Group FB: https://www.facebook.com/groups/DBAVietNam
👨 Website: https://www.tranvanbinh.vn
👨 Blogger: https://tranvanbinhmaster.blogspot.com
🎬 Youtube: https://www.youtube.com/@binhguru
👨 Tiktok: https://www.tiktok.com/@binhguru
👨 Linkin: https://www.linkedin.com/in/binhoracle
👨 Twitter: https://twitter.com/binhguru
👨 Podcast: https://www.podbean.com/pu/pbblog-eskre-5f82d6
👨 Địa chỉ: Tòa nhà Sun Square - 21 Lê Đức Thọ - Phường Mỹ Đình 1 - Quận Nam Từ Liêm - TP.Hà Nội
=============================
cơ sở dữ liệu, cơ sở dữ liệu quốc gia, database, AI, trí tuệ nhân tạo, artificial intelligence, machine learning, deep learning, LLM, ChatGPT, DeepSeek, Grok, oracle tutorial, học oracle database, Tự học Oracle, Tài liệu Oracle 12c tiếng Việt, Hướng dẫn sử dụng Oracle Database, Oracle SQL cơ bản, Oracle SQL là gì, Khóa học Oracle Hà Nội, Học chứng chỉ Oracle ở đầu, Khóa học Oracle online,sql tutorial, khóa học pl/sql tutorial, học dba, học dba ở việt nam, khóa học dba, khóa học dba sql, tài liệu học dba oracle, Khóa học Oracle online, học oracle sql, học oracle ở đâu tphcm, học oracle bắt đầu từ đâu, học oracle ở hà nội, oracle database tutorial, oracle database 12c, oracle database là gì, oracle database 11g, oracle download, oracle database 19c/21c/23c/23ai, oracle dba tutorial, oracle tunning, sql tunning , oracle 12c, oracle multitenant, Container Databases (CDB), Pluggable Databases (PDB), oracle cloud, oracle security, oracle fga, audit_trail,oracle RAC, ASM, oracle dataguard, oracle goldengate, mview, oracle exadata, oracle oca, oracle ocp, oracle ocm , oracle weblogic, postgresql tutorial, mysql tutorial, mariadb tutorial, ms sql server tutorial, nosql, mongodb tutorial, oci, cloud, middleware tutorial, docker, k8s, micro service, hoc solaris tutorial, hoc linux tutorial, hoc aix tutorial, unix tutorial, securecrt, xshell, mobaxterm, putty