Chủ Nhật, 1 tháng 3, 2026

100 câu lệnh Linux hay dùng cho Kỹ sư/Phân tích dữ liệu

Giới thiệu

Với tư cách là kỹ sư hoặc nhà phân tích dữ liệu, trách nhiệm hàng ngày của bạn có thể bao gồm thao tác với các tập dữ liệu lớn, tự động hóa quy trình làm việc, quản lý cơ sở hạ tầng đám mây hoặc tại chỗ và khắc phục sự cố đường dẫn dữ liệu. Mặc dù các công cụ hiện đại như Apache Airflow, Spark và các nền tảng đám mây đang thu hút sự chú ý, nhưng xương sống thực sự của năng suất thường nằm ở một công cụ đã tồn tại hàng thập kỷ: dòng lệnh Linux.

Nắm vững các lệnh Linux không chỉ là kỹ năng kỹ thuật mà còn là yếu tố nhân lực hiệu quả. Chỉ với vài thao tác gõ phím, bạn có thể chẩn đoán sự cố bộ nhớ, phân tích hàng triệu dòng nhật ký, lên lịch các tác vụ ETL, thiết lập kết nối an toàn đến máy chủ từ xa và nén hàng terabyte dữ liệu để truyền tải.

Để giúp bạn dễ dàng sử dụng bộ công cụ thiết yếu này, chúng tôi đã biên soạn một bảng tổng hợp các lệnh Linux với 100 lệnh phổ biến và mạnh mẽ nhất – được chọn lọc đặc biệt dành cho nhu cầu của các kỹ sư và nhà phân tích dữ liệu. Cho dù bạn đang xử lý tập tin, tối ưu hóa hiệu suất hay gỡ lỗi mã, hướng dẫn này sẽ là tài liệu tham khảo hữu ích giúp bạn hoàn thành công việc nhanh hơn và hiệu quả hơn.


Mô tả hình ảnh


1. Điều hướng hệ thống tập tin

Đây là những thao tác cơ bản bạn sẽ sử dụng hàng ngày để di chuyển giữa các thư mục và quản lý tập tin:

  • pwd– In thư mục làm việc hiện tại.
  • ls– Liệt kê nội dung của một thư mục.
  • cd [dir]– Chuyển sang thư mục khác.
  • mkdir [dir]– Tạo thư mục mới.
  • rm [file/dir]– Xóa các tập tin hoặc thư mục ( -rđối với thao tác đệ quy).
  • cp [src] [dest]– Sao chép tập tin hoặc thư mục.
  • mv [src] [dest]– Di chuyển hoặc đổi tên tệp/thư mục.
  • touch [file]– Tạo một tập tin trống hoặc cập nhật dấu thời gian.
  • cat [file]– Xem nội dung tệp.
  • head [file]– Xem các dòng đầu tiên của một tập tin.
  • tail [file]– Xem các dòng cuối cùng của một tập tin (dùng -fđể theo dõi nhật ký trực tiếp).

2. Tìm kiếm và xử lý dữ liệu

Bạn thường xuyên phải xem xét các tệp nhật ký, tệp cấu hình hoặc các tệp văn bản lớn. Những công cụ này rất cần thiết:

  • grep 'pattern' [file]– Tìm kiếm các mẫu trong các tập tin.
  • find [dir] -name 'filename'– Tìm kiếm tập tin.
  • awk '{print $1}'– Phân tích và xử lý văn bản từng dòng một.
  • sed 's/old/new/g'– Trình chỉnh sửa luồng để thay thế văn bản.
  • cut -d',' -f2– Cắt các trường cụ thể từ các tệp (ví dụ: CSV).
  • sort– Sắp xếp nội dung tệp.
  • uniq– Loại bỏ các mục trùng lặp (sử dụng với sort).
  • wc -l [file]– Đếm số dòng, số từ, số ký tự.
  • diff [file1] [file2]– So sánh từng dòng trong các tệp tin.
  • tee– Chuyển hướng đầu ra sang một tệp và thiết bị đầu cuối.

3. Giám sát và hiệu suất hệ thống

Hiểu rõ hiệu suất hệ thống giúp xác định các điểm nghẽn trong quy trình và tác vụ:

  • top– Mức sử dụng tài nguyên hệ thống theo thời gian thực.
  • ps aux– Liệt kê tất cả các tiến trình đang chạy.
  • kill [PID]– Kết thúc một tiến trình.
  • uptime– Hiển thị thời gian hoạt động và tải hệ thống.
  • df -h– Mức sử dụng dung lượng ổ đĩa.
  • du -sh [dir]– Kích thước thư mục.
  • free -m– Mức sử dụng bộ nhớ.
  • lsof– Liệt kê các tệp đang mở và các tiến trình liên quan.
  • lscpulshwlspcilsusb– Các lệnh kiểm tra phần cứng.

4. Công cụ mạng

Điều này rất quan trọng khi lấy dữ liệu từ API hoặc làm việc với các hệ thống phân tán:

  • ifconfigip a– Xem và cấu hình các giao diện mạng.
  • ping [host]– Kiểm tra kết nối.
  • netstat -tulnp– Kết nối mạng và cổng lắng nghe.
  • nslookup [domain]– Tra cứu DNS.
  • ssh [user@host]– Kết nối với máy chủ từ xa.
  • scp [src] [user@host:dest]– Sao chép tập tin an toàn.
  • rsync -av [src] [dest]– Đồng bộ hóa tập tin hiệu quả.
  • curl [URL]– Chuyển dữ liệu từ/đến máy chủ.
  • wget [URL]– Tải xuống các tệp từ web.
  • iftop– Giám sát mức sử dụng băng thông theo thời gian thực.
  • nc– Công cụ mạng nhẹ (gỡ lỗi, truyền tải tập tin).

5. Lưu trữ và nén tập tin

Việc xử lý các tập dữ liệu lớn hoặc chuyển nhật ký thường yêu cầu nén các tệp:

  • tar -czf archive.tar.gz [files]– Tạo tệp lưu trữ nén tar.
  • tar -xzf archive.tar.gz– Giải nén tệp lưu trữ tar.gz.
  • gzip [file]gunzip [file.gz]– Nén/giải nén bằng gzip.
  • zip [archive.zip] [file]unzip [archive.zip]– Tiện ích nén Zip.

6. Tự động hóa & Lập kế hoạch

Các kỹ sư dữ liệu tự động hóa các tác vụ — những công cụ này giúp quản lý việc đó:

  • crontab -e– Lên lịch thực thi các tập lệnh (ví dụ: các tác vụ ETL).
  • nohup [command] &– Thực hiện các quy trình dài hạn không bị gián đoạn.
  • alias ll='ls -alF'– Tạo các phím tắt lệnh.
  • source script.sh– Chạy một tập lệnh trong phiên shell hiện tại.

7. Quản lý quyền hạn và người dùng

Kiểm soát quyền truy cập là rất quan trọng khi làm việc trong môi trường dùng chung hoặc môi trường sản xuất:

  • sudo [command]– Chạy với quyền quản trị viên.
  • su [user]– Chuyển đổi người dùng.
  • chmod 755 [file]– Thay đổi quyền truy cập tệp.
  • chown user:group [file]– Thay đổi quyền sở hữu.
  • chgrp [group] [file]– Thay đổi quyền sở hữu nhóm.
  • who– Hiển thị người dùng đã đăng nhập.

8. Tiện ích hệ thống

Rất hữu ích cho việc quản trị hệ thống Linux nói chung:

  • man [command]– Xem tài liệu hướng dẫn lệnh.
  • which [command]– Hiển thị vị trí lệnh.
  • history– Hiển thị các lệnh đã chạy trước đó.
  • date– Hiển thị hoặc thiết lập thời gian hệ thống.
  • cal– Hiển thị lịch.
  • shutdown nowreboothalt– Điều khiển nguồn.
  • locate [file]– Tìm kiếm tệp nhanh chóng.
  • updatedb– Cập nhật cơ sở dữ liệu cho locate.

Phần kết luận

Linux không chỉ là một công cụ khác trong bộ công cụ của kỹ sư dữ liệu hay nhà phân tích dữ liệu—nó là nền tảng để xây dựng các hệ thống dữ liệu hiệu quả, có khả năng mở rộng và tự động hóa. 100 lệnh này không chỉ là các phím tắt; chúng là những khối xây dựng để làm việc thông minh hơn: phân tích nhật ký khổng lồ trong vài giây, chuyển dữ liệu giữa các môi trường, lên lịch các tác vụ ETL và khắc phục sự cố trong thời gian thực.

Cho dù bạn đang tối ưu hóa quy trình xử lý dữ liệu, quản lý cơ sở hạ tầng hay nghiên cứu sâu vào kho dữ liệu, việc thành thạo dòng lệnh Linux sẽ nâng cao khả năng xây dựng, duy trì và mở rộng quy mô quy trình dữ liệu một cách tự tin.

Hãy biến việc khám phá và thực hành các lệnh này thành thói quen trong công việc hàng ngày của bạn. Theo thời gian, chúng sẽ trở nên quen thuộc – và bạn sẽ thấy mình giải quyết vấn đề nhanh hơn, tự động hóa hiệu quả hơn và dành ít thời gian hơn cho các công việc lặp đi lặp lại.

Hãy lưu lại bảng hướng dẫn này, chia sẻ với nhóm của bạn và cân nhắc tích hợp nó vào tài liệu hướng dẫn dành cho nhân viên mới hoặc wiki nội bộ. Nhóm của bạn càng thành thạo sử dụng dòng lệnh, các thao tác dữ liệu của bạn sẽ càng trơn tru hơn.

=============================
TƯ VẤN: Click Here hoặc Hotline/Zalo 090.29.12.888
=============================
Website không chứa bất kỳ quảng cáo nào, mọi đóng góp để duy trì phát triển cho website (donation) xin vui lòng gửi về STK 90.2142.8888 - Ngân hàng Vietcombank Thăng Long - TRAN VAN BINH
=============================
Nếu bạn không muốn bị AI thay thế và tiết kiệm 3-5 NĂM trên con đường trở thành DBA chuyên nghiệp hay làm chủ Database thì hãy đăng ký ngay KHOÁ HỌC ORACLE DATABASE A-Z ENTERPRISE, được Coaching trực tiếp từ tôi với toàn bộ bí kíp thực chiến, thủ tục, quy trình của gần 20 năm kinh nghiệm (mà bạn sẽ KHÔNG THỂ tìm kiếm trên Internet/Google) từ đó giúp bạn dễ dàng quản trị mọi hệ thống Core tại Việt Nam và trên thế giới, đỗ OCP.
- CÁCH ĐĂNG KÝ: Gõ (.) hoặc để lại số điện thoại hoặc inbox https://m.me/tranvanbinh.vn hoặc Hotline/Zalo 090.29.12.888
- Chi tiết tham khảo:
https://bit.ly/oaz_w
=============================
2 khóa học online qua video giúp bạn nhanh chóng có những kiến thức nền tảng về Linux, Oracle, học mọi nơi, chỉ cần có Internet/4G:
- Oracle cơ bản: https://bit.ly/admin_1200
- Linux: https://bit.ly/linux_1200
=============================
KẾT NỐI VỚI CHUYÊN GIA TRẦN VĂN BÌNH:
📧 Mail: binhoracle@gmail.com
☎️ Mobile/Zalo: 0902912888
👨 Facebook: https://www.facebook.com/BinhOracleMaster
👨 Inbox Messenger: https://m.me/101036604657441 (profile)
👨 Fanpage: https://www.facebook.com/tranvanbinh.vn
👨 Inbox Fanpage: https://m.me/tranvanbinh.vn
👨👩 Group FB: https://www.facebook.com/groups/DBAVietNam
👨 Website: https://www.tranvanbinh.vn
👨 Blogger: https://tranvanbinhmaster.blogspot.com
🎬 Youtube: https://www.youtube.com/@binhguru
👨 Tiktok: https://www.tiktok.com/@binhguru
👨 Linkin: https://www.linkedin.com/in/binhoracle
👨 Twitter: https://twitter.com/binhguru
👨 Podcast: https://www.podbean.com/pu/pbblog-eskre-5f82d6
👨 Địa chỉ: Tòa nhà Sun Square - 21 Lê Đức Thọ - Phường Mỹ Đình 1 - Quận Nam Từ Liêm - TP.Hà Nội

=============================
cơ sở dữ liệu, cơ sở dữ liệu quốc gia, database, AI, trí tuệ nhân tạo, artificial intelligence, machine learning, deep learning, LLM, ChatGPT, DeepSeek, Grok, oracle tutorial, học oracle database, Tự học Oracle, Tài liệu Oracle 12c tiếng Việt, Hướng dẫn sử dụng Oracle Database, Oracle SQL cơ bản, Oracle SQL là gì, Khóa học Oracle Hà Nội, Học chứng chỉ Oracle ở đầu, Khóa học Oracle online,sql tutorial, khóa học pl/sql tutorial, học dba, học dba ở việt nam, khóa học dba, khóa học dba sql, tài liệu học dba oracle, Khóa học Oracle online, học oracle sql, học oracle ở đâu tphcm, học oracle bắt đầu từ đâu, học oracle ở hà nội, oracle database tutorial, oracle database 12c, oracle database là gì, oracle database 11g, oracle download, oracle database 19c/21c/23c/23ai, oracle dba tutorial, oracle tunning, sql tunning , oracle 12c, oracle multitenant, Container Databases (CDB), Pluggable Databases (PDB), oracle cloud, oracle security, oracle fga, audit_trail,oracle RAC, ASM, oracle dataguard, oracle goldengate, mview, oracle exadata, oracle oca, oracle ocp, oracle ocm , oracle weblogic, postgresql tutorial, mysql tutorial, mariadb tutorial, ms sql server tutorial, nosql, mongodb tutorial, oci, cloud, middleware tutorial, docker, k8s, micro service, hoc solaris tutorial, hoc linux tutorial, hoc aix tutorial, unix tutorial, securecrt, xshell, mobaxterm, putty

ĐỌC NHIỀU

Trần Văn Bình - Oracle Database Master