Trong công việc hàng ngày, việc xử lý dữ liệu trùng lặp trong Excel là một nhiệm vụ phổ biến nhưng không kém phần quan trọng, đặc biệt khi bạn phải làm việc với các bảng tính lớn hoặc dữ liệu nhập liệu từ nhiều nguồn khác nhau. Dữ liệu trùng lặp không chỉ gây ra sự nhầm lẫn, sai lệch trong các báo cáo, phân tích mà còn làm giảm hiệu quả công việc và tốn thời gian khi phải kiểm tra thủ công. Một bảng tính với dữ liệu được tổ chức gọn gàng, không có các bản ghi trùng lặp sẽ giúp bạn đưa ra quyết định chính xác hơn và tiết kiệm đáng kể thời gian xử lý. Hướng dẫn sử dụng Excel 2016 là một kỹ năng tin học văn phòng cơ bản mà bất kỳ ai cũng cần nắm vững.

May mắn thay, Excel cung cấp nhiều công cụ và phương pháp mạnh mẽ để giúp bạn dễ dàng xác định và loại bỏ hoặc đánh dấu các giá trị trùng lặp này. Từ những tính năng tích hợp sẵn như Remove Duplicates hay Conditional Formatting, cho đến các phương pháp nâng cao hơn như Advanced Filter, Pivot Table, hoặc sử dụng các công thức phức tạp, mỗi cách đều có những ưu điểm riêng và phù hợp với các tình huống cụ thể. Bài viết này của Viettopreview sẽ đi sâu vào từng phương pháp, cung cấp cho bạn hướng dẫn chi tiết từng bước để bạn có thể tự tin làm chủ việc lọc trùng dữ liệu trong Excel, biến những bảng tính “rối rắm” trở nên khoa học và dễ quản lý hơn bao giờ hết.

1. Loại Bỏ Dữ Liệu Trùng Lặp Nhanh Chóng Với Tính Năng Remove Duplicates

Tính năng Remove Duplicates là một trong những cách đơn giản và trực quan nhất để loại bỏ các dòng dữ liệu bị trùng lặp trong Excel mà không yêu cầu bạn phải có kiến thức sâu về công thức hay các tùy chỉnh phức tạp. Đây là công cụ được tích hợp sẵn từ lâu và rất dễ sử dụng, phù hợp cho những ai muốn “dọn dẹp” bảng tính của mình một cách nhanh chóng. Khi sử dụng tính năng này, Excel sẽ quét toàn bộ vùng dữ liệu được chọn và xóa đi các bản ghi trùng lặp, chỉ giữ lại một bản ghi duy nhất cho mỗi giá trị. Điều này đặc biệt hữu ích khi bạn cần đảm bảo mỗi mục trong danh sách là duy nhất.

Để sử dụng tính năng Remove Duplicates, bạn có thể thực hiện theo các bước sau. Đầu tiên, hãy đảm bảo rằng bạn đã chọn toàn bộ vùng dữ liệu mà bạn muốn kiểm tra và loại bỏ các bản ghi trùng lặp. Việc chọn đúng phạm vi dữ liệu là rất quan trọng để tránh xóa nhầm hoặc bỏ sót các dữ liệu cần thiết.

Bước 1: Chọn vào vùng dữ liệu bạn cần lọc. Sau đó, vào thẻ Data, trong nhóm Data Tools, bạn sẽ thấy và chọn vào tính năng Remove Duplicates.

Chọn vùng dữ liệu và tính năng Remove Duplicates trên thẻ Data trong ExcelChọn vùng dữ liệu và tính năng Remove Duplicates trên thẻ Data trong Excel

Bước 2: Một hộp thoại Remove Duplicates sẽ hiện ra. Tại đây, bạn cần thực hiện một số tùy chọn quan trọng.

  • Nếu vùng dữ liệu của bạn có dòng đầu tiên chứa tên của các cột (headers), hãy tích chọn vào ô My data has headers. Điều này giúp Excel nhận diện và không coi dòng tiêu đề là dữ liệu cần lọc.
  • Bạn có thể chọn lọc dữ liệu trùng trên toàn bộ vùng dữ liệu bằng cách tích chọn Select All. Hoặc, nếu bạn chỉ muốn lọc trùng dựa trên một hoặc một vài cột cụ thể, hãy bỏ chọn Select All và chỉ tích vào các cột mà bạn muốn Excel so sánh để tìm giá trị trùng lặp. Ví dụ, nếu bạn chỉ muốn lọc trùng tên, bạn chỉ chọn cột “Tên”.

Cấu hình hộp thoại Remove Duplicates trong Excel để lọc dữ liệu trùng lặpCấu hình hộp thoại Remove Duplicates trong Excel để lọc dữ liệu trùng lặp

Bước 3: Nhấn vào OK. Excel sẽ hiển thị một thông báo cho biết số lượng giá trị trùng lặp đã được tìm thấy và xóa đi, cùng với số lượng giá trị duy nhất còn lại trong vùng dữ liệu của bạn. Sau khi hoàn tất, bạn sẽ có một bảng dữ liệu sạch sẽ, không còn các bản ghi trùng lặp theo tiêu chí đã chọn. Đây là một phương pháp rất hữu hiệu khi bạn muốn nhanh chóng có một danh sách các giá trị duy nhất.

2. Đánh Dấu Dữ Liệu Trùng Lặp Bằng Conditional Formatting

Trong nhiều trường hợp, bạn có thể không muốn xóa ngay dữ liệu trùng lặp mà chỉ muốn nhận diện chúng để kiểm tra hoặc xử lý sau. Khi đó, tính năng Conditional Formatting (Định dạng có điều kiện) sẽ là một công cụ lý tưởng. Conditional Formatting cho phép bạn đánh dấu các ô hoặc dòng dữ liệu có chứa giá trị trùng lặp bằng cách áp dụng các định dạng màu sắc hoặc kiểu chữ đặc biệt, giúp bạn dễ dàng hình dung và quyết định cách xử lý phù hợp. Đây là một cách tuyệt vời để trực quan hóa dữ liệu và tìm hướng dẫn lọc tên trong excel một cách thủ công.

Việc đánh dấu dữ liệu trùng lặp trước khi xóa mang lại sự linh hoạt cao hơn, cho phép bạn xem xét ngữ cảnh của từng bản ghi trùng và đảm bảo rằng không có thông tin quan trọng nào bị mất đi. Điều này đặc biệt có lợi trong các bộ dữ liệu phức tạp hoặc khi bạn đang trong quá trình chuẩn bị dữ liệu cho các phân tích sâu hơn.

Bước 1: Chọn vào cột hoặc vùng dữ liệu bạn muốn kiểm tra. Sau đó, trên thẻ Home, trong nhóm Styles, nhấn vào Conditional Formatting. Tiếp theo, di chuột đến Highlight Cells Rules, và chọn Duplicate Values.

Chọn Conditional Formatting và Duplicate Values để đánh dấu dữ liệu trùng lặpChọn Conditional Formatting và Duplicate Values để đánh dấu dữ liệu trùng lặp

Bước 2: Hộp thoại Duplicate Values sẽ xuất hiện. Tại đây, bạn có thể tùy chỉnh cách thức đánh dấu:

  • Ở ô đầu tiên, mặc định sẽ là Duplicate để làm nổi bật các giá trị bị trùng lặp. Nếu bạn muốn làm nổi bật các giá trị duy nhất trong vùng dữ liệu, bạn có thể thay đổi thành Unique.
  • Ở ô thứ hai, bạn có thể chọn kiểu định dạng mà bạn muốn áp dụng cho các ô được đánh dấu. Excel cung cấp nhiều tùy chọn màu sắc và kiểu chữ khác nhau, ví dụ như “Light Red Fill with Dark Red Text” (màu đỏ nhạt với chữ đỏ đậm) là lựa chọn mặc định, giúp dễ dàng nhận biết. Bạn cũng có thể tùy chỉnh định dạng theo ý muốn bằng cách chọn “Custom Format…”.

Cấu hình hộp thoại Duplicate Values để đánh dấu các giá trị trùng lặp bằng màu sắcCấu hình hộp thoại Duplicate Values để đánh dấu các giá trị trùng lặp bằng màu sắc

Bước 3: Nhấn vào OK. Lúc này, các ô chứa dữ liệu trùng lặp (hoặc duy nhất, tùy theo lựa chọn của bạn) sẽ được đánh dấu theo màu sắc và định dạng bạn đã chọn. Điều này giúp bạn dễ dàng quét qua bảng tính và nhanh chóng xác định vị trí của các giá trị cần chú ý, từ đó đưa ra quyết định tiếp theo như xóa, chỉnh sửa, hoặc đơn giản là để nguyên.

3. Lọc Dữ Liệu Trùng Lặp Bằng Advanced Filter

Advanced Filter là một công cụ lọc mạnh mẽ hơn so với tính năng lọc thông thường trong Excel, cho phép bạn thực hiện các thao tác lọc phức tạp hơn, bao gồm cả việc chỉ hiển thị các bản ghi duy nhất. Điểm khác biệt chính của Advanced Filter so với Remove Duplicates là nó không xóa dữ liệu gốc. Thay vào đó, nó sẽ lọc và hiển thị các bản ghi duy nhất, hoặc sao chép chúng sang một vị trí khác mà không làm ảnh hưởng đến dữ liệu ban đầu. Điều này mang lại sự an toàn và linh hoạt cao hơn khi bạn muốn kiểm tra hoặc lưu trữ cả dữ liệu gốc và dữ liệu đã lọc.

Khi sử dụng Advanced Filter để lọc các bản ghi duy nhất, Excel sẽ quét qua vùng dữ liệu đã chọn và chỉ giữ lại bản ghi đầu tiên của mỗi giá trị duy nhất mà nó tìm thấy, bỏ qua các bản ghi trùng lặp tiếp theo. Đây là một phương pháp rất linh hoạt, đặc biệt khi bạn cần tạo ra một danh sách sạch các bản ghi không trùng lặp từ một bảng dữ liệu lớn mà vẫn muốn bảo toàn dữ liệu gốc. Tin học văn phòng cơ bản gồm những gì là một nền tảng vững chắc để bạn tiếp tục khám phá các tính năng nâng cao như Advanced Filter.

Bước 1: Chọn vào vùng dữ liệu bạn muốn lọc. Sau đó, trên thẻ Data, trong nhóm Sort & Filter, chọn Advanced.

Chọn Advanced Filter trên thẻ Data trong ExcelChọn Advanced Filter trên thẻ Data trong Excel

Bước 2: Hộp thoại Advanced Filter sẽ hiện ra với các tùy chọn sau:

  • Action:
    • Filter the list, in-place: Lọc trực tiếp trên vùng dữ liệu hiện tại. Excel sẽ ẩn các dòng trùng lặp và chỉ hiển thị các dòng duy nhất.
    • Copy to another location: Sao chép các bản ghi duy nhất sang một vị trí khác trong bảng tính. Tùy chọn này rất hữu ích khi bạn muốn giữ nguyên dữ liệu gốc và tạo ra một danh sách mới chỉ chứa các giá trị không trùng lặp.
  • List range: Chứa vùng dữ liệu bạn muốn lọc. Excel thường tự động nhận diện, nhưng bạn nên kiểm tra lại cho chính xác.
  • Criteria range: (Không bắt buộc cho việc lọc trùng duy nhất). Mục này dùng để đặt các điều kiện lọc phức tạp hơn, nhưng khi chỉ lọc giá trị duy nhất, bạn có thể bỏ qua.
  • Copy to: Chỉ hiển thị khi bạn chọn Copy to another location. Đây là nơi bạn sẽ chọn ô đầu tiên của vị trí mà bạn muốn dữ liệu đã lọc được sao chép đến.
  • Quan trọng nhất, hãy tích chọn vào ô Unique records only. Đây là tùy chọn quyết định để Excel chỉ lọc ra và hiển thị/sao chép các giá trị duy nhất, bỏ qua tất cả các bản ghi trùng lặp.

Thiết lập hộp thoại Advanced Filter để lọc các bản ghi duy nhấtThiết lập hộp thoại Advanced Filter để lọc các bản ghi duy nhất

Bước 3: Nhấn OK. Excel sẽ thực hiện lọc theo thiết lập của bạn. Nếu bạn chọn “Filter the list, in-place”, các hàng trùng lặp sẽ bị ẩn đi. Nếu bạn chọn “Copy to another location”, một danh sách mới chỉ chứa các bản ghi duy nhất sẽ xuất hiện tại vị trí bạn đã chỉ định. Phương pháp này cung cấp một cái nhìn tổng quan sạch sẽ về các giá trị duy nhất trong tập dữ liệu của bạn mà không làm thay đổi dữ liệu gốc.

4. Lọc Dữ Liệu Trùng Lặp Bằng Pivot Table

Pivot Table là một công cụ mạnh mẽ trong Excel dùng để tóm tắt, phân tích và trình bày dữ liệu. Tuy nhiên, nó cũng có thể được tận dụng một cách thông minh để lọc và xác định dữ liệu trùng lặp, đặc biệt là khi bạn muốn đếm số lần xuất hiện của mỗi mục. Mặc dù không trực tiếp “xóa” trùng lặp như Remove Duplicates, Pivot Table lại giúp bạn dễ dàng phát hiện ra các mục bị lặp lại và số lần lặp của chúng, từ đó đưa ra quyết định xử lý phù hợp. Công cụ này rất hữu ích khi bạn cần một cái nhìn tổng quan về tần suất xuất hiện của các giá trị trong một cột.

Việc sử dụng Pivot Table để tìm kiếm trùng lặp giúp bạn hiểu rõ hơn về cấu trúc dữ liệu của mình, không chỉ dừng lại ở việc biết có trùng lặp hay không, mà còn biết mức độ trùng lặp. Đây là một kỹ năng nâng cao hữu ích trong việc làm sổ sách kế toán trên Excel hoặc các báo cáo quản lý dữ liệu phức tạp.

Bước 1: Chọn vào vùng dữ liệu bạn muốn phân tích. Sau đó, vào thẻ Insert, chọn PivotTable.

  • Kiểm tra lại Table/Range để đảm bảo đúng vùng dữ liệu hoặc bảng bạn muốn.
  • Ở mục Choose where you want the PivotTable to be placed, bạn có thể chọn New Worksheet nếu muốn Pivot Table xuất hiện ở một trang tính mới, hoặc Existing Worksheet và chọn vị trí cụ thể nếu muốn đặt Pivot Table ngay trên trang tính hiện tại.
  • Sau đó, nhấn OK.

Tạo Pivot Table từ vùng dữ liệu để phân tíchTạo Pivot Table từ vùng dữ liệu để phân tích

Bước 2: Cửa sổ PivotTable Fields sẽ hiện ra. Bạn kéo cột dữ liệu mà bạn muốn lọc trùng vào ô Rows. Ví dụ, nếu bạn muốn tìm tên trùng lặp, hãy kéo cột “Họ và Tên” vào mục Rows.

Tiếp theo, kéo chính cột đó (ví dụ “Họ và Tên”) vào ô Values. Mặc định, Excel có thể sẽ đếm (Count) số lần xuất hiện của các giá trị này. Nếu không phải Count, bạn có thể nhấn chuột phải vào trường trong mục Values, chọn Value Field Settings và chọn Count.

Lúc này, Pivot Table sẽ hiển thị một danh sách các giá trị duy nhất từ cột bạn đã chọn và đếm số lần xuất hiện của mỗi giá trị đó. Những giá trị nào có số lần xuất hiện lớn hơn 1 chính là những giá trị bị trùng lặp.

Kéo trường dữ liệu vào Rows và Values trong PivotTable Fields để đếm tần suấtKéo trường dữ liệu vào Rows và Values trong PivotTable Fields để đếm tần suất

Bước 3: Để xem chi tiết các bản ghi bị trùng lặp, bạn có thể Double Click vào số lần xuất hiện (giá trị trong cột Count) của bất kỳ mục nào có số lượng lớn hơn 1 trong Pivot Table. Excel sẽ tự động mở một trang tính mới và hiển thị tất cả các bản ghi gốc tạo nên tổng số đó, giúp bạn dễ dàng kiểm tra chi tiết các dòng dữ liệu bị trùng lặp.

5. Lọc Dữ Liệu Trùng Lặp Bằng Công Thức Excel (Trên Nhiều Sheet)

Các phương pháp trên thường rất hiệu quả khi dữ liệu bạn cần xử lý nằm trên cùng một bảng tính (sheet). Tuy nhiên, trong thực tế, không ít trường hợp bạn cần kiểm tra dữ liệu trùng lặp giữa hai hoặc nhiều bảng tính khác nhau. Trong tình huống này, các tính năng tích hợp sẵn có thể không đủ mạnh, và bạn sẽ cần đến sức mạnh của các công thức Excel để thực hiện nhiệm vụ này. Việc sử dụng công thức không chỉ linh hoạt mà còn cho phép bạn tùy chỉnh điều kiện lọc theo nhu cầu cụ thể.

Để lọc dữ liệu trùng lặp giữa các sheet, chúng ta sẽ sử dụng kết hợp các hàm như IF, ISNA, và VLOOKUP. Hàm VLOOKUP sẽ giúp tìm kiếm giá trị từ sheet này trong sheet khác, ISNA kiểm tra xem kết quả tìm kiếm có bị lỗi (không tìm thấy) hay không, và IF sẽ đưa ra kết luận cuối cùng là “Unique” (Duy nhất) hay “Duplicate” (Trùng lặp). Đây là một phương pháp rất linh hoạt và có thể được mở rộng để xử lý các tình huống phức tạp hơn.

Giả sử bạn có hai vùng dữ liệu (ví dụ: danh sách tên) trên hai sheet khác nhau, và bạn muốn tìm ra những giá trị nào của cột “Họ và Tên” bị trùng lặp giữa hai vùng dữ liệu này.

Bước 1: Thêm một cột mới vào vùng dữ liệu thứ hai, ví dụ đặt tên là “Kiểm Tra” hoặc “Trạng Thái”. Cột này sẽ chứa kết quả đánh giá về việc dữ liệu có bị trùng lặp với sheet kia hay không.

Bước 2: Nhập công thức sau vào ô đầu tiên của cột “Kiểm Tra” (ví dụ, nếu cột đó là C và dữ liệu bắt đầu từ hàng 2, bạn nhập vào C2):

=IF(ISNA(VLOOKUP(A2,Sheet1!A:C,1,0)),"Unique","Duplicate")

  • Giải thích công thức:
    • VLOOKUP(A2,Sheet1!A:C,1,0): Hàm VLOOKUP sẽ tìm kiếm giá trị trong ô A2 (Họ và Tên) của Sheet hiện tại, trong vùng dữ liệu từ cột A đến C của Sheet1. Số 1 chỉ ra rằng chúng ta muốn trả về giá trị từ cột đầu tiên của vùng tìm kiếm (chính là giá trị A2). Số 0 (hoặc FALSE) đảm bảo tìm kiếm chính xác.
    • Nếu VLOOKUP tìm thấy giá trị trong Sheet1, nó sẽ trả về giá trị đó. Nếu không tìm thấy, nó sẽ trả về lỗi #N/A.
    • ISNA(...): Hàm ISNA kiểm tra xem kết quả của VLOOKUP có phải là lỗi #N/A hay không. Nếu là lỗi #N/A, ISNA trả về TRUE (tức là không tìm thấy, giá trị là duy nhất). Nếu không phải lỗi, ISNA trả về FALSE (tức là tìm thấy, giá trị có thể trùng lặp).
    • IF(ISNA(...),"Unique","Duplicate"): Hàm IF sẽ kiểm tra kết quả của ISNA. Nếu ISNATRUE (không tìm thấy trong Sheet1), nghĩa là giá trị ở ô A2 là duy nhất so với Sheet1, IF sẽ trả về “Unique”. Ngược lại, nếu ISNAFALSE (tìm thấy trong Sheet1), nghĩa là giá trị ở ô A2 có trùng lặp với Sheet1, IF sẽ trả về “Duplicate”.

Bước 3: Áp dụng công thức này cho toàn bộ cột “Kiểm Tra” bằng cách kéo công thức xuống các ô còn lại trong cột.

Kết quả, những giá trị bị trùng lặp giữa hai sheet thì cột “Kiểm Tra” sẽ trả về giá trị “Duplicate”, còn những giá trị duy nhất sẽ trả về “Unique”. Điều này giúp bạn dễ dàng xác định và xử lý các bản ghi trùng lặp một cách có hệ thống.

Kết quả lọc dữ liệu trùng lặp giữa các sheet bằng công thức IF ISNA VLOOKUPKết quả lọc dữ liệu trùng lặp giữa các sheet bằng công thức IF ISNA VLOOKUP

Kết luận

Việc nắm vững cách lọc trùng trong Excel là một kỹ năng thiết yếu giúp bạn quản lý dữ liệu hiệu quả hơn, đảm bảo tính chính xác và tối ưu hóa thời gian làm việc. Từ việc sử dụng các tính năng có sẵn như Remove Duplicates và Conditional Formatting cho đến các công cụ nâng cao như Advanced Filter và Pivot Table, hay thậm chí là áp dụng các công thức phức tạp để lọc dữ liệu trên nhiều bảng tính, mỗi phương pháp đều mang lại những lợi ích và phù hợp với các nhu cầu khác nhau.

Viettopreview hy vọng rằng bài viết này đã cung cấp cho bạn những hướng dẫn chi tiết và hữu ích để bạn có thể tự tin xử lý mọi vấn đề liên quan đến dữ liệu trùng lặp trong Excel. Hãy thực hành thường xuyên để làm quen với từng công cụ, từ đó lựa chọn phương pháp tối ưu nhất cho công việc của mình. Một bảng tính được “dọn dẹp” sạch sẽ không chỉ nâng cao chất lượng báo cáo mà còn giúp bạn đưa ra những quyết định sáng suốt hơn dựa trên dữ liệu chính xác. Chúc bạn thành công!