sơ khai Khớp mờ – Định nghĩa, Quy trình và Kỹ thuật - Unite.AI
Kết nối với chúng tôi

Lãnh đạo tư tưởng

Kết hợp mờ – Định nghĩa, Quy trình và Kỹ thuật

mm

Được phát hành

 on

An khảo sát giọng cho thấy 75% người tiêu dùng thích mua hàng từ các nhà bán lẻ biết tên và hành vi mua hàng của họ và 52% trong số họ có nhiều khả năng chuyển đổi thương hiệu nếu họ không cung cấp trải nghiệm được cá nhân hóa. Với hàng triệu điểm dữ liệu được các thương hiệu thu thập gần như mỗi ngày, việc xác định các khách hàng duy nhất và xây dựng hồ sơ của họ là một trong những thách thức lớn nhất mà hầu hết các công ty phải đối mặt.

Khi một doanh nghiệp sử dụng nhiều công cụ để thu thập dữ liệu, việc viết sai tên khách hàng hoặc chấp nhận địa chỉ email có mẫu không chính xác là điều rất phổ biến. Hơn nữa, khi các ứng dụng dữ liệu khác nhau có thông tin khác nhau về cùng một khách hàng, bạn sẽ không thể hiểu rõ hơn về hành vi và sở thích của khách hàng.

Tiếp theo, chúng ta sẽ tìm hiểu so khớp mờ là gì, nó được triển khai như thế nào, các kỹ thuật phổ biến được sử dụng và những thách thức phải đối mặt. Bắt đầu nào.

Kết hợp mờ là gì?

So khớp mờ là một kỹ thuật đối sánh dữ liệu so sánh hai hoặc nhiều bản ghi và tính toán khả năng chúng thuộc về cùng một thực thể. Thay vì phân loại rộng rãi các bản ghi thành đối sánh và không đối sánh, đối sánh mờ xuất ra một số (thường nằm trong khoảng 0-100%) xác định khả năng các bản ghi này thuộc về cùng một khách hàng, sản phẩm, nhân viên, v.v.

Một thuật toán đối sánh mờ hiệu quả sẽ xử lý một loạt các trường hợp không rõ ràng về dữ liệu, chẳng hạn như đảo ngược tên/họ, từ viết tắt, tên rút gọn, lỗi ngữ âm và lỗi chính tả cố ý, chữ viết tắt, thêm/xóa dấu chấm câu, v.v.

Quá trình khớp mờ

Quá trình so khớp mờ được thực hiện như sau:

  1. hồ sơ hồ sơ cho các lỗi tiêu chuẩn hóa cơ bản. Các lỗi này được sửa để đạt được chế độ xem thống nhất và chuẩn hóa trên các bản ghi.
  2. Chọn và ánh xạ các thuộc tính trên cơ sở đó việc so khớp mờ sẽ diễn ra. Vì các thuộc tính này có thể có tiêu đề khác nhau nên chúng phải được ánh xạ qua các nguồn.
  3. Chọn một kỹ thuật kết hợp mờ cho mỗi thuộc tính. Ví dụ: các tên có thể được khớp dựa trên khoảng cách bàn phím hoặc các biến thể của tên, trong khi các số điện thoại có thể được khớp dựa trên các chỉ số tương tự về số.
  4. Chọn trọng lượng đối với từng thuộc tính, sao cho các thuộc tính được chỉ định trọng số cao hơn (hoặc mức độ ưu tiên cao hơn) sẽ có tác động nhiều hơn đến mức độ tin cậy đối sánh tổng thể so với các trường có trọng số thấp hơn.
  5. Xác định mức ngưỡng – các bản ghi có điểm phù hợp mờ cao hơn mức được coi là phù hợp và những bản ghi thấp hơn là không phù hợp.
  6. Chạy thuật toán so khớp mờ và phân tích kết quả trận đấu.
  7. Ghi đè bất kỳ dương tính giả và những tiêu cực có thể xảy ra.
  8. đi, loại bỏ trùng lặp hoặc đơn giản là loại bỏ bản ghi trùng lặp.

Tham số khớp mờ

Từ quy trình được xác định ở trên, bạn có thể thấy rằng thuật toán kết hợp mờ có một số tham số tạo thành cơ sở của kỹ thuật này. Chúng bao gồm các trọng số thuộc tính, kỹ thuật khớp mờ và mức ngưỡng điểm.

Để có kết quả tối ưu, bạn phải thực hiện các kỹ thuật khớp mờ với các tham số khác nhau và tìm các giá trị phù hợp nhất với dữ liệu của bạn. Nhiều nhà cung cấp gói các khả năng như vậy trong giải pháp khớp mờ của họ, trong đó các tham số này được tự động điều chỉnh nhưng có thể được tùy chỉnh tùy theo nhu cầu của bạn.

Kỹ thuật kết hợp mờ là gì?

Có nhiều kỹ thuật đối sánh mờ được sử dụng ngày nay khác nhau dựa trên thuật toán chính xác của công thức được sử dụng để so sánh và đối sánh các trường. Tùy thuộc vào bản chất của dữ liệu của bạn, bạn có thể chọn kỹ thuật phù hợp với yêu cầu của mình. Dưới đây là danh sách các kỹ thuật kết hợp mờ phổ biến:

  1. Sự giống nhau dựa trên ký tự số liệu phù hợp nhất với chuỗi. Bao gồm các:
    1. Chỉnh sửa khoảng cách: Tính toán khoảng cách giữa hai chuỗi, tính toán từng ký tự.
    2. Khoảng cách afin: Tính toán khoảng cách giữa hai chuỗi bằng cách cũng xem xét khoảng cách hoặc khoảng cách giữa các chuỗi.
    3. Khoảng cách Smith-Waterman: Tính toán khoảng cách giữa hai chuỗi bằng cách xem xét sự có mặt hay vắng mặt của các tiền tố và hậu tố.
    4. Khoảng cách Jaro: Tốt nhất để phù hợp với tên và họ.
  2. Độ tương tự dựa trên mã thông báo số liệu phù hợp nhất với các từ hoàn chỉnh trong chuỗi. Bao gồm các:
    1. Chuỗi nguyên tử: Chia các chuỗi dài thành các từ được phân tách bằng dấu chấm câu và so sánh trên các từ riêng lẻ.
    2. WHIRL: Tương tự như chuỗi nguyên tử nhưng WHIRL cũng gán trọng số cho mỗi từ.
  3. Chỉ số tương tự ngữ âm đó là cách tốt nhất để so sánh các từ nghe giống nhau nhưng có thành phần ký tự hoàn toàn khác nhau. Bao gồm các:
    1. Soundex: Tốt nhất để so sánh các họ khác nhau về cách viết nhưng âm thanh giống nhau.
    2. NYSIIS: Tương tự như Soundex, nhưng nó cũng giữ lại các chi tiết về vị trí nguyên âm.
    3. Metaphone: So sánh các từ có âm tương tự tồn tại trong tiếng Anh, các từ khác quen thuộc với người Mỹ, họ và tên thường được sử dụng ở Mỹ.
  4. Chỉ số tương tự số so sánh các số, chúng cách nhau bao xa, phân phối dữ liệu số, v.v.

Những thách thức của kết hợp mờ

Quá trình so khớp mờ – mặc dù lợi ích tuyệt vời nó cung cấp – có thể khá khó thực hiện. Dưới đây là một số thách thức phổ biến mà các doanh nghiệp phải đối mặt:

1.     Tỷ lệ dương tính giả và âm tính cao hơn

Nhiều giải pháp kết hợp mờ có tỷ lệ dương tính giả và âm tính cao hơn. Điều này xảy ra khi thuật toán phân loại sai các kết quả phù hợp và không phù hợp hoặc ngược lại. Các định nghĩa đối sánh có thể định cấu hình và các tham số mờ có thể giúp giảm các liên kết không chính xác nhiều nhất có thể.

2.     Độ phức tạp tính toán

Trong quá trình khớp, mọi bản ghi được so sánh với mọi bản ghi khác trong cùng một tập dữ liệu. Và nếu bạn đang xử lý nhiều bộ dữ liệu, thì số lần so sánh sẽ tăng lên nhiều hơn. Người ta nhận thấy rằng các phép so sánh tăng theo phương trình bậc hai khi kích thước cơ sở dữ liệu tăng lên. Vì lý do này, bạn phải sử dụng một hệ thống có khả năng xử lý các tính toán sử dụng nhiều tài nguyên.

3.     Kiểm tra xác thực

Các bản ghi phù hợp được hợp nhất với nhau để thể hiện chế độ xem 360 độ hoàn chỉnh của các thực thể. Bất kỳ lỗi nào phát sinh trong quá trình này đều có thể gây thêm rủi ro cho hoạt động kinh doanh của bạn. Đây là lý do tại sao phải tiến hành thử nghiệm xác thực chi tiết để đảm bảo thuật toán được điều chỉnh liên tục tạo ra kết quả với tỷ lệ chính xác cao.

Thúc

Các doanh nghiệp thường nghĩ về các giải pháp khớp mờ như các dự án phức tạp, sử dụng nhiều tài nguyên và tiêu tốn tiền bạc kéo dài quá lâu. Sự thật là đầu tư vào giải pháp phù hợp tạo ra kết quả nhanh và chính xác là chìa khóa. Các tổ chức cần xem xét một số yếu tố trong khi chọn một công cụ kết hợp mờ, chẳng hạn như thời gian và tiền bạc mà họ sẵn sàng đầu tư, thiết kế khả năng mở rộng mà họ có trong đầu và bản chất của bộ dữ liệu của họ. Điều này sẽ giúp họ chọn một giải pháp cho phép họ tận dụng tối đa dữ liệu của mình.

Tôi là Nhà phân tích Tiếp thị Sản phẩm tại Thang dữ liệu với nền tảng về CNTT. Tôi say mê viết về các vấn đề vệ sinh dữ liệu trong thế giới thực mà nhiều tổ chức ngày nay phải đối mặt. Tôi muốn truyền đạt các giải pháp, mẹo và phương pháp có thể giúp các doanh nghiệp đạt được chất lượng dữ liệu vốn có trong các quy trình kinh doanh thông minh của họ. Tôi cố gắng tạo nội dung hướng tới nhiều đối tượng khác nhau, từ nhân viên kỹ thuật đến người dùng cuối, cũng như tiếp thị nội dung đó trên nhiều nền tảng kỹ thuật số khác nhau.