potongan Apa itu Pencarian Kesamaan Vektor & Apa Kegunaannya? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Pencarian Kesamaan Vektor & Apa Kegunaannya?

mm
Updated on
vektor-kemiripan-pencarian

Pencarian data modern adalah domain yang kompleks. Pencarian kesamaan vektor, atau VSS, merepresentasikan data dengan kedalaman kontekstual dan mengembalikan informasi yang lebih relevan kepada konsumen sebagai tanggapan atas permintaan pencarian. Mari kita ambil contoh sederhana. 

Kueri penelusuran seperti "ilmu data" dan "fiksi ilmiah" mengacu pada berbagai jenis konten meskipun keduanya memiliki kata yang sama ("sains"). Teknik pencarian tradisional akan mencocokkan frasa umum untuk memberikan hasil yang relevan, yang dalam kasus ini akan menjadi tidak akurat. Pencarian kesamaan vektor akan mempertimbangkan maksud pencarian sebenarnya dan arti dari permintaan pencarian ini untuk mengembalikan respons yang lebih akurat.

Artikel ini akan membahas berbagai aspek pencarian kesamaan vektor, seperti komponen, tantangan, manfaat, dan kasus penggunaannya. Mari kita mulai.

Apa itu Pencarian Kesamaan Vektor (VSS)?

Pencarian kesamaan vektor menemukan dan mengambil informasi yang serupa secara kontekstual dari kumpulan besar data terstruktur atau tidak terstruktur dengan mengubahnya menjadi representasi numerik yang dikenal sebagai vektor atau embeddings.

VSS dapat mengelola berbagai format data, termasuk numerik, kategorikal, tekstual, gambar, dan video. Itu mengubah setiap objek dalam korpus data menjadi representasi vektor dimensi tinggi yang sesuai dengan format yang relevan (dibahas di bagian selanjutnya). 

Paling umum, VSS menemukan objek yang sebanding, seperti frasa atau paragraf yang serupa, atau menemukan gambar terkait dalam sistem pengambilan gambar yang luas. Perusahaan konsumen besar seperti Amazon, eBay, dan Spotify menggunakan teknologi ini untuk meningkatkan hasil pencarian bagi jutaan pengguna, yaitu menyajikan konten relevan yang kemungkinan besar ingin dibeli, ditonton, atau didengarkan oleh pengguna.

Tiga Komponen Utama Pencarian Kesamaan Vektor

Sebelum kita memahami cara kerja pencarian kesamaan vektor, mari kita lihat komponen utamanya. Terutama, ada tiga komponen penting untuk menerapkan metodologi VSS yang efektif:

  1. Penyematan vektor: Penyematan mewakili tipe data yang berbeda dalam format matematis, yaitu larik terurut atau kumpulan angka. Mereka mengidentifikasi pola dalam data menggunakan perhitungan matematis.
  2. Metrik jarak atau kesamaan: Ini adalah fungsi matematika yang menghitung seberapa mirip atau terkait erat dua vektor.
  3. Algoritma pencarian: Algoritma membantu menemukan vektor yang mirip dengan permintaan pencarian tertentu. Contohnya, K-Tetangga Terdekat atau Algoritma KNN sering digunakan dalam sistem pencarian yang mendukung VSS untuk menentukan vektor K dalam kumpulan data yang paling mirip dengan kueri input yang diberikan.

Sekarang, mari kita bahas cara kerja komponen ini dalam sistem pencarian.

Bagaimana Pencarian Kemiripan Vektor Bekerja?

Langkah pertama dalam mengimplementasikan pencarian kemiripan vektor adalah merepresentasikan atau mendeskripsikan objek dalam korpus data sebagai penyematan vektor. Ini menggunakan metode penyisipan vektor yang berbeda, seperti Sarung tangan, Kata2vec, dan BERTI, untuk memetakan objek ke ruang vektor. 

Untuk setiap format data, seperti teks, audio, dan video, VSS membuat model penyematan yang berbeda, tetapi hasil akhir dari proses ini adalah representasi array numerik. 

Langkah selanjutnya adalah membuat indeks yang dapat mengatur objek serupa bersama-sama menggunakan representasi numerik ini. Algoritme seperti KNN berfungsi sebagai dasar untuk menerapkan kesamaan pencarian. Namun, untuk mengindeks istilah serupa, sistem pencarian menggunakan pendekatan modern, seperti Hashing Sensitif Lokalitas (LSH) dan Perkiraan Tetangga Terdekat (ANNOY)

Selain itu, algoritme VSS menghitung kesamaan atau ukuran jarak, seperti jarak Euclidean, kesamaan cosinus, atau kesamaan Jaccard, untuk membandingkan semua representasi vektor dalam pengumpulan data dan mengembalikan konten serupa sebagai tanggapan atas permintaan pengguna.

Tantangan Utama & Manfaat Pencarian Kesamaan Vektor

Secara keseluruhan, tujuannya adalah untuk menemukan karakteristik umum di antara objek data. Namun, proses ini menyajikan beberapa potensi tantangan.

Tantangan Utama Implementasi VSS

  • Teknik penyematan vektor yang berbeda dan ukuran kesamaan memberikan hasil yang berbeda. Memilih konfigurasi yang tepat untuk sistem pencarian kesamaan adalah tantangan utama.
  • Untuk kumpulan data besar, VSS mahal secara komputasi dan membutuhkan GPU berperforma tinggi untuk membuat indeks berskala besar.
  • Vektor dengan terlalu banyak dimensi mungkin tidak secara akurat mewakili struktur dan koneksi asli data. Oleh karena itu, proses penyisipan vektor harus tanpa kerugian, yang merupakan sebuah tantangan.

Saat ini, teknologi VSS terus dikembangkan dan ditingkatkan. Namun, itu tetap dapat memberikan banyak manfaat bagi pengalaman pencarian perusahaan atau produk.

Manfaat VSS

  • VSS memungkinkan sistem pencarian menemukan objek serupa dengan sangat cepat pada berbagai tipe data.
  • VSS memastikan manajemen memori yang efisien karena mengubah semua objek data menjadi penyematan numerik yang dapat diproses dengan mudah oleh mesin.
  • VSS dapat mengklasifikasikan objek pada permintaan pencarian baru yang mungkin belum ditemui sistem dari konsumen.
  • VSS adalah metode yang sangat baik untuk menangani data yang buruk dan tidak lengkap karena dapat menemukan objek yang mirip secara kontekstual meskipun tidak cocok.
  • Yang terpenting, ini dapat mendeteksi dan mengelompokkan objek terkait pada skala (volume data variabel).

Kasus Penggunaan Bisnis Utama Pencarian Kesamaan Vektor

Dalam bisnis komersial, teknologi VSS dapat merevolusi berbagai industri dan aplikasi. Beberapa kasus penggunaan ini meliputi:

  • Menjawab pertanyaan: Pencarian kesamaan vektor dapat menemukan pertanyaan terkait di forum Tanya Jawab yang hampir identik, memungkinkan tanggapan yang lebih tepat dan relevan bagi pengguna akhir.
  • Pencarian web semantik: Pencarian kesamaan vektor dapat menemukan dokumen atau halaman web terkait tergantung pada "kedekatan" representasi vektor mereka. Hal ini bertujuan untuk meningkatkan relevansi hasil pencarian web.
  • Rekomendasi produk: Pencarian kesamaan vektor dapat membuat rekomendasi produk yang dipersonalisasi berdasarkan penelusuran konsumen atau riwayat pencarian.
  • Pengiriman layanan kesehatan yang lebih baik: Peneliti dan praktisi kesehatan menggunakan pencarian kesamaan vektor untuk mengoptimalkan uji klinis dengan menganalisis representasi vektor dari penelitian medis yang relevan.

Saat ini, tidak lagi layak untuk mengelola, menganalisis, dan mencari data menggunakan teknik berbasis SQL konvensional. Konsumen internet menanyakan kueri kompleks di web – tampaknya sederhana bagi manusia tetapi sangat rumit untuk ditafsirkan oleh mesin (mesin telusur). Merupakan tantangan lama bagi mesin untuk menguraikan berbagai bentuk data dalam format yang dapat dimengerti mesin. 

Pencarian kesamaan vektor memungkinkan sistem pencarian untuk lebih memahami konteks informasi komersial.

Ingin membaca konten terkait AI yang lebih berwawasan? Mengunjungi bersatu.ai.