Rescale λ―ΈνŒ… μ˜ˆμ•½

벑터 μœ μ‚¬μ„± κ²€μƒ‰μ΄λž€ 무엇이며 μ–΄λ–»κ²Œ μœ μš©ν•©λ‹ˆκΉŒ?

AI 101

벑터 μœ μ‚¬μ„± κ²€μƒ‰μ΄λž€ 무엇이며 μ–΄λ–»κ²Œ μœ μš©ν•©λ‹ˆκΉŒ?

mm
벑터 μœ μ‚¬μ„± 검색

μ΅œμ‹  데이터 검색은 λ³΅μž‘ν•œ μ˜μ—­μž…λ‹ˆλ‹€. 벑터 μœ μ‚¬μ„± 검색(VSS)은 μ»¨ν…μŠ€νŠΈ κΉŠμ΄κ°€ μžˆλŠ” 데이터λ₯Ό λ‚˜νƒ€λ‚΄κ³  검색 쿼리에 λŒ€ν•œ μ‘λ‹΅μœΌλ‘œ μ†ŒλΉ„μžμ—κ²Œ 더 κ΄€λ ¨μ„± 높은 정보λ₯Ό λ°˜ν™˜ν•©λ‹ˆλ‹€. κ°„λ‹¨ν•œ 예λ₯Ό λ“€μ–΄λ³΄κ² μŠ΅λ‹ˆλ‹€. 

"데이터 κ³Όν•™" 및 "곡상 κ³Όν•™"κ³Ό 같은 κ²€μƒ‰μ–΄λŠ” 곡톡 단어("κ³Όν•™")λ₯Ό κ°€μ§€κ³  μžˆμŒμ—λ„ λΆˆκ΅¬ν•˜κ³  μ„œλ‘œ λ‹€λ₯Έ μœ ν˜•μ˜ μ½˜ν…μΈ λ₯Ό μ°Έμ‘°ν•©λ‹ˆλ‹€. 기쑴의 검색 κΈ°μˆ μ€ 일반적인 ꡬλ₯Ό μΌμΉ˜μ‹œμΌœ κ΄€λ ¨ κ²°κ³Όλ₯Ό λ°˜ν™˜ν•˜λŠ”λ° 이 경우 λΆ€μ •ν™•ν•©λ‹ˆλ‹€. 벑터 μœ μ‚¬μ„± 검색은 보닀 μ •ν™•ν•œ 응닡을 λ°˜ν™˜ν•˜κΈ° μœ„ν•΄ μ΄λŸ¬ν•œ 검색 쿼리의 μ‹€μ œ 검색 μ˜λ„μ™€ 의미λ₯Ό κ³ λ €ν•©λ‹ˆλ‹€.

이 λ¬Έμ„œμ—μ„œλŠ” ꡬ성 μš”μ†Œ, 과제, 이점 및 μ‚¬μš© 사둀와 같은 벑터 μœ μ‚¬μ„± κ²€μƒ‰μ˜ λ‹€μ–‘ν•œ 츑면에 λŒ€ν•΄ μ„€λͺ…ν•©λ‹ˆλ‹€. 의 μ‹œμž‘ν•˜μž.

벑터 μœ μ‚¬μ„± 검색(VSS)μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

벑터 μœ μ‚¬μ„± 검색은 μ •ν˜• λ˜λŠ” λΉ„μ •ν˜• λ°μ΄ν„°μ˜ λŒ€κ·œλͺ¨ μ»¬λ ‰μ…˜μ—μ„œ λ¬Έλ§₯상 μœ μ‚¬ν•œ 정보λ₯Ό 벑터 λ˜λŠ” μž„λ² λ”©μ΄λΌκ³  μ•Œλ €μ§„ 수치 ν‘œν˜„μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ μ°Ύμ•„ κ²€μƒ‰ν•©λ‹ˆλ‹€.

VSSλŠ” 숫자, λ²”μ£Ό, ν…μŠ€νŠΈ, 이미지, λΉ„λ””μ˜€ λ“± λ‹€μ–‘ν•œ 데이터 ν˜•μ‹μ„ 관리할 수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 μ½”νΌμŠ€μ˜ 각 개체λ₯Ό κ΄€λ ¨ ν˜•μ‹μ— ν•΄λ‹Ήν•˜λŠ” 고차원 벑터 ν‘œν˜„μœΌλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€(λ‹€μŒ μ„Ήμ…˜μ—μ„œ μ„€λͺ…). 

κ°€μž₯ 일반적으둜 VSSλŠ” μœ μ‚¬ν•œ ꡬ λ˜λŠ” 단락과 같은 μœ μ‚¬ν•œ 개체λ₯Ό μ°Ύκ±°λ‚˜ λ°©λŒ€ν•œ 이미지 검색 μ‹œμŠ€ν…œμ—μ„œ κ΄€λ ¨ 이미지λ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€. Amazon, eBay 및 Spotify와 같은 λŒ€ν˜• μ†ŒλΉ„μž νšŒμ‚¬λŠ” 이 κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 수백만 μ‚¬μš©μžμ˜ 검색 κ²°κ³Όλ₯Ό κ°œμ„ ν•©λ‹ˆλ‹€.

벑터 μœ μ‚¬μ„± κ²€μƒ‰μ˜ μ„Έ κ°€μ§€ μ£Όμš” ꡬ성 μš”μ†Œ

벑터 μœ μ‚¬μ„± 검색이 μ–΄λ–»κ²Œ μž‘λ™ν•˜λŠ”μ§€ μ΄ν•΄ν•˜κΈ° 전에 μ£Όμš” ꡬ성 μš”μ†Œλ₯Ό μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€. 주둜 효과적인 VSS 방법둠을 κ΅¬ν˜„ν•˜κΈ° μœ„ν•œ μ„Έ κ°€μ§€ ν•„μˆ˜ ꡬ성 μš”μ†Œκ°€ μžˆμŠ΅λ‹ˆλ‹€.

  1. 벑터 μž„λ² λ”©: μž„λ² λ”©μ€ μˆ˜ν•™μ  ν˜•μ‹, 즉 μ •λ ¬λœ λ°°μ—΄ λ˜λŠ” 숫자 μ§‘ν•©μœΌλ‘œ λ‹€μ–‘ν•œ 데이터 μœ ν˜•μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€. μˆ˜ν•™μ  계산을 μ‚¬μš©ν•˜μ—¬ λ°μ΄ν„°μ˜ νŒ¨ν„΄μ„ μ‹λ³„ν•©λ‹ˆλ‹€.
  2. 거리 λ˜λŠ” μœ μ‚¬μ„± λ©”νŠΈλ¦­: 두 벑터가 μ–Όλ§ˆλ‚˜ μœ μ‚¬ν•˜κ±°λ‚˜ λ°€μ ‘ν•˜κ²Œ κ΄€λ ¨λ˜μ–΄ μžˆλŠ”μ§€ κ³„μ‚°ν•˜λŠ” μˆ˜ν•™ ν•¨μˆ˜μž…λ‹ˆλ‹€.
  3. 검색 μ•Œκ³ λ¦¬μ¦˜: μ•Œκ³ λ¦¬μ¦˜μ€ μ£Όμ–΄μ§„ 검색 쿼리와 μœ μ‚¬ν•œ 벑터λ₯Ό μ°ΎλŠ” 데 도움이 λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, K- 졜근 μ ‘ 이웃 λ˜λŠ” KNN μ•Œκ³ λ¦¬μ¦˜μ€ μ£Όμ–΄μ§„ μž…λ ₯ 쿼리와 κ°€μž₯ μœ μ‚¬ν•œ 데이터 μ„ΈνŠΈμ—μ„œ K 벑터λ₯Ό κ²°μ •ν•˜κΈ° μœ„ν•΄ VSS 지원 검색 μ‹œμŠ€ν…œμ—μ„œ 자주 μ‚¬μš©λ©λ‹ˆλ‹€.

이제 μ΄λŸ¬ν•œ ꡬ성 μš”μ†Œκ°€ 검색 μ‹œμŠ€ν…œμ—μ„œ μ–΄λ–»κ²Œ μž‘λ™ν•˜λŠ”μ§€ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

벑터 μœ μ‚¬μ„± 검색은 μ–΄λ–»κ²Œ μž‘λ™ν•©λ‹ˆκΉŒ?

벑터 μœ μ‚¬μ„± 검색을 κ΅¬ν˜„ν•˜λŠ” 첫 번째 λ‹¨κ³„λŠ” 데이터 μ½”νΌμŠ€μ˜ 객체λ₯Ό 벑터 μž„λ² λ”©μœΌλ‘œ ν‘œν˜„ν•˜κ±°λ‚˜ μ„€λͺ…ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. λ‹€μŒκ³Ό 같은 λ‹€μ–‘ν•œ 벑터 μž„λ² λ”© 방법을 μ‚¬μš©ν•©λ‹ˆλ‹€. κΈ€ 둜베, μ›Œλ“œνˆ¬λ²‘λ° BERT, 개체λ₯Ό 벑터 곡간에 λ§€ν•‘ν•©λ‹ˆλ‹€. 

ν…μŠ€νŠΈ, μ˜€λ””μ˜€ 및 λΉ„λ””μ˜€μ™€ 같은 각 데이터 ν˜•μ‹μ— λŒ€ν•΄ VSSλŠ” μ„œλ‘œ λ‹€λ₯Έ μž„λ² λ”© λͺ¨λΈμ„ κ΅¬μΆ•ν•˜μ§€λ§Œ 이 ν”„λ‘œμ„ΈμŠ€μ˜ μ΅œμ’… κ²°κ³ΌλŠ” 숫자 λ°°μ—΄ ν‘œν˜„μž…λ‹ˆλ‹€. 

λ‹€μŒ λ‹¨κ³„λŠ” μ΄λŸ¬ν•œ 숫자 ν‘œν˜„μ„ μ‚¬μš©ν•˜μ—¬ μœ μ‚¬ν•œ 개체λ₯Ό ν•¨κ»˜ μ •λ ¬ν•  수 μžˆλŠ” 인덱슀λ₯Ό λ§Œλ“œλŠ” κ²ƒμž…λ‹ˆλ‹€. KNNκ³Ό 같은 μ•Œκ³ λ¦¬μ¦˜μ€ 검색 μœ μ‚¬μ„±μ„ κ΅¬ν˜„ν•˜κΈ° μœ„ν•œ 기반 역할을 ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μœ μ‚¬ν•œ μš©μ–΄λ₯Ό μƒ‰μΈν™”ν•˜κΈ° μœ„ν•΄ 검색 μ‹œμŠ€ν…œμ€ λ‹€μŒκ³Ό 같은 μ΅œμ‹  μ ‘κ·Ό 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. μ§€μ—­ 민감 ν•΄μ‹±(LSH) 그리고 κ°€μž₯ κ°€κΉŒμš΄ 이웃 κ·Όμ‚¬μΉ˜(ANNOY)

λ˜ν•œ VSS μ•Œκ³ λ¦¬μ¦˜μ€ μœ ν΄λ¦¬λ“œ 거리, 코사인 μœ μ‚¬μ„± λ˜λŠ” Jaccard μœ μ‚¬μ„±κ³Ό 같은 μœ μ‚¬μ„± λ˜λŠ” 거리 츑정을 κ³„μ‚°ν•˜μ—¬ 데이터 μ»¬λ ‰μ…˜μ˜ λͺ¨λ“  벑터 ν‘œν˜„μ„ λΉ„κ΅ν•˜κ³  μ‚¬μš©μž 쿼리에 λŒ€ν•œ μ‘λ‹΅μœΌλ‘œ μœ μ‚¬ν•œ μ½˜ν…μΈ λ₯Ό λ°˜ν™˜ν•©λ‹ˆλ‹€.

벑터 μœ μ‚¬μ„± κ²€μƒ‰μ˜ μ£Όμš” 과제 및 이점

μ „λ°˜μ μœΌλ‘œ λͺ©ν‘œλŠ” 데이터 개체 κ°„μ˜ 곡톡 νŠΉμ„±μ„ μ°ΎλŠ” κ²ƒμž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이 ν”„λ‘œμ„ΈμŠ€μ—λŠ” λͺ‡ κ°€μ§€ 잠재적인 λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€.

VSS κ΅¬ν˜„μ˜ μ£Όμš” 과제

  • λ‹€λ₯Έ 벑터 μž„λ² λ”© 기술과 μœ μ‚¬μ„± 츑정은 λ‹€λ₯Έ κ²°κ³Όλ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€. μœ μ‚¬μ„± 검색 μ‹œμŠ€ν…œμ— μ ν•©ν•œ ꡬ성을 μ„ νƒν•˜λŠ” 것이 μ£Όμš” κ³Όμ œμž…λ‹ˆλ‹€.
  • λŒ€κ·œλͺ¨ 데이터 μ„ΈνŠΈμ˜ 경우 VSSλŠ” 계산 λΉ„μš©μ΄ 많이 λ“€κ³  λŒ€κ·œλͺ¨ 인덱슀λ₯Ό μƒμ„±ν•˜λ €λ©΄ κ³ μ„±λŠ₯ GPUκ°€ ν•„μš”ν•©λ‹ˆλ‹€.
  • 차원이 λ„ˆλ¬΄ λ§Žμ€ λ²‘ν„°λŠ” λ°μ΄ν„°μ˜ μ‹€μ œ ꡬ쑰와 연결을 μ •ν™•ν•˜κ²Œ ν‘œν˜„ν•˜μ§€ λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ”°λΌμ„œ 벑터 μž„λ² λ”© 과정은 손싀 없이 이루어져야 ν•˜λŠ”λ°, μ΄λŠ” μ–΄λ €μš΄ κ³Όμ œμž…λ‹ˆλ‹€.

ν˜„μž¬ VSS κΈ°μˆ μ€ μ§€μ†μ μœΌλ‘œ 개발 및 κ°œμ„ λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ—¬μ „νžˆ νšŒμ‚¬λ‚˜ μ œν’ˆμ˜ 검색 κ²½ν—˜μ— λ§Žμ€ 이점을 μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

VSS의 이점

  • VSSλ₯Ό μ‚¬μš©ν•˜λ©΄ 검색 μ‹œμŠ€ν…œμ΄ λ‹€μ–‘ν•œ 데이터 μœ ν˜•μ—μ„œ μœ μ‚¬ν•œ 개체λ₯Ό 맀우 λΉ λ₯΄κ²Œ 찾을 수 μžˆμŠ΅λ‹ˆλ‹€.
  • VSSλŠ” λͺ¨λ“  데이터 개체λ₯Ό 기계가 μ‰½κ²Œ μ²˜λ¦¬ν•  수 μžˆλŠ” 숫자 μž„λ² λ”©μœΌλ‘œ λ³€ν™˜ν•˜λ―€λ‘œ 효율적인 λ©”λͺ¨λ¦¬ 관리λ₯Ό 보μž₯ν•©λ‹ˆλ‹€.
  • VSSλŠ” μ‹œμŠ€ν…œμ΄ μ†ŒλΉ„μžλ‘œλΆ€ν„° λ§Œλ‚˜μ§€ μ•Šμ•˜μ„ 수 μžˆλŠ” μƒˆ 검색 μΏΌλ¦¬μ—μ„œ 개체λ₯Ό λΆ„λ₯˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • VSSλŠ” μ™„λ²½ν•˜κ²Œ μΌμΉ˜ν•˜μ§€ μ•Šλ”λΌλ„ λ§₯락적으둜 μœ μ‚¬ν•œ 객체λ₯Ό 찾을 수 있기 λ•Œλ¬Έμ— λΆ€μ‘±ν•˜κ³  λΆˆμ™„μ „ν•œ 데이터λ₯Ό μ²˜λ¦¬ν•˜λŠ” 데 맀우 μœ μš©ν•œ λ°©λ²•μž…λ‹ˆλ‹€.
  • κ°€μž₯ μ€‘μš”ν•œ 것은 κ΄€λ ¨ 개체λ₯Ό λŒ€κ·œλͺ¨λ‘œ κ°μ§€ν•˜κ³  ν΄λŸ¬μŠ€ν„°λ§ν•  수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€(κ°€λ³€ 데이터 λ³Όλ₯¨).

벑터 μœ μ‚¬μ„± κ²€μƒ‰μ˜ μ£Όμš” λΉ„μ¦ˆλ‹ˆμŠ€ ν™œμš© 사둀

상업 λΉ„μ¦ˆλ‹ˆμŠ€μ—μ„œ VSS κΈ°μˆ μ€ κ΄‘λ²”μœ„ν•œ μ‚°μ—… 및 μ‘μš© ν”„λ‘œκ·Έλž¨μ— ν˜μ‹ μ„ μΌμœΌν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μ‚¬μš© 사둀 쀑 μΌλΆ€λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  • 질문 λ‹΅λ³€: 벑터 μœ μ‚¬μ„± 검색은 거의 λ™μΌν•œ Q&A ν¬λŸΌμ—μ„œ κ΄€λ ¨ μ§ˆλ¬Έμ„ μ°Ύμ•„ μ΅œμ’… μ‚¬μš©μžμ—κ²Œ 보닀 μ •ν™•ν•˜κ³  μ μ ˆν•œ 응닡을 μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ‹œλ§¨ν‹± μ›Ή 검색: 벑터 μœ μ‚¬μ„± 검색은 벑터 ν‘œν˜„μ˜ "κ°€κΉŒμ›€"에 따라 κ΄€λ ¨ λ¬Έμ„œ λ˜λŠ” μ›Ή νŽ˜μ΄μ§€λ₯Ό 찾을 수 μžˆμŠ΅λ‹ˆλ‹€. μ›Ή 검색 결과의 관련성을 λ†’μ΄λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.
  • μ œν’ˆ μΆ”μ²œ: 벑터 μœ μ‚¬μ„± 검색을 톡해 μ†ŒλΉ„μžμ˜ 검색 κΈ°λ‘μ΄λ‚˜ 탐색 내역을 기반으둜 κ°œμΈν™”λœ μ œν’ˆ μΆ”μ²œμ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 더 λ‚˜μ€ 의료 제곡: 의료 연ꡬ원과 μ‹€λ¬΄μžλŠ” 벑터 μœ μ‚¬μ„± 검색을 ν™œμš©ν•˜μ—¬ κ΄€λ ¨ μ˜ν•™ μ—°κ΅¬μ˜ 벑터 ν‘œν˜„μ„ λΆ„μ„ν•˜μ—¬ μž„μƒ μ‹œν—˜μ„ μ΅œμ ν™”ν•©λ‹ˆλ‹€.

μ˜€λŠ˜λ‚  기쑴의 SQL 기반 κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 데이터λ₯Ό 관리, 뢄석 및 κ²€μƒ‰ν•˜λŠ” 것은 더 이상 μ‹€ν–‰ κ°€λŠ₯ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 인터넷 μ†ŒλΉ„μžλŠ” μ›Ήμ—μ„œ λ³΅μž‘ν•œ 쿼리λ₯Ό λ¬»μŠ΅λ‹ˆλ‹€. μΈκ°„μ—κ²ŒλŠ” λ‹¨μˆœν•΄ λ³΄μ΄μ§€λ§Œ 기계(검색 μ—”μ§„)κ°€ ν•΄μ„ν•˜κΈ°μ—λŠ” μ—„μ²­λ‚˜κ²Œ λ³΅μž‘ν•©λ‹ˆλ‹€. 기계가 이해할 수 μžˆλŠ” ν˜•μ‹μœΌλ‘œ λ‹€μ–‘ν•œ ν˜•νƒœμ˜ 데이터λ₯Ό ν•΄λ…ν•˜λŠ” 것은 기계가 μ˜€λž«λ™μ•ˆ ν•΄κ²°ν•΄μ•Ό ν•  κ³Όμ œμž…λ‹ˆλ‹€. 

벑터 μœ μ‚¬μ„± 검색을 톡해 검색 μ‹œμŠ€ν…œμ΄ 상업 μ •λ³΄μ˜ λ§₯락을 더 잘 이해할 수 μžˆμŠ΅λ‹ˆλ‹€.

더 톡찰λ ₯ μžˆλŠ” AI κ΄€λ ¨ μ½˜ν…μΈ λ₯Ό 읽고 μ‹ΆμœΌμ„Έμš”? λ°©λ¬Έν•˜λ‹€ 단결.ai.