AGI

Сила Реранкингов и Двухэтапного Поиска для Генерации с Усиленным Поиском

Published April 15, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Когда речь идет о обработке естественного языка (NLP) и информационном поиске, способность эффективно и точно извлекать релевантную информацию имеет первостепенное значение. По мере развития области появляются новые методы и методологии для улучшения производительности систем поиска, особенно в контексте Генерации с Усиленным Поиском (RAG). Одним из таких методов является двухэтапный поиск с реранкингом, который стал мощным решением для решения внутренних ограничений традиционных методов поиска.

В этой статье мы обсуждаем тонкости двухэтапного поиска и реранкинга, изучая их основные принципы, стратегии реализации и преимущества, которые они предлагают для улучшения точности и эффективности систем RAG. Мы также предоставим практические примеры и фрагменты кода, чтобы проиллюстрировать концепции и облегчить более глубокое понимание этой передовой технологии.

Понимание Генерации с Усиленным Поиском (RAG)

Прежде чем приступить к конкретике двухэтапного поиска и реранкинга, давайте кратко повторим концепцию Генерации с Усиленным Поиском (RAG). RAG – это метод, который расширяет знания и возможности больших языковых моделей (LLM), предоставляя им доступ к внешним источникам информации, таким как базы данных или коллекции документов. Подробнее см. в статье “Глубокое погружение в Генерацию с Усиленным Поиском в LLM“.

Типичный процесс RAG включает следующие этапы:

Запрос: Пользователь задает вопрос или дает инструкцию системе.
Поиск: Система запрашивает векторную базу данных или коллекцию документов, чтобы найти информацию, релевантную для запроса пользователя.
Усиление: Извлеченная информация объединяется с исходным запросом или инструкцией пользователя.
Генерация: Языковая модель обрабатывает усиленный вход и генерирует ответ, используя внешнюю информацию для улучшения точности и полноты своего вывода.

Хотя RAG оказался мощным методом, он не без своих проблем. Одна из ключевых проблем заключается в этапе поиска, где традиционные методы поиска могут не выявить наиболее релевантные документы, что приводит к субоптимальным или неточным ответам языковой модели.

Необходимость Двухэтапного Поиска и Реранкинга

Традиционные методы поиска, такие как те, которые основаны на совпадении ключевых слов или моделях векторного пространства, часто испытывают трудности в захвате нюансов семантических отношений между запросами и документами. Это ограничение может привести к извлечению документов, которые только поверхностно релевантны или пропускают важную информацию, которая могла бы существенно улучшить качество сгенерированного ответа.

Для решения этой проблемы исследователи и практики обратились к двухэтапному поиску с реранкингом. Этот подход включает в себя двухступенчатый процесс:

Первоначальный Поиск: На первом этапе извлекается относительно большой набор потенциально релевантных документов с помощью быстрого и эффективного метода поиска, такого как модель векторного пространства или ключевое слово.
Реранкинг: На втором этапе более совершенная модель реранкинга используется для переупорядочения первоначально извлеченных документов на основе их релевантности для запроса, эффективно выводя наиболее релевантные документы в верхнюю часть списка.

Модель реранкинга, часто нейронная сеть или архитектура на основе трансформера, специально обучена для оценки релевантности документа для данного запроса. Используя передовые возможности понимания естественного языка, реранカー может захватить семантические нюансы и контекстные отношения между запросом и документами, в результате чего получается более точный и релевантный рейтинг.

Преимущества Двухэтапного Поиска и Реранкинга

Принятие двухэтапного поиска с реранкингом предлагает несколько значительных преимуществ в контексте систем RAG:

Улучшенная Точность: Переранкинг первоначально извлеченных документов и продвижение наиболее релевантных из них в верхнюю часть списка позволяет системе предоставить более точную и точную информацию языковой модели, что приводит к более высококачественным сгенерированным ответам.
Смягчение Проблем Вне Области: Модели встраивания, используемые для традиционного поиска, часто обучаются на общих текстовых корпусах, которые могут не адекватно отражать язык и семантику конкретной области. Модели реранкинга, с другой стороны, могут быть обучены на данных конкретной области, что смягчает проблему “вне области” и улучшает релевантность извлеченных документов внутри специализированных областей.
Масштабируемость: Двухэтапный подход позволяет эффективно масштабироваться, используя быстрые и легкие методы поиска на первом этапе, а более вычислительно интенсивный процесс реранкинга сохраняется для меньшего подмножества документов.
Гибкость: Модели реранкинга можно заменять или обновлять независимо от первоначального метода поиска, предоставляя гибкость и адаптируемость к меняющимся потребностям системы.

ColBERT: Эффективное и Эффективное Позднее Взаимодействие

Одной из выдающихся моделей в области реранкинга является ColBERT (Контекстуализированное Позднее Взаимодействие над BERT). ColBERT – это модель реранкинга документов, которая использует глубокие возможности понимания языка BERT, вводя новую механику взаимодействия, известную как “позднее взаимодействие”.

ColBERT: Эффективный и Эффективный Поиск Пассажей посредством Контекстуализированного Позднего Взаимодействия над BERT

Механизм позднего взаимодействия в ColBERT позволяет эффективно и точно извлекать информацию, обрабатывая запросы и документы отдельно до финальных стадий процесса поиска. Конкретно, ColBERT независимо кодирует запрос и документ с помощью BERT, а затем использует легкий, но мощный шаг взаимодействия, который моделирует их тонкую подобие. Откладывая, но сохраняя это тонкое взаимодействие, ColBERT может использовать выразительность глубоких языковых моделей, одновременно получая возможность предварительно вычислять представления документов офлайн, что существенно ускоряет обработку запросов.

Архитектура позднего взаимодействия ColBERT предлагает несколько преимуществ, включая улучшенную вычислительную эффективность, масштабируемость с размером коллекции документов и практическую применимость для реальных сценариев. Кроме того, ColBERT был дополнительно улучшен методами, такими как шумоподавляющее управление и сжатие остатков (в ColBERTv2), которые уточняют процесс обучения и уменьшают след модели, сохраняя при этом высокую эффективность поиска.

Этот фрагмент кода демонстрирует, как настроить и использовать модель jina-colbert-v1-en для индексирования коллекции документов, используя ее способность эффективно обрабатывать длинные контексты.

Реализация Двухэтапного Поиска с Реранкингом

Теперь, когда у нас есть понимание принципов, лежащих в основе двухэтапного поиска и реранкинга, давайте исследуем их практическую реализацию в контексте системы RAG. Мы будем использовать популярные библиотеки и фреймворки, чтобы продемонстрировать интеграцию этих методов.

Настройка Окружения

Прежде чем мы приступим к коду, давайте настроим наше окружение разработки. Мы будем использовать Python и несколько популярных библиотек NLP, включая Hugging Face Transformers, Sentence Transformers и LanceDB.

# Установите необходимые библиотеки
!pip install datasets huggingface_hub sentence_transformers lancedb

Подготовка Данных

Для демонстрационных целей мы будем использовать набор данных “ai-arxiv-chunked” из Hugging Face Datasets, который содержит более 400 статей ArXiv по машинному обучению, обработке естественного языка и большим языковым моделям.

from datasets import load_dataset

dataset = load_dataset("jamescalam/ai-arxiv-chunked", split="train")

&amp;lt;pre&amp;gt;

Далее мы обработаем данные и разделим их на меньшие фрагменты, чтобы обеспечить эффективный поиск и обработку.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Для первоначального этапа поиска мы будем использовать модель Sentence Transformer для кодирования наших документов и запросов в плотные векторные представления, а затем выполним近似ный поиск ближайших соседей с помощью векторной базы данных, такой как LanceDB.

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Загрузите модель Sentence Transformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Создайте хранилище векторов LanceDB
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Индексируйте документы
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Загрузите модель Sentence Transformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Создайте хранилище векторов LanceDB
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Индексируйте документы
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

С индексированными документами мы можем выполнить первоначальный поиск, найдя ближайших соседей к заданному вектору запроса.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Реранкинг

После первоначального поиска мы будем использовать модель реранкинга, чтобы переупорядочить извлеченные документы на основе их релевантности для запроса. В этом примере мы будем использовать реранカー ColBERT, быструю и точную трансформерную модель, специально разработанную для ранжирования документов.

from lancedb.rerankers import ColbertReranker

reranker = ColbertReranker()

# Реранкинг первоначальных документов
reranked_docs = reranker.rerank(query, initial_docs)

Список reranked_docs теперь содержит документы, переупорядоченные на основе их релевантности для запроса, как определено реранカーом ColBERT.

Усиление и Генерация

С реранкингом и релевантными документами в руках мы можем перейти к этапам усиления и генерации в конвейере RAG. Мы будем использовать языковую модель из библиотеки Hugging Face Transformers для генерации окончательного ответа.

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")

# Усиление запроса с реранкингом документов
augmented_query = query + " " + " ".join(reranked_docs[:3])

# Генерация ответа из языковой модели
input_ids = tokenizer.encode(augmented_query, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=500)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(response)

В вышеприведенном фрагменте кода мы усиливаем исходный запрос с тремя верхними реранкингами документов, создавая усиленный_запрос. Затем мы передаем этот усиленный запрос модели языка T5, которая генерирует ответ на основе предоставленного контекста.

Переменная ответ будет содержать окончательный вывод, используя внешнюю информацию из извлеченных и реранкингированных документов для предоставления более точного и полного ответа на исходный запрос.

Передовые Техники и Рассмотрения

Хотя реализация, которую мы рассмотрели, обеспечивает прочную основу для интеграции двухэтапного поиска и реранкинга в систему RAG, существуют несколько передовых техник и рассмотрений, которые могут еще больше улучшить производительность и надежность этого подхода.

Расширение Запроса: Для улучшения первоначального этапа поиска можно использовать техники расширения запроса, которые включают добавление связанных терминов или фраз к исходному запросу. Это может помочь извлечь более разнообразный набор потенциально релевантных документов.
Ансамблевый Реранкинг: Вместо того, чтобы полагаться на одну модель реранкинга, можно объединить несколько реранкеров в ансамбль, используя сильные стороны разных моделей для улучшения общей производительности.
Настройка Реранкеров: Хотя предварительно обученные модели реранкинга могут быть эффективными, их настройка на данных конкретной области может еще больше улучшить их способность захватить семантику и сигналы релевантности конкретной области.
Итеративный Поиск и Реранкинг: В некоторых случаях один итераций поиска и реранкинга может быть недостаточно. Можно исследовать итеративные подходы, где вывод языковой модели используется для уточнения запроса и процесса поиска, что приводит к более интерактивной и динамичной системе.
Баланс Релевантности и Разнообразия: Хотя реранкеры стремятся продвигать наиболее релевантные документы, важно найти баланс между релевантностью и разнообразием. Включение методов, способствующих разнообразию, может помочь предотвратить то, что система станет слишком узкой или предвзятой в своих источниках информации.
Метрики Оценки: Для оценки эффективности подхода двухэтапного поиска и реранкинга необходимо определить соответствующие метрики оценки. Это могут включать традиционные метрики поиска информации, такие как точность, полнота и средний обратный ранг (MRR), а также метрики, специфичные для задачи, адаптированные к вашему конкретному случаю.

Заключение

Генерация с Усиленным Поиском (RAG) стала мощным методом для улучшения возможностей больших языковых моделей, используя внешние источники информации. Однако традиционные методы поиска часто испытывают трудности в выявлении наиболее релевантных документов, что приводит к субоптимальной производительности.

Двухэтапный поиск с реранкингом предлагает убедительное решение этой проблемы. Объединив первоначальный быстрый этап поиска с более совершенной моделью реранкинга, этот подход может существенно улучшить точность и релевантность извлеченных документов, что в конечном итоге приводит к более высококачественным сгенерированным ответам языковой модели.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.