AI-verktyg 101

Komplett nybörjarguide till Hugging Face LLM-verktyg

Uppdaterad on September 21, 2023

Aayush Mittal

Hugging Face är ett AI-forskningslabb och nav som har byggt upp en gemenskap av forskare, forskare och entusiaster. På kort tid har Hugging Face fått en betydande närvaro i AI-utrymmet. Tekniska jättar inklusive Google, Amazon och Nvidia har stärkt AI-startup Hugging Face med betydande investeringar, vilket gör sin värdering $ 4.5 miljarder.

I den här guiden kommer vi att introducera transformatorer, LLM:er och hur Hugging Face-biblioteket spelar en viktig roll för att främja en öppen källkods-AI-gemenskap. Vi kommer också att gå igenom de väsentliga funktionerna i Hugging Face, inklusive pipelines, datauppsättningar, modeller och mer, med praktiska Python-exempel.

Transformatorer i NLP

2017 publicerade Cornell University en inflytelserik artikel som introducerade transformatorer. Dessa är modeller för djupinlärning som används i NLP. Denna upptäckt drev på utvecklingen av stora språkmodeller som ChatGPT.

Stora språkmodeller eller LLM är AI-system som använder transformatorer för att förstå och skapa människoliknande text. Det är dock dyrt att skapa dessa modeller och kräver ofta miljontals dollar, vilket begränsar deras tillgänglighet för stora företag.

Kramande ansikte, som startade 2016, syftar till att göra NLP-modeller tillgängliga för alla. Trots att det är ett kommersiellt företag erbjuder det en rad resurser med öppen källkod som hjälper människor och organisationer att bygga och använda transformatormodeller till ett överkomligt pris. Maskininlärning handlar om att lära datorer att utföra uppgifter genom att känna igen mönster, medan djupinlärning, en delmängd av maskininlärning, skapar ett nätverk som lär sig självständigt. Transformatorer är en typ av djupinlärningsarkitektur som effektivt och flexibelt använder indata, vilket gör det till ett populärt val för att bygga stora språkmodeller på grund av mindre utbildningstidskrav.

Hur Hugging Face underlättar NLP- och LLM-projekt

Hugging Face har gjort arbetet med LLM enklare genom att erbjuda:

En rad förutbildade modeller att välja mellan.
Verktyg och exempel för att finjustera dessa modeller till dina specifika behov.
Enkla distributionsalternativ för olika miljöer.

En stor resurs tillgänglig genom Hugging Face är Öppna LLM Leaderboard. Den fungerar som en heltäckande plattform och övervakar, rangordnar och mäter systematiskt effektiviteten hos ett spektrum av stora språkmodeller (LLM) och chatbots, vilket ger en kräsna analys av framstegen inom domänen med öppen källkod.

LLM Benchmarks mäter modeller genom fyra mätvärden:

AI2 Reasoning Challenge (25-shot) — en serie frågor kring kursplanen för grundläggande naturvetenskap.
HellaSwag (10-shot) - ett sunt förnuftstest som, även om det är enkelt för människor, är en betydande utmaning för banbrytande modeller.
MMLU (5-shot) — en mångfacetterad utvärdering som berör en textmodells skicklighet inom 57 olika domäner, som omfattar grundläggande matematik, juridik och datavetenskap, bland annat.
Sanningsfull QA (0-shot) — ett verktyg för att fastställa tendensen hos en modell att eka ofta förekommande felaktig information online.

Riktmärkena, som beskrivs med termer som "25-shot", "10-shot", "5-shot" och "0-shot", indikerar antalet snabba exempel som en modell ges under utvärderingsprocessen för att mäta dess prestanda och resonemangsförmåga inom olika domäner. I "få-shot"-paradigm förses modeller med ett litet antal exempel för att vägleda deras svar, medan i en "0-shot"-inställning får modellerna inga exempel och måste förlita sig enbart på sin redan existerande kunskap för att svara på lämpligt sätt .

Komponenter i Hugging Face

Rörledningar

'pipelines' är en del av Hugging Faces transformatorbibliotek, en funktion som hjälper till att enkelt använda förtränade modeller tillgängliga i Hugging Face-förrådet. Det tillhandahåller ett intuitivt API för en rad uppgifter, inklusive sentimentanalys, frågesvar, maskerad språkmodellering, namngiven enhetsigenkänning och sammanfattning.

Pipelines integrerar tre centrala Hugging Face-komponenter:

Tokenizer: Förbereder din text för modellen genom att konvertera den till ett format som modellen kan förstå.
Modell: Detta är hjärtat i pipelinen där de faktiska förutsägelserna görs baserat på den förbearbetade inmatningen.
Postprocessor: Förvandlar modellens råa förutsägelser till en form som kan läsas av människor.

Dessa pipelines minskar inte bara omfattande kodning utan erbjuder också ett användarvänligt gränssnitt för att utföra olika NLP-uppgifter.

Transformatorapplikationer som använder Hugging Face-biblioteket

En höjdpunkt i Hugging Face-biblioteket är Transformers-biblioteket, som förenklar NLP-uppgifter genom att koppla ihop en modell med nödvändiga för- och efterbehandlingssteg, vilket effektiviserar analysprocessen. För att installera och importera biblioteket, använd följande kommandon:

pip install -q transformers
from transformers import pipeline

Efter att ha gjort det kan du utföra NLP-uppgifter som börjar med sentimentanalys, som kategoriserar text i positiva eller negativa känslor. Bibliotekets kraftfulla pipeline()-funktion fungerar som ett nav som omfattar andra pipelines och underlättar uppgiftsspecifika applikationer inom ljud-, bild- och multimodala domäner.

Praktiska tillämpningar

Textklassificering

Textklassificering blir en bris med Hugging Faces pipeline()-funktion. Så här kan du initiera en pipeline för textklassificering:

classifier = pipeline("text-classification")

För en praktisk upplevelse, mata in en sträng eller lista med strängar i din pipeline för att få förutsägelser, som enkelt kan visualiseras med Pythons Pandas-bibliotek. Nedan är ett Python-utdrag som visar detta:

sentences = ["I am thrilled to introduce you to the wonderful world of AI.",
"Hopefully, it won't disappoint you."]

# Get classification results for each sentence in the list
results = classifier(sentences)

# Loop through each result and print the label and score
for i, result in enumerate(results):
print(f"Result {i + 1}:")
print(f" Label: {result['label']}")
print(f" Score: {round(result['score'], 3)}\n")

Produktion

Result 1: 
Label: POSITIVE 
Score: 1.0 

Result 2: 
Label: POSITIVE 
Score: 0.996

Namngiven entitetsigenkänning (NER)

NER är avgörande för att extrahera verkliga objekt som kallas "namngivna enheter" från texten. Använd NER-pipeline för att identifiera dessa enheter effektivt:

ner_tagger = pipeline("ner", aggregation_strategy="simple")
text = "Elon Musk is the CEO of SpaceX."
outputs = ner_tagger(text)
print(outputs)

Produktion

 Elon Musk: PER, SpaceX: ORG

Frågeställning

Frågesvar innebär att extrahera exakta svar på specifika frågor från ett givet sammanhang. Initiera en pipeline för att svara på frågor och mata in din fråga och ditt sammanhang för att få det önskade svaret:

reader = pipeline("question-answering")
text = "Hugging Face is a company creating tools for NLP. It is based in New York and was founded in 2016."
question = "Where is Hugging Face based?"
outputs = reader(question=question, context=text)
print(outputs)

Produktion

 {'score': 0.998, 'start': 51, 'end': 60, 'answer': 'New York'}

Hugging Faces pipeline-funktion erbjuder en rad förbyggda pipelines för olika uppgifter, förutom textklassificering, NER och frågesvar. Nedan finns information om en undergrupp av tillgängliga uppgifter:

Tabell: Hugging Face Pipeline-uppgifter

uppgift	Systembeskrivningar	Rörledningsidentifierare
Textgenerering	Skapa text baserat på en given uppmaning	pipeline(task=”textgenerering”)
Sammanfattning	Sammanfatta en lång text eller ett dokument	pipeline(task=”sammanfattning”)
Bildklassificering	Märk en ingångsbild	pipeline(task=”bildklassificering”)
Ljudklassificering	Kategorisera ljuddata	pipeline(task=”audio-classification”)
Svara på visuella frågor	Svara på en fråga med både en bild och en fråga	pipeline(task=”vqa”)

För detaljerade beskrivningar och fler uppgifter, se pipelinedokumentation på Hugging Faces hemsida.

Varför Hugging Face ändrar fokus på Rust

Kramande ansikte Safetensors och tokenizer Rust

Kramande ansikte Safetensors och tokenizer GitHub Page

The Hugging Face (HF) ekosystem började använda Rust i sina bibliotek som safesensors och tokenizers.

Hugging Face har helt nyligen också släppt ett nytt ramverk för maskininlärning som heter Ljus. Till skillnad från traditionella ramverk som använder Python är Candle byggd med Rust. Målet bakom att använda Rust är att förbättra prestanda och förenkla användarupplevelsen samtidigt som det stödjer GPU-operationer.

Huvudsyftet med Candle är att underlätta serverlös slutledning, göra distributionen av lätta binära filer möjlig och ta bort Python från produktionsbelastningen, som ibland kan sakta ner processer på grund av dess omkostnader. Detta ramverk kommer som en lösning för att övervinna de problem man stöter på med fullständiga ramverk för maskininlärning som PyTorch som är stora och långsamma när man skapar instanser i ett kluster.

Låt oss utforska varför Rust blir ett populärt val mycket mer än Python.

Hastighet och prestanda – Rust är känt för sin otroliga hastighet, överträffande Python, som traditionellt används i ramverk för maskininlärning. Pythons prestanda kan ibland saktas ner på grund av dess Global Interpreter Lock (GIL), men Rust står inte inför detta problem, och lovar snabbare utförande av uppgifter och, därefter, förbättrad prestanda i projekt där det implementeras.
Säkerhet – Rust ger minnessäkerhetsgarantier utan en sophämtare, en aspekt som är väsentlig för att säkerställa säkerheten för samtidiga system. Detta spelar en avgörande roll inom områden som säkerhetsanordningar där säkerhet vid hantering av datastrukturer är en prioritet.

Säkerhetsskåp

Säkerhetsskåp dra nytta av Rusts hastighet och säkerhetsfunktioner. Safetensors involverar manipulering av tensorer, en komplex matematisk enhet, och att ha Rust säkerställer att operationerna inte bara är snabba utan också säkra, och undviker vanliga buggar och säkerhetsproblem som kan uppstå från minnesfelhantering.

Tokenizer

Tokenizers hantera nedbrytningen av meningar eller fraser i mindre enheter, såsom ord eller termer. Rust hjälper till i denna process genom att påskynda exekveringstiden, se till att tokeniseringsprocessen inte bara är korrekt utan också snabb, vilket förbättrar effektiviteten för bearbetningsuppgifter för naturligt språk.

Kärnan i Hugging Faces tokenizer är konceptet med subord-tokenisering, som skapar en delikat balans mellan ord- och teckennivå-tokenisering för att optimera informationslagring och ordförrådsstorlek. Det fungerar genom att skapa subtokens, som "##ing" och "##ed", behåller semantisk rikedom samtidigt som man undviker ett uppsvällt ordförråd.

Subord-tokenisering involverar en träningsfas för att identifiera den mest effektiva balansen mellan tecken- och ordnivå-tokenisering. Det går längre än bara regler för prefix och suffix, vilket kräver en omfattande analys av språkmönster i omfattande textkorpus för att designa en effektiv underordstokenizer. Den genererade tokenizern är skicklig på att hantera nya ord genom att dela upp dem i kända underord, vilket bibehåller en hög nivå av semantisk förståelse.

Tokeniseringskomponenter

Normalisering och pre-tokenisering Kramar ansikte

https://huggingface.co/learn/nlp-course/chapter6/4

Tokenizers-biblioteket delar in tokeniseringsprocessen i flera steg, som var och en tar upp en distinkt aspekt av tokenisering. Låt oss fördjupa oss i dessa komponenter:

normaliserare: Tar initiala transformationer på inmatningssträngen och tillämpar nödvändiga justeringar som konvertering av gemener, Unicode-normalisering och strippning.
PreTokenizer: Ansvarig för att fragmentera inmatningssträngen i försegment, bestämma splittringar baserat på fördefinierade regler, såsom mellanslagsavgränsningar.
Modell: Övervakar upptäckten och skapandet av subtokens, anpassar sig till detaljerna i dina indata och erbjuder träningsmöjligheter.
Efterbehandlare: Förbättrar konstruktionsfunktioner för att underlätta kompatibilitet med många transformatorbaserade modeller, som BERT, genom att lägga till tokens som [CLS] och [SEP].

För att komma igång med Hugging Face-tokenizers, installera biblioteket med kommandot pip install tokenizers och importera den till din Python-miljö. Biblioteket kan tokenisera stora mängder text på mycket kort tid, vilket sparar värdefulla beräkningsresurser för mer intensiva uppgifter som modellträning.

Tokenizers-biblioteket använder Rust som ärver C++s syntaktiska likhet samtidigt som det introducerar nya koncept inom programmeringsspråksdesign. Tillsammans med Python-bindningar säkerställer det att du kan njuta av prestandan hos ett språk på lägre nivå medan du arbetar i en Python-miljö.

dataset

Kramar ansikte datasets

Datauppsättningar är grunden för AI-projekt. Hugging Face erbjuder ett brett utbud av datauppsättningar, lämpliga för en rad NLP-uppgifter och mer. För att kunna använda dem effektivt är det viktigt att förstå processen för att ladda och analysera dem. Nedan finns ett välkommenterat Python-skript som visar hur man utforskar datauppsättningar tillgängliga på Hugging Face:

from datasets import load_dataset
# Load a dataset
dataset = load_dataset('squad')
# Display the first entry
print(dataset[0])

Det här skriptet använder load_dataset-funktionen för att ladda SQuAD-datauppsättningen, som är ett populärt val för frågor som svarar på frågor.

Utnyttja förutbildade modeller och sammanföra allt

Kramar ansiktsmodeller

Förutbildade modeller utgör ryggraden i många projekt för djupinlärning, vilket gör det möjligt för forskare och utvecklare att dra igång sina initiativ utan att börja om från början. Hugging Face underlättar utforskningen av en mängd olika förtränade modeller, som visas i koden nedan:

from transformers import AutoModelForQuestionAnswering, AutoTokenizer

# Load the pre-trained model and tokenizer
model = AutoModelForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
tokenizer = AutoTokenizer.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')

# Display the model's architecture
print(model)

Med modellen och tokenizern laddade kan vi nu fortsätta att skapa en funktion som tar en bit text och en fråga som indata och returnerar svaret extraherat från texten. Vi kommer att använda tokenizern för att bearbeta inmatningstexten och frågan till ett format som är kompatibelt med modellen, och sedan kommer vi att mata in denna bearbetade indata i modellen för att få svaret:

def get_answer(text, question):
    # Tokenize the input text and question
    inputs = tokenizer(question, text, return_tensors='pt', max_length=512, truncation=True)
    outputs = model(**inputs)

    # Get the start and end scores for the answer
    answer_start = torch.argmax(outputs.start_logits)
    answer_end = torch.argmax(outputs.end_logits) + 1

    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][answer_start:answer_end]))
    return answer

I kodavsnittet importerar vi nödvändiga moduler från transformatorpaketet, och laddar sedan en förtränad modell och dess motsvarande tokenizer med metoden from_pretrained. Vi väljer en BERT-modell finjusterad på SQuAD-datauppsättningen.

Låt oss se ett exempel på användningen av den här funktionen där vi har ett stycke text och vi vill extrahera ett specifikt svar på en fråga från den:

text = """
The Eiffel Tower, located in Paris, France, is one of the most iconic landmarks in the world. It was designed by Gustave Eiffel and completed in 1889. The tower stands at a height of 324 meters and was the tallest man-made structure in the world at the time of its completion.
"""

question = "Who designed the Eiffel Tower?"

# Get the answer to the question
answer = get_answer(text, question)
print(f"The answer to the question is: {answer}")
# Output: The answer to the question is: Gustave Eiffel

I det här skriptet bygger vi en get_answer-funktion som tar en text och en fråga, tokeniserar dem på lämpligt sätt och utnyttjar den förutbildade BERT-modellen för att extrahera svaret från texten. Den visar en praktisk tillämpning av Hugging Faces transformatorbibliotek för att bygga ett enkelt men kraftfullt frågesvarssystem. För att förstå begreppen väl, rekommenderas det att ha ett praktiskt experiment med en Google Colab Notebook.

Slutsats

Genom sitt omfattande utbud av verktyg med öppen källkod, förutbildade modeller och användarvänliga pipelines, gör det det möjligt för både erfarna proffs och nykomlingar att fördjupa sig i den expansiva världen av AI med en känsla av lätthet och förståelse. Dessutom understryker initiativet att integrera Rust, på grund av dess hastighet och säkerhetsfunktioner, Hugging Faces engagemang för att främja innovation och samtidigt säkerställa effektivitet och säkerhet i AI-applikationer. Det transformativa arbetet med Hugging Face demokratiserar inte bara tillgången till AI-verktyg på hög nivå utan främjar också en samarbetsmiljö för lärande och utveckling i AI-utrymmet, vilket underlättar en framtid där AI är tillgänglig för

Relaterade ämnen:chatt gpt generativ ai Kramande ansikte LLM nlp PROMPT INGENJERING pytonorm

Strax

Fineshare recension: Det bästa verktyget för att skapa ljud och video för AI?

Missa inte

ContentStudio Recension: Det bästa AI-verktyget för sociala medier? (augusti 2025)

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.