Inteligjenca artificiale
GPT-4o i OpenAI: Modeli Multimodal i AI që transformon ndërveprimin njeri-makinë
![GPT-4o ("o" për "omni")](https://www.unite.ai/wp-content/uploads/2024/05/DALL%C2%B7E-2024-05-21-22.40.35-A-minimalistic-digital-illustration-in-a-16_9-aspect-ratio.-The-background-is-an-abstract-design-with-soft-blended-pastel-colors-primarily-featuring.webp)
OpenAI ka lëshuar modelin e tij më të fundit dhe më të avancuar të gjuhës deri më tani – GPT-4o, i njohur gjithashtu si "Omni” model. Ky sistem revolucionar i AI përfaqëson një hap gjigant përpara, me aftësi që mjegullojnë kufirin midis inteligjencës njerëzore dhe asaj artificiale.
Në zemër të GPT-4o qëndron natyra e tij origjinale multimodale, duke e lejuar atë të përpunojë dhe gjenerojë pa probleme përmbajtje nëpër tekst, audio, imazhe dhe video. Ky integrim i modaliteteve të shumta në një model të vetëm është i pari i llojit të tij, duke premtuar të riformojë mënyrën se si ndërveprojmë me asistentët e AI.
Por GPT-4o është shumë më tepër se thjesht një sistem multimodal. Ai krenohet me një përmirësim befasues të performancës krahasuar me paraardhësin e tij, GPT-4, dhe lë në pluhur modelet konkurruese si Gemini 1.5 Pro, Claude 3 dhe Llama 3-70B. Le të zhytemi më thellë në atë që e bën këtë model të AI me të vërtetë novator.
Performancë dhe efikasitet të pashembullt
Një nga aspektet më mbresëlënëse të GPT-4o janë aftësitë e tij të paprecedentë të performancës. Sipas vlerësimeve të OpenAI, modeli ka një avantazh të jashtëzakonshëm prej 60 pikë Elo ndaj performuesit të mëparshëm, GPT-4 Turbo. Ky avantazh i rëndësishëm e vendos GPT-4o në një ligë më vete, duke tejkaluar edhe modelet më të avancuara të AI aktualisht të disponueshme.
Por performanca e papërpunuar nuk është e vetmja zonë ku GPT-4o shkëlqen. Modeli gjithashtu krenohet me efikasitet mbresëlënës, duke operuar me dyfishin e shpejtësisë së GPT-4 Turbo ndërsa kushton vetëm gjysmën e kostos për të punuar. Ky kombinim i performancës superiore dhe efektivitetit të kostos e bën GPT-4o një propozim jashtëzakonisht tërheqës për zhvilluesit dhe bizneset që kërkojnë të integrojnë aftësitë e fundit të AI në aplikacionet e tyre.
Aftësitë multimodale: Përzierja e tekstit, audios dhe vizionit
Ndoshta aspekti më novator i GPT-4o është natyra e tij multimodale amtare, e cila e lejon atë të përpunojë dhe gjenerojë pa probleme përmbajtje nëpër modalitete të shumta, duke përfshirë tekstin, audion dhe vizionin. Ky integrim i modaliteteve të shumta në një model të vetëm është i pari i këtij lloji dhe premton të revolucionarizojë mënyrën se si ne ndërveprojmë me asistentët e AI.
Me GPT-4o, përdoruesit mund të përfshihen në biseda të natyrshme, në kohë reale duke përdorur fjalimin, me modelin që i njeh menjëherë dhe i përgjigjet hyrjeve audio. Por aftësitë nuk mbarojnë këtu – GPT-4o gjithashtu mund të interpretojë dhe gjenerojë përmbajtje vizuale, duke hapur një botë mundësish për aplikacione që variojnë nga analiza e imazheve dhe gjenerimi deri te kuptimi dhe krijimi i videove.
Një nga demonstrimet më mbresëlënëse të aftësive multimodale të GPT-4o është aftësia e tij për të analizuar një skenë ose imazh në kohë reale, duke përshkruar dhe interpretuar me saktësi elementet vizuale që percepton. Kjo veçori ka implikime të thella për aplikacione të tilla si teknologjitë ndihmëse për personat me shikim të dëmtuar, si dhe në fusha si siguria, mbikqyrja dhe automatizimi.
Por aftësitë multimodale të GPT-4o shtrihen përtej të kuptuarit dhe gjenerimit të përmbajtjes në modalitete të ndryshme. Modeli gjithashtu mund të përziejë pa probleme këto modalitete, duke krijuar përvoja vërtet zhytëse dhe tërheqëse. Për shembull, gjatë demonstrimit të drejtpërdrejtë të OpenAI, GPT-4o ishte në gjendje të gjeneronte një këngë të bazuar në kushtet e hyrjes, duke përzier të kuptuarit e gjuhës, teorinë e muzikës dhe gjenerimin e audios në një dalje kohezive dhe mbresëlënëse.
Përdorimi i GPT0 duke përdorur Python
import openai # Replace with your actual API key OPENAI_API_KEY = "your_openai_api_key_here" # Function to extract the response content def get_response_content(response_dict, exclude_tokens=None): if exclude_tokens is None: exclude_tokens = [] if response_dict and response_dict.get("choices") and len(response_dict["choices"]) > 0: content = response_dict["choices"][0]["message"]["content"].strip() if content: for token in exclude_tokens: content = content.replace(token, '') return content raise ValueError(f"Unable to resolve response: {response_dict}") # Asynchronous function to send a request to the OpenAI chat API async def send_openai_chat_request(prompt, model_name, temperature=0.0): openai.api_key = OPENAI_API_KEY message = {"role": "user", "content": prompt} response = await openai.ChatCompletion.acreate( model=model_name, messages=[message], temperature=temperature, ) return get_response_content(response) # Example usage async def main(): prompt = "Hello!" model_name = "gpt-4o-2024-05-13" response = await send_openai_chat_request(prompt, model_name) print(response) if __name__ == "__main__": import asyncio asyncio.run(main())
Une kam:
- Importoi modulin openai drejtpërdrejt në vend që të përdorte një klasë të personalizuar.
- Riemërtoi funksionin openai_chat_resolve në get_response_content dhe bëri disa ndryshime të vogla në zbatimin e tij.
- Zëvendësoi klasën AsyncOpenAI me funksionin openai.ChatCompletion.acreate, që është metoda zyrtare asinkrone e ofruar nga biblioteka OpenAI Python.
- U shtua një shembull i funksionit kryesor që tregon se si të përdoret funksioni send_openai_chat_request.
Ju lutemi vini re se duhet të zëvendësoni "your_openai_api_key_here" me çelësin tuaj aktual OpenAI API që kodi të funksionojë siç duhet.
![](https://www.unite.ai/wp-content/uploads/2022/10/join-the-future-newsletter.png)
![](https://www.unite.ai/wp-content/uploads/2024/01/Unite-AI-Mobile-Newsletter-1.png)