Refresh

This website www.unite.ai/ar/tensorrt-llm-a-comprehensive-guide-to-optimizing-large-language-model-inference-for-maximum-performance/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

TensorRT-LLM: دليل شامل لتحسين استدلال نموذج اللغة الكبير لتحقيق أقصى قدر من الأداء

mm

تم النشر

 on

TensorRT-LLM - التكميم NVIDEA، ودمج العمليات، ودقة FP8، ودعم وحدات معالجة الرسومات المتعددة

مع استمرار ارتفاع الطلب على نماذج اللغة الكبيرة (LLMs)، أصبح ضمان الاستدلال السريع والفعال والقابل للتطوير أكثر أهمية من أي وقت مضى. TensorRT-LLM تتخذ TensorRT-LLM خطوات لمعالجة هذا التحدي من خلال توفير مجموعة من الأدوات القوية والتحسينات المصممة خصيصًا لاستنتاجات LLM. تقدم TensorRT-LLM مجموعة رائعة من تحسينات الأداء، مثل التكميم، ودمج النواة، والدفعات الفورية، ودعم وحدات معالجة الرسومات المتعددة. تتيح هذه التطورات إمكانية تحقيق سرعات استدلال تصل إلى 8 أضعاف أسرع من الطرق التقليدية القائمة على وحدة المعالجة المركزية، مما يحول الطريقة التي ننشر بها LLMs في الإنتاج.

سوف يستكشف هذا الدليل الشامل جميع جوانب TensorRT-LLM، بدءًا من بنيته وميزاته الرئيسية وحتى الأمثلة العملية لنشر النماذج. سواء كنت مهندس ذكاء اصطناعي أو مطور برامج أو باحثًا، سيزودك هذا الدليل بالمعرفة اللازمة للاستفادة من TensorRT-LLM لتحسين استدلال LLM على وحدات معالجة الرسومات NVIDIA.

تسريع استدلال LLM باستخدام TensorRT-LLM

يقدم TensorRT-LLM تحسينات كبيرة في أداء استدلال LLM. وفقًا لاختبارات NVIDIA، تظهر التطبيقات المستندة إلى TensorRT شنومكس مرة أسرع سرعات الاستدلال مقارنة بالمنصات التي تعتمد على وحدة المعالجة المركزية فقط. وهذا تقدم بالغ الأهمية في التطبيقات في الوقت الفعلي مثل برامج الدردشة الآلية وأنظمة التوصية والأنظمة المستقلة التي تتطلب استجابات سريعة.

آلية العمل

يعمل TensorRT-LLM على تسريع الاستدلال من خلال تحسين الشبكات العصبية أثناء النشر باستخدام تقنيات مثل:

  • توضيح:يقلل من دقة الأوزان والتنشيطات، مما يؤدي إلى تقليص حجم النموذج وتحسين سرعة الاستدلال.
  • طبقة وتينسور فيوجن:دمج العمليات مثل وظائف التنشيط وضرب المصفوفات في عملية واحدة.
  • ضبط النواة:يحدد أنوية CUDA المثالية لحسابات وحدة معالجة الرسوميات، مما يقلل من وقت التنفيذ.

تضمن عمليات التحسين هذه أن تعمل نماذج LLM الخاصة بك بكفاءة عبر مجموعة واسعة من منصات النشر - بدءًا من مراكز البيانات الضخمة إلى الأنظمة المضمنة.

تحسين أداء الاستدلال باستخدام TensorRT

تم تصميم TensorRT على نموذج البرمجة المتوازية CUDA من NVIDIA، ويوفر تحسينات متخصصة للغاية للاستدلال على وحدات معالجة الرسومات NVIDIA. من خلال تبسيط العمليات مثل التكميم وضبط النواة ودمج عمليات الموتر، يضمن TensorRT إمكانية تشغيل LLMs بأقل قدر من زمن الوصول.

تتضمن بعض التقنيات الأكثر فعالية ما يلي:

  • توضيح:يؤدي هذا إلى تقليل الدقة العددية لمعلمات النموذج مع الحفاظ على الدقة العالية، مما يؤدي إلى تسريع الاستدلال بشكل فعال.
  • تينسور فيوجن:من خلال دمج عمليات متعددة في نواة CUDA واحدة، يعمل TensorRT على تقليل تكلفة الذاكرة وزيادة الإنتاجية.
  • ضبط النواة تلقائيًا:يقوم TensorRT تلقائيًا باختيار أفضل نواة لكل عملية، مما يعمل على تحسين الاستدلال لوحدة معالجة الرسوميات (GPU) المحددة.

تسمح هذه التقنيات لـ TensorRT-LLM بتحسين أداء الاستدلال لمهام التعلم العميق مثل معالجة اللغة الطبيعية ومحركات التوصية وتحليلات الفيديو في الوقت الفعلي.

تسريع أحمال عمل الذكاء الاصطناعي باستخدام TensorRT

يعمل TensorRT على تسريع أحمال عمل التعلم العميق من خلال دمج تحسينات الدقة مثل INT8 و FP16تسمح هذه التنسيقات ذات الدقة المنخفضة باستنتاج أسرع بشكل ملحوظ مع الحفاظ على الدقة. وهذا مفيد بشكل خاص في التطبيقات في الوقت الفعلي حيث يكون زمن الوصول المنخفض متطلبًا بالغ الأهمية.

INT8 و FP16 تعتبر التحسينات فعالة بشكل خاص في:

  • لقطات الفيديو:تستفيد مهام معالجة الفيديو المعتمدة على الذكاء الاصطناعي، مثل اكتشاف الكائنات، من هذه التحسينات من خلال تقليل الوقت المستغرق لمعالجة الإطارات.
  • أنظمة التوصية:من خلال تسريع الاستدلال للنماذج التي تعالج كميات كبيرة من بيانات المستخدم، يتيح TensorRT التخصيص في الوقت الفعلي على نطاق واسع.
  • معالجة اللغات الطبيعية (NLP):يعمل TensorRT على تحسين سرعة مهام معالجة اللغة الطبيعية مثل إنشاء النصوص والترجمة والتلخيص، مما يجعلها مناسبة للتطبيقات في الوقت الفعلي.

النشر والتشغيل والتوسع باستخدام NVIDIA Triton

بمجرد تحسين نموذجك باستخدام TensorRT-LLM، يمكنك نشره وتشغيله وتوسيع نطاقه بسهولة باستخدام خادم الاستدلال NVIDIA Triton. Triton هو برنامج مفتوح المصدر يدعم التجميع الديناميكي ومجموعات النماذج والإنتاجية العالية. وهو يوفر بيئة مرنة لإدارة نماذج الذكاء الاصطناعي على نطاق واسع.

بعض الميزات الرئيسية ما يلي:

  • تنفيذ النموذج المتزامن:قم بتشغيل نماذج متعددة في وقت واحد، مما يزيد من الاستفادة من وحدة معالجة الرسوميات.
  • الخلط الديناميكي:يجمع طلبات الاستدلال المتعددة في دفعة واحدة، مما يقلل من زمن الوصول ويزيد من الإنتاجية.
  • مدخلات الصوت والفيديو المتدفقة:يدعم تدفقات الإدخال في تطبيقات الوقت الفعلي، مثل تحليلات الفيديو المباشر أو خدمات تحويل الكلام إلى نص.

وهذا يجعل Triton أداة قيمة لنشر نماذج TensorRT-LLM المحسّنة في بيئات الإنتاج، مما يضمن قابلية التوسع والكفاءة العالية.

الميزات الأساسية لبرنامج TensorRT-LLM لاستدلال LLM

واجهة برمجة تطبيقات Python مفتوحة المصدر

يوفر TensorRT-LLM برنامجًا معياريًا للغاية و واجهة برمجة تطبيقات Python مفتوحة المصدر، مما يبسط عملية تحديد وتحسين وتنفيذ LLMs. تتيح واجهة برمجة التطبيقات للمطورين إنشاء LLMs مخصصة أو تعديل تلك المعدة مسبقًا لتناسب احتياجاتهم، دون الحاجة إلى معرفة متعمقة بإطارات CUDA أو التعلم العميق.

الدفعات أثناء الطيران والانتباه المقسم إلى صفحات

واحدة من الميزات البارزة لبرنامج TensorRT-LLM هي الدفعات أثناء الطيران، مما يعمل على تحسين عملية إنشاء النص من خلال معالجة طلبات متعددة في وقت واحد. تعمل هذه الميزة على تقليل وقت الانتظار وتحسين استخدام وحدة معالجة الرسومات من خلال تجميع التسلسلات بشكل ديناميكي.

بالإضافة إلى ذلك، الاهتمام بالصفحات يضمن أن يظل استخدام الذاكرة منخفضًا حتى عند معالجة تسلسلات الإدخال الطويلة. بدلاً من تخصيص ذاكرة متجاورة لجميع الرموز، يقوم الانتباه المقسم بتقسيم الذاكرة إلى "صفحات" يمكن إعادة استخدامها ديناميكيًا، مما يمنع تجزئة الذاكرة ويحسن الكفاءة.

الاستدلال على وحدات معالجة الرسوميات المتعددة والعقد المتعددة

بالنسبة للنماذج الأكبر أو أحمال العمل الأكثر تعقيدًا، يدعم TensorRT-LLM وحدة معالجة الرسومات المتعددة و الاستدلال متعدد العقدتتيح هذه القدرة توزيع حسابات النموذج عبر العديد من وحدات معالجة الرسوميات أو العقد، مما يؤدي إلى تحسين الإنتاجية وتقليل إجمالي وقت الاستدلال.

دعم FP8

مع قدوم FP8 (نقطة عائمة 8 بت)، يستفيد TensorRT-LLM من وحدات معالجة الرسوميات H100 من NVIDIA لتحويل أوزان النماذج إلى هذا التنسيق لتحسين الاستدلال. يتيح FP8 تقليل استهلاك الذاكرة والحوسبة بشكل أسرع، وهو مفيد بشكل خاص في عمليات النشر واسعة النطاق.

هندسة ومكونات TensorRT-LLM

سيساعدك فهم بنية TensorRT-LLM على الاستفادة بشكل أفضل من قدراتها لاستنتاج LLM. دعنا نحلل المكونات الرئيسية:

تعريف النموذج

يتيح لك TensorRT-LLM تعريف LLMs باستخدام واجهة برمجة تطبيقات Python البسيطة. تقوم واجهة برمجة التطبيقات بإنشاء تمثيل بياني النموذج، مما يجعل من الأسهل إدارة الطبقات المعقدة المشاركة في بنيات LLM مثل GPT أو BERT.

ربطات الوزن

قبل تجميع النموذج، يجب ربط الأوزان (أو المعلمات) بالشبكة. تضمن هذه الخطوة تضمين الأوزان داخل محرك TensorRT، مما يسمح بالاستدلال السريع والفعال. كما يسمح TensorRT-LLM بتحديثات الأوزان بعد التجميع، مما يضيف المرونة للنماذج التي تحتاج إلى تحديثات متكررة.

مطابقة الأنماط والاندماج

عملية الاندماج هناك ميزة أخرى قوية في TensorRT-LLM. من خلال دمج عمليات متعددة (على سبيل المثال، عمليات ضرب المصفوفات مع وظائف التنشيط) في نواة CUDA واحدة، يعمل TensorRT على تقليل النفقات العامة المرتبطة بعمليات تشغيل متعددة للنواة. وهذا يقلل من عمليات نقل الذاكرة ويسرع الاستدلال.

الإضافات

لتوسيع قدرات TensorRT، يمكن للمطورين الكتابة الإضافات—نوى مخصصة تؤدي مهام محددة مثل تحسين كتل الانتباه متعددة الرؤوس. على سبيل المثال، الاهتمام الفوري يؤدي البرنامج المساعد إلى تحسين أداء طبقات الاهتمام LLM بشكل كبير.

معايير الأداء: مكاسب أداء TensorRT-LLM

يُظهِر TensorRT-LLM مكاسب كبيرة في الأداء لاستدلال LLM عبر وحدات معالجة الرسوميات المختلفة. فيما يلي مقارنة لسرعة الاستدلال (مقاسة بالرموز في الثانية) باستخدام TensorRT-LLM عبر وحدات معالجة الرسوميات المختلفة من NVIDIA:

الموديلدقةطول الإدخال/الإخراجH100 (80 جيجابايت)A100 (80 جيجابايت)ل40S FP8
جي بي تي جيه 6 بFP8128/12834,95511,2066,998
جي بي تي جيه 6 بFP82048/1282,8001,354747
لاما الإصدار 2 7 بFP8128/12816,98510,7256,121
لاما الإصدار 3 8 بFP8128/12816,70812,0858,273

تظهر هذه المعايير أن TensorRT-LLM يوفر تحسينات كبيرة في الأداء، وخاصة للتسلسلات الأطول.

التدريب العملي: تثبيت وبناء TensorRT-LLM

الخطوة 1: إنشاء بيئة حاوية

من أجل سهولة الاستخدام، يوفر TensorRT-LLM صور Docker لإنشاء بيئة خاضعة للرقابة لبناء النماذج وتشغيلها.

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .

الخطوة 2: تشغيل الحاوية

قم بتشغيل حاوية التطوير مع إمكانية الوصول إلى وحدات معالجة الرسومات NVIDIA:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

الخطوة 3: بناء TensorRT-LLM من المصدر

داخل الحاوية، قم بتجميع TensorRT-LLM باستخدام الأمر التالي:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

يعد هذا الخيار مفيدًا بشكل خاص عندما تريد تجنب مشكلات التوافق المتعلقة بتبعيات Python أو عند التركيز على تكامل C++ في أنظمة الإنتاج. بمجرد اكتمال البناء، ستجد المكتبات المترجمة لوقت تشغيل C++ في cpp/build/tensorrt_llm الدليل جاهز للتكامل مع تطبيقات C++ الخاصة بك.

الخطوة 4: ربط وقت تشغيل TensorRT-LLM C++

عند دمج TensorRT-LLM في مشاريع C++ الخاصة بك، تأكد من أن مسارات تضمين مشروعك تشير إلى cpp/include الدليل. يحتوي هذا على رؤوس واجهة برمجة التطبيقات المستقرة المدعومة. يتم ربط مكتبات TensorRT-LLM كجزء من عملية تجميع C++ الخاصة بك.

على سبيل المثال، قد يتضمن تكوين CMake الخاص بمشروعك ما يلي:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

يتيح لك هذا التكامل الاستفادة من تحسينات TensorRT-LLM في مشاريع C++ المخصصة لديك، مما يضمن استدلالًا فعالًا حتى في البيئات منخفضة المستوى أو عالية الأداء.

ميزات TensorRT-LLM المتقدمة

إن TensorRT-LLM أكثر من مجرد مكتبة تحسين؛ فهو يتضمن العديد من الميزات المتقدمة التي تساعد في معالجة عمليات نشر LLM على نطاق واسع. فيما يلي، نستكشف بعض هذه الميزات بالتفصيل:

1. الدفعات أثناء الطيران

تتضمن الدفعات التقليدية الانتظار حتى يتم جمع الدفعة بالكامل قبل المعالجة، مما قد يتسبب في حدوث تأخيرات. الدفعات أثناء الطيران يغير هذا من خلال بدء الاستدلال ديناميكيًا على الطلبات المكتملة ضمن دفعة واحدة مع الاستمرار في جمع الطلبات الأخرى. يؤدي هذا إلى تحسين الإنتاجية الإجمالية من خلال تقليل وقت الخمول وتعزيز استخدام وحدة معالجة الرسومات.

تُعد هذه الميزة ذات قيمة خاصة في التطبيقات التي تعمل في الوقت الفعلي، مثل برامج الدردشة أو المساعدين الصوتيين، حيث يكون وقت الاستجابة أمرًا بالغ الأهمية.

2. الاهتمام بالصفحات

الاهتمام بالصفحات تعد Paged Attention تقنية لتحسين الذاكرة للتعامل مع تسلسلات الإدخال الكبيرة. فبدلاً من طلب ذاكرة متجاورة لجميع الرموز في تسلسل (وهو ما قد يؤدي إلى تجزئة الذاكرة)، تسمح Paged Attention للنموذج بتقسيم بيانات ذاكرة التخزين المؤقت للقيمة الرئيسية إلى "صفحات" من الذاكرة. يتم تخصيص هذه الصفحات وتحريرها بشكل ديناميكي حسب الحاجة، مما يعمل على تحسين استخدام الذاكرة.

يعد Paged Attention أمرًا بالغ الأهمية للتعامل مع أطوال التسلسل الكبيرة وتقليل تكلفة الذاكرة، وخاصةً في النماذج التوليدية مثل GPT وLLaMA.

3. الإضافات المخصصة

يتيح لك TensorRT-LLM توسيع وظائفه باستخدام الإضافات المخصصةالمكونات الإضافية هي أنوية محددة من قبل المستخدم تعمل على تمكين التحسينات أو العمليات المحددة التي لا تغطيها مكتبة TensorRT القياسية.

على سبيل المثال، الاهتمام الفوري المكون الإضافي هو نواة مخصصة معروفة تعمل على تحسين طبقات الانتباه متعددة الرؤوس في النماذج المستندة إلى المحول. باستخدام هذا المكون الإضافي، يمكن للمطورين تحقيق تسريعات كبيرة في حساب الانتباه - أحد أكثر مكونات LLMs استهلاكًا للموارد.

لدمج مكون إضافي مخصص في نموذج TensorRT-LLM الخاص بك، يمكنك كتابة نواة CUDA مخصصة وتسجيلها في TensorRT. سيتم استدعاء المكون الإضافي أثناء تنفيذ النموذج، مما يوفر تحسينات أداء مخصصة.

4. FP8 Precision على NVIDIA H100

بدافع دقة FP8يستفيد برنامج TensorRT-LLM من أحدث ابتكارات الأجهزة من NVIDIA في هندسة القادوس H100يقلل FP8 من حجم الذاكرة في LLMs من خلال تخزين الأوزان والتنشيطات بتنسيق فاصلة عائمة مكون من 8 بتات، مما يؤدي إلى حساب أسرع دون التضحية بالكثير من الدقة. يقوم TensorRT-LLM تلقائيًا بتجميع النماذج للاستفادة من نوى FP8 المحسّنة، مما يؤدي إلى تسريع أوقات الاستدلال بشكل أكبر.

وهذا يجعل TensorRT-LLM خيارًا مثاليًا للنشر على نطاق واسع والذي يتطلب أداءً من الدرجة الأولى وكفاءة عالية في استخدام الطاقة.

مثال: نشر TensorRT-LLM مع Triton Inference Server

بالنسبة لعمليات النشر الإنتاجية، فإن NVIDIA خادم الاستدلال تريتون توفر منصة قوية لإدارة النماذج على نطاق واسع. في هذا المثال، سنوضح كيفية نشر نموذج مُحسَّن بواسطة TensorRT-LLM باستخدام Triton.

الخطوة 1: إعداد مستودع النماذج

قم بإنشاء مستودع نماذج لبرنامج Triton، والذي سيخزن ملفات نموذج TensorRT-LLM الخاصة بك. على سبيل المثال، إذا قمت بتجميع نموذج GPT2، فقد يبدو هيكل الدليل الخاص بك على النحو التالي:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

الخطوة 2: إنشاء ملف تكوين Triton

في نفس model_repository/gpt2/ الدليل، قم بإنشاء ملف تكوين باسم config.pbtxt هذا ما يخبر Triton بكيفية تحميل النموذج وتشغيله. فيما يلي تكوين أساسي لـ TensorRT-LLM:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]
output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

الخطوة 3: تشغيل Triton Server

استخدم أمر Docker التالي لتشغيل Triton باستخدام مستودع النموذج:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

الخطوة 4: إرسال طلبات الاستدلال إلى Triton

بمجرد تشغيل خادم Triton، يمكنك إرسال طلبات الاستدلال إليه باستخدام HTTP أو gRPC. على سبيل المثال، باستخدام curl لإرسال طلب:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

سوف يقوم Triton بمعالجة الطلب باستخدام محرك TensorRT-LLM وإرجاع بيانات السجل كمخرجات.

أفضل الممارسات لتحسين استدلالات LLM باستخدام TensorRT-LLM

للاستفادة الكاملة من قوة TensorRT-LLM، من المهم اتباع أفضل الممارسات أثناء تحسين النموذج ونشره. فيما يلي بعض النصائح الرئيسية:

1. قم بإنشاء ملف تعريف لنموذجك قبل التحسين

قبل تطبيق التحسينات مثل التكميم أو دمج النواة، استخدم أدوات تحديد الملفات التعريفية من NVIDIA (مثل Nsight Systems أو TensorRT Profiler) لفهم الاختناقات الحالية في تنفيذ نموذجك. يتيح لك هذا استهداف مجالات محددة للتحسين، مما يؤدي إلى تحسينات أكثر فعالية.

2. استخدم الدقة المختلطة للحصول على الأداء الأمثل

عند تحسين النماذج باستخدام TensorRT-LLM، باستخدام دقة مختلطة (مزيج من FP16 وFP32) يوفر سرعة كبيرة دون خسارة كبيرة في الدقة. للحصول على أفضل توازن بين السرعة والدقة، فكر في استخدام FP8 حيثما كان متاحًا، وخاصةً على وحدات معالجة الرسومات H100.

3. الاستفادة من الاهتمام المقسم إلى صفحات للتسلسلات الكبيرة

بالنسبة للمهام التي تتضمن تسلسلات إدخال طويلة، مثل تلخيص المستندات أو المحادثات متعددة الأدوار، قم دائمًا بتمكين الاهتمام بالصفحات لتحسين استخدام الذاكرة. وهذا يقلل من تكلفة الذاكرة ويمنع أخطاء نفاد الذاكرة أثناء الاستدلال.

4. ضبط التوازي بشكل دقيق لإعدادات وحدات معالجة الرسومات المتعددة

عند نشر LLMs عبر وحدات معالجة الرسوميات أو العقد المتعددة، من الضروري ضبط الإعدادات بدقة التوازي الموتر و موازية خط الأنابيب لتتناسب مع عبء العمل المحدد لديك. يمكن أن يؤدي تكوين هذه الأوضاع بشكل صحيح إلى تحسينات كبيرة في الأداء من خلال توزيع الحمل الحسابي بالتساوي عبر وحدات معالجة الرسومات.

وفي الختام

يمثل TensorRT-LLM تحولاً جذريًا في تحسين ونشر نماذج اللغات الكبيرة. بفضل ميزاته المتقدمة مثل التكميم ودمج العمليات ودقة FP8 ودعم وحدات معالجة الرسومات المتعددة، يمكّن TensorRT-LLM نماذج اللغات الكبيرة من العمل بشكل أسرع وأكثر كفاءة على وحدات معالجة الرسومات NVIDIA. سواء كنت تعمل على تطبيقات الدردشة في الوقت الفعلي أو أنظمة التوصية أو نماذج اللغات الكبيرة الحجم، يوفر TensorRT-LLM الأدوات اللازمة لتجاوز حدود الأداء.

لقد إرشادك هذا الدليل إلى كيفية إعداد TensorRT-LLM، وتحسين النماذج باستخدام واجهة برمجة التطبيقات Python، والنشر على Triton Inference Server، وتطبيق أفضل الممارسات للاستدلال الفعّال. باستخدام TensorRT-LLM، يمكنك تسريع أحمال عمل الذكاء الاصطناعي لديك، وتقليل زمن الوصول، وتقديم حلول LLM قابلة للتطوير لبيئات الإنتاج.

لمزيد من المعلومات، يرجى الرجوع إلى الموقع الرسمي توثيق TensorRT-LLM و توثيق خادم الاستدلال Triton.

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.