Lãnh đạo tư tưởng

Tại Sao Mô Hình Trí Tuệ Nhân Tạo Có Khả Năng Nhất Hiếm Khi Là Lựa Chọn Đúng Cho Ứng Dụng Của Bạn

mm
Hand selecting a glowing AI model cube from multiple options in a modern tech office, symbolizing strategic AI model selection.

Có một sự thoải mái khi chọn mô hình mạnh nhất. Khi bạn xây dựng một sản phẩm được hỗ trợ bởi trí tuệ nhân tạo, nó cảm thấy có trách nhiệm (gần như logic) khi chọn mô hình mạnh nhất có sẵn. GPT-4o. Claude Opus. Gemini Ultra. Đây là những công nghệ ấn tượng, và không ai bị sa thải khi chọn công cụ thông minh nhất trong phòng.

Tuy nhiên, có một điều khoản. Các dự án trở nên phình to. Chi phí tăng vọt. Độ trễ xuất hiện. Và vào khoảng tháng thứ ba, nhóm bắt đầu đặt ra những câu hỏi khó chịu về lý do tại sao một tính năng tự động hoàn thành đơn giản lại tiêu thụ tín dụng API như một công ty khởi nghiệp có vốn đầu tư mạo hiểm và không có trách nhiệm.

Điều quan trọng là: “khả năng nhất” và “phù hợp nhất” là hai tiêu chuẩn rất khác nhau. Các nhà cung cấp dịch vụ phát triển ứng dụng trí tuệ nhân tạo chọn mô hình dựa trên đánh giá, không phải dựa trên xếp hạng bảng xếp hạng.

Kích Cỡ Lớn Không Tự Động Là Tốt Hơn

Một mô hình tiền phong hoạt động đặc biệt tốt trong điều kiện lý tưởng nhưng tốn kém để vận hành, xử lý đầu vào không hoàn hảo kém, và vượt quá yêu cầu cho các nhiệm vụ đơn giản.

GPT-4o có thể viết thơ, lý luận thông qua hợp đồng pháp lý, gỡ lỗi mã, và giải thích sự giao thoa lượng tử cho một đứa trẻ mười tuổi, đôi khi trong cùng một phản hồi. Đó thực sự là đáng chú ý. Nhưng nếu ứng dụng của bạn đang tóm tắt vé hỗ trợ khách hàng hoặc trích xuất dữ liệu cấu trúc từ hóa đơn, bạn đang trả tiền cho các khả năng không được sử dụng.

Các mô hình nhỏ hơn, chuyên dụng xử lý các nhiệm vụ tập trung với độ chính xác ấn tượng:

  • GPT-4o mini bao phủ hầu hết các nhiệm vụ ngôn ngữ tại khoảng 15 lần thấp hơn chi phí so với GPT-4o
  • Claude Haiku được xây dựng cho tốc độ và hiệu quả trên các khối lượng công việc cấu trúc cao
  • Mistral 7B và Llama 3.1 8B là các lựa chọn mã nguồn mở chạy nhanh và tinh chỉnh tốt

Khoảng cách giữa những mô hình này và các mô hình tiền phong giảm đáng kể khi nhiệm vụ hẹp và các lời nhắc được thiết kế tốt.

Toán Học Chi Phí Không Ai Nói Về Trong Các Cuộc Họp Lập Kế Hoạch

Giá API cho các mô hình tiền phong có thể chạy 10 đến 30 lần cao hơn mỗi token so với các mô hình nhẹ hơn. Khoảng cách đó nghe có vẻ trừu tượng cho đến khi bạn mô hình hóa nó theo quy mô.

Hãy nói ứng dụng của bạn thực hiện 500.000 cuộc gọi API mỗi tháng:

Mô Hình Chi Phí Tháng Dự Kiến
GPT-4o $1,500 – $3,000
GPT-4o mini $150 – $300
Claude Haiku $125 – $250

Cùng một tính năng. Câu chuyện biên độ rất khác nhau.

Một số nhóm chạy kiến trúc lai, định tuyến các nhiệm vụ phân loại đơn giản đến các mô hình nhẹ trong khi dành các mô hình nặng hơn cho các bước tạo hoặc lý luận phức tạp. Các công ty như Martian và RouteLLM đã xây dựng công cụ cụ thể cho loại định tuyến mô hình này. Nó không phải là kỹ thuật glamor, nhưng nó là loại thứ mà làm cho các giám đốc tài chính trở nên thoải mái hơn.

Độ Trễ Là Một Vấn Đề Về Trải Nghiệm Người Dùng

Có một lý do tại sao thức ăn nhanh tồn tại. Người dùng không luôn muốn bữa ăn năm món.

Các mô hình tiền phong chậm hơn. Không phải lúc nào cũng chậm, nhưng đủ để quan trọng trong các ứng dụng thời gian thực. Nếu người dùng của bạn đang chờ đợi phản hồi trí tuệ nhân tạo trong giao diện trò chuyện, giao diện trò chuyện, hoặc trợ lý mã hóa trực tiếp, độ trễ phản hồi trực tiếp định hình cách sản phẩm cảm nhận. Một mô hình mất 4-6 giây để phản hồi bắt đầu cảm thấy không đáng tin cậy, ngay cả khi đầu ra kỹ thuật là vượt trội.

Qui tắc ngón tay: Nếu người dùng nhìn thấy biểu tượng tải, mỗi giây thêm giảm niềm tin.

Haiku, Mistral, và Llama 3.1 8B chạy nhanh hơn đáng kể (thỉnh thoảng 3 đến 5 lần nhanh hơn) dưới các điều kiện tải tương tự. Đối với các tính năng hướng người dùng mà tốc độ cảm nhận quan trọng, đây không phải là một yếu tố nhỏ. Đó là một quyết định sản phẩm.

Biến Số Kỹ Thuật Lời Nhắc (Thay Đổi Mọi Thứ)

Đây là điều gì đó bị bỏ qua trong các luồng so sánh mô hình: một lời nhắc được thiết kế tốt trên một mô hình nhỏ hơn thường đánh bại một lời nhắc lười biếng trên một mô hình tiền phong.

Chất lượng đầu ra là sản phẩm của khả năng mô hình VÀ chất lượng lời nhắc. Khi các nhóm đầu tư vào kỹ thuật lời nhắc (hướng dẫn rõ ràng, định dạng đầu ra cấu trúc, ví dụ vài lần, ràng buộc rõ ràng) các mô hình nhỏ hơn hoạt động远 trên trần của chúng.

Một số công cụ đáng biết ở đây:

  • LangChain và DSPy để tạo và tối ưu hóa đường ống lời nhắc
  • Guidance cho việc tạo và đầu ra cấu trúc
  • PromptFoo để chạy đánh giá lời nhắc hệ thống trên các mô hình

Một số tính năng trí tuệ nhân tạo ấn tượng nhất trong sản xuất ngày nay đang chạy trên các mô hình không thể vào top 5 trên bất kỳ bảng xếp hạng khả năng nào. Chúng chỉ chạy trên các lời nhắc thực sự tốt.

Tinh Chỉnh Thay Đổi Phương Trình

So sánh giữa một mô hình tiền phong chung và một mô hình mã nguồn mở nhỏ hơn trông rất khác một lần khi tinh chỉnh tham gia vào bức tranh. Một mô hình Llama 3.1 8B tinh chỉnh trên dữ liệu miền cụ thể của bạn (từ vựng của bạn, các trường hợp cạnh của bạn, định dạng đầu ra ưa thích của bạn) có thể vượt qua GPT-4o trên nhiệm vụ cụ thể của bạn.

Điều này không phải là giả thuyết. Các công ty trong chăm sóc sức khỏe, công nghệ pháp lý và thương mại điện tử đã chứng minh nó lặp lại.

Nơi để bắt đầu với tinh chỉnh:

  • Hugging Face cho lưu trữ mô hình mã nguồn mở, tập dữ liệu và cơ sở hạ tầng đào tạo
  • Together AI cho các chạy tinh chỉnh nhanh và tiết kiệm trên các mô hình mã nguồn mở phổ biến
  • Replicate để triển khai mô hình tùy chỉnh mà không cần quản lý cơ sở hạ tầng GPU của riêng bạn

Tinh chỉnh yêu cầu đầu tư ban đầu: thu thập dữ liệu, thời gian tính toán và công việc đánh giá. Nhưng đối với các nhiệm vụ khối lượng lớn, miền cụ thể, kinh tế thường hoạt động đáng kể theo lợi ích của nó.

Bảo Mật Và Nơi Cư Trú Dữ Liệu Không Phải Là Những Điều Sau Cùng

Một số ứng dụng không thể gửi dữ liệu đến các API của bên thứ ba. Hãy xem xét:

  • Nền tảng chăm sóc sức khỏe hoạt động dưới HIPAA
  • Công cụ tài chính xử lý PII hoặc dữ liệu giao dịch quy định
  • Phần mềm doanh nghiệp có yêu cầu cư trú dữ liệu nghiêm ngặt

Những môi trường này có các ràng buộc mà không mô hình tiền phong API nào có thể làm việc xung quanh, bất kể khả năng. Mô hình tự lưu trữ, dù trên cơ sở hoặc trong đám mây riêng, là con đường duy nhất đi tiếp. Điều đó có nghĩa là các mô hình mã nguồn mở như Llama 3, Mistral hoặc Phi-3 chạy trên cơ sở hạ tầng của riêng bạn. Một mô hình tiền phong mà bạn không thể sử dụng hợp pháp trong sản xuất không phải là lựa chọn đúng, đầy đủ.

Bước Đánh Giá Mà Các Nhóm Thường Bỏ Qua

Hầu hết các nhóm chọn mô hình bằng cách giả định mô hình đắt tiền nhất là tốt nhất mà không cần kiểm tra. Điều họ nên làm là chạy các đánh giá có cấu trúc trên các mẫu đại diện của trường hợp sử dụng thực tế của họ.

Đây là một quy trình hoạt động:

  1. Xây dựng một tập đánh giá gồm 100 đến 200 đầu vào đại diện với đầu ra dự kiến
  2. Chạy chúng qua hai hoặc ba mô hình ứng viên dưới các điều kiện thực tế
  3. Đánh giá dựa trên các tiêu chí thực của bạn: độ chính xác, tuân thủ định dạng, giọng điệu, độ trễ, chi phí mỗi cuộc gọi
  4. Quyết định dựa trên dữ liệu, không phải cảm giác trực giác hoặc xếp hạng bảng xếp hạng

Các công cụ như Braintrust, PromptFoo và Weights & Biases Prompts làm cho loại đánh giá hệ thống này có thể tiếp cận mà không cần nền tảng nghiên cứu. Nó mất vài giờ để thiết lập. Phần thưởng là không chọn mô hình sai trong sáu tháng.

Khi Mô Hình Tiền Phong Thực Sự Là Lựa Chọn Đúng

Để công bằng: có những nhiệm vụ mà mô hình tiền phong thực sự xứng đáng với giá của chúng.

Sử dụng mô hình tiền phong khi:

  • Nhiệm vụ yêu cầu lý luận đa bước phức tạp với không có mẫu rõ ràng
  • Chất lượng đầu ra thay đổi và khối lượng tương đối thấp
  • Bạn cần kiến thức thế giới rộng hoặc phán đoán tinh vi mà không thể được nhắc nhở
  • Bạn đang tạo mẫu và chưa định nghĩa ranh giới nhiệm vụ

Dính vào mô hình nhẹ hơn khi:

  • Nhiệm vụ được định nghĩa rõ ràng và lặp lại
  • Tốc độ và chi phí quan trọng ở khối lượng bạn đang chạy
  • Bạn có thể đầu tư vào kỹ thuật lời nhắc hoặc tinh chỉnh
  • Quy tắc cư trú dữ liệu hoặc tuân thủ loại bỏ API của bên thứ ba

Điểm không phải là tránh các mô hình mạnh mẽ. Điểm là chọn một cách có chủ ý, với bằng chứng, chứ không phải mặc định chọn mô hình lớn nhất trên bảng xếp hạng vì nó cảm thấy như một lựa chọn an toàn.

Tổng Kết

Chọn mô hình trí tuệ nhân tạo cho ứng dụng của bạn không nên cảm thấy như một cuộc thi uy tín. Mô hình có khả năng nhất trên giấy không phải lúc nào cũng là mô hình đúng cho vấn đề của bạn, hoặc thường là như vậy.

Khớp mô hình với nhiệm vụ. Chạy đánh giá trên dữ liệu thực. Nhập độ trễ, chi phí, yêu cầu bảo mật và khả năng kỹ thuật lời nhắc hoặc tinh chỉnh của nhóm bạn. Các quyết định sản phẩm trí tuệ nhân tạo tốt nhất được dựa trên những chi tiết cụ thể, không phải dựa trên công ty nào đã xuất bản các số liệu flashiest vào quý trước.

Các nhóm đang vận chuyển các sản phẩm trí tuệ nhân tạo tuyệt vời không nhất thiết phải chạy các mô hình mạnh nhất. Họ đang chạy các mô hình phù hợp nhất.

David Balaban là một nhà nghiên cứu bảo mật máy tính với hơn 17 năm kinh nghiệm trong phân tích malware và đánh giá phần mềm chống vi-rút. David điều hành các dự án MacSecurity.net Privacy-PC.com trình bày ý kiến chuyên gia về các vấn đề bảo mật thông tin đương đại, bao gồm kỹ thuật xã hội, malware, kiểm tra thâm nhập, thông tin về mối đe dọa, quyền riêng tư trực tuyến và hacking mũ trắng. David có nền tảng mạnh mẽ về khắc phục sự cố malware, với trọng tâm gần đây là các biện pháp đối phó với ransomware.