Lãnh đạo tư tưởng
Cầu nối giữa Cơ sở hạ tầng và Các đội sản phẩm: Bài học rút ra từ việc xây dựng Nền tảng GenAI

Không có gì nghi ngờ về nó: Trí tuệ nhân tạo tạo sinh, hoặc GenAI, là chủ đề được quan tâm nhất, và đã được như vậy trong vài năm qua. Cho dù mục tiêu là tự động hóa các quy trình, tạo ra các thiết kế sản phẩm mới, tạo nội dung, hoặc bất kỳ tính năng nào khác trên các lĩnh vực, bây giờ là thời điểm để các tổ chức bắt đầu thực hiện công việc quan trọng nhất và đưa chiến lược GenAI của họ vào hoạt động.
Sự thành công của GenAI, bao gồm các công việc từ nghiên cứu đến đào tạo và cuối cùng là suy luận, phụ thuộc vào sự phối hợp chặt chẽ về việc triển khai, quan sát, quản lý chi phí, telemetry và mục tiêu độ trễ của cơ sở hạ tầng và dịch vụ cơ bản. Những điều này giúp thúc đẩy mức hiệu suất có thể đạt được cho khối lượng công việc AI, đảm bảo sự cân bằng hiệu quả giữa tính toán và truyền thông, đảm bảo rằng GPU luôn có dữ liệu cần thiết.
Thách thức là thường có một khoảng cách cấu trúc: Kỹ thuật cơ sở hạ tầng tập trung vào ngăn xếp tính toán và triển khai, trong khi các đội phần mềm và sản phẩm tập trung vào xây dựng các ứng dụng hướng đến người dùng mang GenAI vào thế giới thực. Khi các nhóm này không được sắp xếp đầy đủ, điều này thường dẫn đến việc trì hoãn giao hàng, vấn đề hiệu suất và vấn đề sử dụng.
Vậy, khoảng cách này trông như thế nào trong thế giới thực, và những chiến lược nào mà các tổ chức có thể sử dụng để sắp xếp cơ sở hạ tầng và các đội sản phẩm cho sự thành công của GenAI?
Các vấn đề với sự không sắp xếp
Khi các đội cơ sở hạ tầng và sản phẩm không được sắp xếp, các triệu chứng thường rõ ràng, nhưng không phải lúc nào cũng được giải quyết kịp thời. Một đặc điểm của các đội không đồng bộ là giả định không khớp về kỳ vọng độ trễ hoặc khả năng của mô hình. Ví dụ, các đội kỹ thuật cơ sở hạ tầng có thể lập kế hoạch các tính năng hoặc triển khai假 định mức hiệu suất mà thiết kế cơ sở hạ tầng thực tế không khớp. Điều này dẫn đến việc làm lại muộn, thay đổi phạm vi và trì hoãn giao hàng.
Sự không sắp xếp cũng có thể dẫn đến hiệu suất kém do triển khai trên cơ sở hạ tầng không được tối ưu hóa, điều này thể hiện ở sự thay đổi độ trễ và vấn đề khả năng mở rộng ảnh hưởng đến hiệu suất của công việc đào tạo hoặc suy luận phân tán lớn. Các rủi ro bảo mật và tuân thủ hạ游 cũng là đặc điểm của sự không sắp xếp giữa các đội, vì sự thiếu hợp tác sớm giữa hai đội có nghĩa là các yêu cầu về quyền riêng tư và tuân thủ dữ liệu có thể bị bỏ qua.
Và cuối cùng, sự không sắp xếp giữa các đội dẫn đến trải nghiệm người dùng kém, điều này khiến các đội kỹ thuật cơ sở hạ tầng phải tìm cách giải quyết khi các ràng buộc không rõ ràng, làm chậm các chu kỳ lặp lại và tăng nợ kỹ thuật. Tất nhiên, sự không sắp xếp giữa các đội sản phẩm và cơ sở hạ tầng có thể tốn kém trong bất kỳ dự án phần mềm nào, nhưng với GenAI đặc biệt, các ставки cao hơn – tăng hiệu suất hoạt động không hiệu quả, xói mòn lợi thế cạnh tranh và rủi ro bảo mật trong số đó.
Cầu nối đến thành công
Sự thành công của GenAI không chỉ phụ thuộc vào việc có cơ sở hạ tầng mạnh mẽ mà còn trên việc tạo ra một khuôn khổ chiến thuật liên kết các quy trình cơ sở hạ tầng và sản phẩm. Hãy lấy, ví dụ, ý tưởng về các API tự phục vụ nội bộ cho việc cung cấp GPU. Đối với các đội cơ sở hạ tầng, các API này tiêu chuẩn hóa quyền truy cập, giảm lượng vé và đảm bảo tuân thủ; đối với các đội sản phẩm, chúng cung cấp quyền truy cập nhanh chóng và có thể dự đoán được vào tính toán mà không cần chờ trong hàng. Kết quả là cả hai nhóm làm việc từ cùng một “hợp đồng” API, loại bỏ các nút thắt và làm rõ các kỳ vọng.
Các bảng điều khiển sử dụng thực tế theo thời gian thực đóng vai trò tương tự. Chúng cung cấp cho các kỹ sư cơ sở hạ tầng khả năng hiển thị vào tải hệ thống và hiệu suất trong khi đồng thời hiển thị cho các đội sản phẩm cách các khối lượng công việc của họ chuyển thành tiêu thụ thực tế. Bởi vì cả hai bên nhìn thấy cùng một dữ liệu, các cuộc thảo luận về hiệu suất hoặc các nút thắt trở nên hợp tác và ít đối đầu hơn – có một nguồn thông tin duy nhất.
Tự động mở rộng quy mô là một cơ chế thống nhất khác. Nó giải phóng các kỹ sư cơ sở hạ tầng khỏi việc chiến đấu liên tục trong khi đảm bảo rằng các nhà phát triển sản phẩm không gặp phải các giới hạn hiệu suất trong thời gian cao điểm của khối lượng công việc. Điều mà có thể trở thành một cuộc chiến giữa sự ổn định và tính linh hoạt trở thành một chiến lược chung: Quy mô được quản lý tự động, phù hợp với cả mục tiêu hiệu suất hoạt động và sản phẩm.
Cuối cùng, các thông tin chi phí thêm một chiều tài chính vào tầm nhìn chung này. Các đội cơ sở hạ tầng có thể tối ưu hóa phân bổ và lập kế hoạch năng lực, trong khi các đội sản phẩm có được sự đánh giá cao về cách các lựa chọn kiến trúc hoặc mô hình của họ ảnh hưởng đến chi tiêu. Sự minh bạch này tạo ra trách nhiệm chung, biến hiệu suất thành trách nhiệm chung chứ không phải là mối quan tâm ẩn.
Nhưng sự sắp xếp đòi hỏi nhiều hơn chỉ là các công cụ được chia sẻ – nó cũng đòi hỏi tầm nhìn chung. Đây là nơi các bản đồ đường chung xuất hiện: Mỗi đội phải không chỉ hiểu các mục tiêu chung mà còn các bước cần thiết để đạt được chúng. Đối với cơ sở hạ tầng, điều đó có nghĩa là nhìn vượt ra ngoài gốc rễ kỹ thuật sâu sắc trong phần cứng và phần mềm để tham gia vào cách các nhà phát triển và người dùng cuối thực sự trải nghiệm hệ thống. Đối với các đội sản phẩm, điều đó đòi hỏi sự tôn trọng các ràng buộc như độ trễ, chi phí và hiệu suất mô hình, đánh giá cao các thực tế hoạt động làm cho sự đổi mới trở nên bền vững.
Cuối cùng, không có sự hợp tác nào có thể tồn tại mà không có cam kết chung về bảo mật và tuân thủ. Cho dù đó là SOC2, HIPAA, ISO hay các khuôn khổ khác áp dụng, các yêu cầu cụ thể thay đổi với cơ sở khách hàng và chiều dọc ngành – nhưng trách nhiệm được chia sẻ. Cả các đội cơ sở hạ tầng và sản phẩm đều phải nội hóa các nghĩa vụ này, nhận ra rằng tuân thủ không phải là một cuộc tập trận kiểm tra hộp mà là nền tảng của niềm tin với người dùng.
Khi đưa tất cả những thực tiễn và tâm trạng này lại với nhau, chúng dệt cơ sở hạ tầng và sản phẩm thành một đơn vị gắn kết, với ngôn ngữ chung, tầm nhìn chung và trách nhiệm chung cho tiến bộ, khả năng chống chịu và độ tin cậy.
Các đội có kiến thức
Có đúng người là vừa quan trọng như có đúng hệ thống. Lý tưởng nhất, các đội nên bao gồm các thành viên đã quen thuộc với GenAI, hoặc những người đến từ các nền tảng tính toán hiệu suất cao và trung tâm dữ liệu siêu quy mô. Điều thực sự quan trọng là kinh nghiệm thực tế và các bài học mà bạn chỉ có được từ việc xây dựng và hỗ trợ các nền tảng GPU-as-a-service. Điều đó có nghĩa là hiểu cách các GPU nói chuyện với nhau, cách các lần đào tạo liên kết chặt chẽ hoạt động, và cách chúng nhạy cảm với độ trễ, đồng bộ hóa và giao tiếp dữ liệu.
Khi các mô hình tiếp tục phát triển và các triển khai tăng quy mô, các đội cũng cần phải lùi lại và suy nghĩ về toàn bộ hành trình của khách hàng. Nó bắt đầu từ nghiên cứu và thử nghiệm sớm, chuyển sang đào tạo quy mô lớn, sau đó là tinh chỉnh và cuối cùng là suy luận. Mỗi giai đoạn trông hơi khác, và nhu cầu thay đổi dọc theo đường đi. Bản chất lặp lại của việc phát triển mô hình luôn dạy cho chúng ta những loại cơ sở hạ tầng, công việc và khả năng nào được yêu cầu để giữ cho một trung tâm dữ liệu GenAI phù hợp với mục đích.
Quá thường, các đội cơ sở hạ tầng và sản phẩm hoạt động trong các bong bóng riêng của họ. Đối với bất kỳ công ty nào nghiêm túc về việc mở rộng GenAI vào sản xuất, điều đó phải thay đổi. Sự thành công phụ thuộc vào việc phá vỡ các silo này và tạo ra quyền sở hữu chung của nền tảng. Với đúng người, tầm nhìn rõ ràng và khuôn khổ thực tế, cả hai bên có thể sắp xếp trên cùng một cuốn sách chơi – một cuốn sách giúp họ di chuyển nhanh hơn, duy trì trách nhiệm và cuối cùng cung cấp các triển khai GenAI thành công.






