Connect with us

Συνεντεύξεις

Avi Baum, CTO tại Hailo – Interview Series

mm

Avi Baum, CTO tại Hailo, dẫn dắt tầm nhìn công nghệ và đổi mới sản phẩm của công ty. Ông trước đây từng giữ vị trí CTO về Kết nối không dây tại Texas Instruments, thúc đẩy các chiến lược cho các MCU kết nối trong thị trường IoT và IIoT, và từng giữ các vị trí kiến trúc và lãnh đạo cấp cao trong Lực lượng Phòng vệ Israel.

Hailo là một công ty AI-chip của Israel chuyên về các bộ xử lý AI cạnh hiệu suất cao, tiêu thụ điện năng thấp cho các ứng dụng như xe tự hành, máy ảnh thông minh và robot, được hỗ trợ bởi một bộ phần mềm toàn diện và hệ sinh thái đối tác toàn cầu.

Bạn có thể chia sẻ điều gì đã thu hút bạn đến lĩnh vực AI cạnh và những kinh nghiệm kỹ sư đầu tiên của bạn đã định hình tư duy của bạn về thiết kế bộ xử lý như thế nào?

Con đường sự nghiệp của tôi đã dẫn tôi đến các lĩnh vực thị trường mới nổi. Trong thời gian tôi làm việc tại TI (Texas Instruments), một nhà lãnh đạo bán dẫn với di sản lâu đời, tôi đã có cơ hội dẫn đầu thiết kế và kiến trúc cấp hệ thống, đứng đầu bộ phận định nghĩa sản phẩm và sau đó là CTO của bộ phận này. Điều này đã dẫn tôi đến việc liên tục khám phá các công nghệ mới có khả năng định hình ‘tương lai không xa’.

Khi chúng tôi thành lập Hailo vào năm 2017, rõ ràng là AI, đã bắt đầu phát triển mạnh trong đám mây, cũng có tiềm năng trở thành một công nghệ cho phép các thiết bị cạnh. Vì vậy, chúng tôi đã bắt đầu hành trình này.

Khi AI tạo ra mở rộng tại cạnh, tại sao TOPS – tera hoạt động mỗi giây – không còn là một chuẩn mực đủ để đánh giá hiệu suất bộ xử lý?

TOPS đã từng là chuẩn mực để đánh giá phần cứng AI, nhưng trong kỷ nguyên AI tạo ra tại cạnh, nó không còn đủ. Bản chất của các mô hình cổ điển là dịch nhiều dữ liệu thành những thông tin có ý nghĩa, vì vậy lượng tính toán cần thiết để xử lý dữ liệu đầu vào tăng lên cùng với lượng dữ liệu cần được xử lý. Các mô hình cho các nhiệm vụ này thường nhỏ hơn so với lượng dữ liệu chúng xử lý, khiến băng thông truy cập vào các tham số mô hình tương đối không đáng kể.

Tuy nhiên, các mô hình tạo ra lại lớn hơn đáng kể – trong lĩnh vực tỷ tham số, và trong những trường hợp này, băng thông bộ nhớ trở thành một yếu tố không thể bỏ qua.

Thay vì chỉ tập trung vào TOPS, điều quan trọng là phải đánh giá cách một bộ xử lý cân bằng giữa tính toán và bộ nhớ trong các điều kiện thực tế. Không phải là về việc theo đuổi con số cao nhất; mà là về việc tinh chỉnh kiến trúc cho các tải công việc nó cần xử lý.

Tại sao băng thông bộ nhớ bây giờ trở thành một nút thắt hơn là tính toán trong các tải công việc AI cạnh, đặc biệt là cho LLM và VLM?

Đối với các tải công việc AI cạnh, đặc biệt là những tải công việc liên quan đến LLM hoặc VLM, băng thông bộ nhớ đang nhanh chóng trở thành nút thắt chính. Các mô hình này thường nằm trong khoảng từ 0,5 đến 8 tỷ tham số, vượt quá khả năng của bộ nhớ trên chip và yêu cầu truy cập vào bộ nhớ ngoài như DRAM. Điều này làm tăng đáng kể nhu cầu về băng thông bộ nhớ. Ví dụ, một mô hình 1 tỷ tham số có thể cung cấp lên đến ~40 token mỗi giây trong điều kiện tối ưu với giao diện LPDDR4X tiêu chuẩn, nhưng để duy trì tốc độ này với mô hình 4 tỷ tham số, cần hơn bốn lần băng thông. Nếu không, hiệu suất sẽ bị ảnh hưởng, không phải vì tính toán hạn chế, mà vì bộ xử lý không thể cung cấp dữ liệu đủ nhanh. Sự mất cân bằng giữa tính toán và bộ nhớ là một trong những thách thức lớn nhất trong việc triển khai AI tạo ra tại cạnh. Điều này được khuếch đại trong các kiến trúc tính toán từng lớp, nơi các kết quả trung gian cũng làm tăng lưu lượng bộ nhớ và căng thẳng băng thông.

Làm thế nào các nhóm sản phẩm nên suy nghĩ lại chiến lược chuẩn mực của họ khi thiết kế cho các ứng dụng cạnh thực tế?

Các nhóm sản phẩm nên chuyển khỏi việc dựa vào một chỉ số hiệu suất duy nhất như TOPS và thay vào đó áp dụng một chiến lược chuẩn mực phản ánh thực tế của việc triển khai cạnh. Điều đó bắt đầu bằng việc hiểu trường hợp sử dụng cụ thể, tải công việc thực tế mà bộ xử lý cần xử lý, và xác định ‘điểm làm việc’: giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ. Từ đó, việc đánh giá cách tính toán và bộ nhớ tương tác trong các điều kiện đó trở nên quan trọng. Một bộ xử lý có TOPS cao sẽ không mang lại hiệu quả nếu băng thông bộ nhớ bị hạn chế, và nhiều bộ nhớ hơn sẽ không giúp đỡ nếu khả năng tính toán là không đủ.

Các nhóm nên đánh giá liệu bộ xử lý có thể duy trì hiệu suất trên các nhiệm vụ như tải công việc nhận thức, tăng cường và tạo ra, mỗi nhiệm vụ có những yêu cầu khác nhau. Mục tiêu không phải là tối ưu hóa cho thông số kỹ thuật đỉnh, mà là đảm bảo hiệu suất cân bằng trên toàn bộ phạm vi các trường hợp sử dụng dự kiến trong môi trường thực tế.

Đây là một sự chuyển đổi tự nhiên từ các biện pháp ‘tiệt trùng’ sang các phương pháp tinh vi hơn phản ánh cách các nền tảng được sử dụng và cách chúng được đánh giá – tương tự như những gì đã xảy ra với các kiến trúc khác đã trở thành chủ đạo (ví dụ: SPEC, Coremark, 3DMark, v.v.).

Làm thế nào các ràng buộc về năng lượng và chi phí ảnh hưởng đến các quyết định kiến trúc đằng sau các bộ xử lý Hailo, đặc biệt là cho các thiết bị cạnh hướng đến người tiêu dùng?

Năng lượng và chi phí là hai trong số các ràng buộc quan trọng nhất khi thiết kế bộ xử lý AI cho các thiết bị cạnh, đặc biệt là trong các sản phẩm hướng đến người tiêu dùng. Trong các thiết bị紧凑 như cảm biến IoT hoặc trợ lý thông minh tại nhà, ngân sách năng lượng rất chặt chẽ, và thường không có làm mát chủ động, vì vậy hiệu suất năng lượng trở nên quan trọng. Mỗi tài nguyên tính toán hoặc bộ nhớ bổ sung thêm đều tăng tiêu thụ năng lượng và nhiệt, điều này trực tiếp ảnh hưởng đến khả năng sử dụng và tuổi thọ pin.

Chi phí cũng có ảnh hưởng tương tự. Các thiết bị người tiêu dùng phải nằm trong các điểm giá cạnh tranh, có nghĩa là bộ xử lý chỉ có thể bao gồm một lượng TOPS và bộ nhớ nhất định trước khi nó trở nên không khả thi về mặt kinh tế. Những ràng buộc này buộc phải có những quyết định kiến trúc khó khăn. Tại Hailo, chúng tôi ưu tiên các thiết kế cung cấp sự cân bằng giữa tính toán và bộ nhớ để đáp ứng nhu cầu ứng dụng thực tế trong một khoảng thời gian chặt chẽ về năng lượng và chi phí, đảm bảo AI cạnh trở nên khả thi, hiệu quả và có thể mở rộng trên một loạt các sản phẩm người tiêu dùng.

Bạn có thể giải thích cách định nghĩa một ‘điểm làm việc’ cho một ứng dụng và tại sao điều đó lại quan trọng đến vậy trong việc triển khai AI cạnh?

Định nghĩa ‘điểm làm việc’ là một trong những bước quan trọng nhất khi thiết kế một hệ thống. Nó đề cập đến giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ định hình những gì có thể đạt được trong một triển khai cụ thể. Không giống như trong đám mây, nơi bạn có thể ném thêm tính toán hoặc bộ nhớ vào một vấn đề, các thiết bị cạnh hoạt động trong một khoảng thời gian cố định. Điều đó có nghĩa bạn phải đưa ra những quyết định giao dịch dựa trên yêu cầu thực tế của ứng dụng. Ví dụ, một cảm biến IoT có thể ưu tiên hiệu suất năng lượng hơn hiệu suất thô, trong khi một hệ thống tự hành có thể yêu cầu độ trễ cực thấp bất kể tiêu thụ năng lượng. Một khi điểm làm việc được thiết lập, bạn có thể đánh giá liệu bộ xử lý có sự cân bằng giữa tính toán và bộ nhớ để đáp ứng nhu cầu đó. Không phải là về việc tối đa hóa thông số kỹ thuật theo mọi hướng; mà là về việc đảm bảo hiệu suất ổn định và tin cậy trong các điều kiện thực tế mà ứng dụng sẽ đối mặt.

Generally, điểm làm việc là nơi bạn muốn các chỉ số hiệu suất chính ở mức tối ưu. Việc không thực hiện như vậy có thể dẫn đến hoạt động dưới mức tối ưu trong hầu hết các kịch bản sử dụng thông thường của nền tảng.

Ví dụ đơn giản, bạn có thể tạo một hệ thống phân tích AI cực kỳ hiệu quả khi đầu vào ở độ phân giải rất cao, nhưng nếu hệ thống này được triển khai trong các hệ thống không bao giờ đạt được độ phân giải này, thì tối ưu hóa này trở nên vô nghĩa.

Đối với video, audio và ngôn ngữ thường được kết hợp trong các thiết bị hiện đại, bạn tiếp cận tối ưu hóa trên các mô hình đa phương thức như thế nào?

Các mô hình đa phương thức đòi hỏi sự cân bằng cẩn thận giữa tài nguyên tính toán và bộ nhớ. Mỗi phương thức gây áp lực lên hệ thống theo cách khác nhau: video là tính toán đòi hỏi do độ phân giải cao và tốc độ khung hình, trong khi ngôn ngữ và âm thanh đòi hỏi nhiều băng thông bộ nhớ hơn. Trong các ứng dụng như xử lý ngôn ngữ-hình ảnh, sự phân chia này trở nên rõ ràng (mặc dù điều này không phải là một bảo đảm nhưng là một kịch bản điển hình): xử lý video đẩy tính toán, trong khi mô hình ngôn ngữ có thể nhanh chóng gặp phải các nút thắt bộ nhớ.

Chúng tôi tiếp cận tối ưu hóa bằng cách xem xét cách các tải công việc này tương tác trên toàn bộ đường ống và đảm bảo bộ xử lý được thiết kế để hỗ trợ chúng đồng thời, mà không để một phương thức nào đó ảnh hưởng đến hiệu suất của phương thức khác.

Làm thế nào việc tăng kích thước mô hình tại cạnh làm phức tạp độ trễ và tiêu thụ năng lượng, và vai trò của kiến trúc cấp hệ thống trong việc giải quyết vấn đề đó là gì?

Khi kích thước mô hình tăng tại cạnh, độ trễ và tiêu thụ năng lượng trở nên khó quản lý hơn. Các mô hình lớn hơn phụ thuộc nhiều hơn vào bộ nhớ ngoài, điều này làm tăng cả tiêu thụ năng lượng và độ trễ, đặc biệt là khi băng thông bộ nhớ trở thành một nút thắt. Ví dụ, việc mở rộng từ mô hình 1 tỷ tham số đến 4 tỷ tham số sẽ yêu cầu hơn bốn lần băng thông để duy trì hiệu suất相同 – nhưng trong thực tế, hiệu suất không tăng tuyến tính do các ràng buộc về băng thông và cấp hệ thống.

Điều quan trọng không chỉ là có TOPS cao hoặc bộ nhớ lớn; mà là cách các thành phần này tương tác. Một thiết kế cân bằng đảm bảo tính toán, bộ nhớ và băng thông hoạt động hiệu quả cùng nhau, ngăn chặn một tài nguyên nào đó hạn chế toàn bộ hệ thống.

Làm thế nào Hailo thiết kế để tương lai hóa -考虑 đến việc các mô hình AI, tải công việc và yêu cầu triển khai đang phát triển nhanh như thế nào?

Tương lai hóa trong AI cạnh có nghĩa là thiết kế các bộ xử lý có thể xử lý một loạt các tải công việc đang phát triển. Tại Hailo, chúng tôi tập trung vào các kiến trúc cân bằng không được thiết kế cho chỉ một nhiệm vụ mà có thể hỗ trợ mọi thứ từ các chức năng nhận thức như phát hiện đối tượng đến các mô hình tạo ra như VLM. Mỗi loại tải công việc gây áp lực lên tính toán và bộ nhớ theo cách khác nhau, vì vậy chúng tôi thiết kế để linh hoạt, tránh các nút thắt khi chuyển đổi giữa chúng. Chúng tôi cũng tính đến các giới hạn thực tế về năng lượng, chi phí và độ trễ trên các ứng dụng. Bằng cách ưu tiên sự đa dạng của tải công việc và cân bằng tài nguyên, chúng tôi nhằm mục đích hỗ trợ thế hệ tiếp theo của các triển khai AI cạnh trên cả các trường hợp sử dụng người tiêu dùng và công nghiệp.

Tuy nhiên, một kích thước không thể phù hợp với tất cả, và danh mục mục tiêu của chúng tôi nhắm vào các ứng dụng và cố gắng phù hợp trong ngân sách có sẵn của, ví dụ, năng lượng, yếu tố hình thức và điều đó định nghĩa một ‘điểm làm việc’.

Vai trò của hệ sinh thái nhà phát triển trong việc tối đa hóa giá trị của một bộ xử lý là gì, và bạn đang đảm bảo các nhóm có thể tận dụng đầy đủ khả năng của Hailo như thế nào?

Là một thiết bị có thể lập trình, điều quan trọng là phải có các công cụ dễ sử dụng cho các nhà phát triển để tận dụng khả năng của bộ xử lý, rút ngắn con đường đến triển khai và cho phép các trường hợp sử dụng mới. Bằng cách cung cấp một môi trường được hỗ trợ tốt xung quanh các bộ xử lý của chúng tôi, chúng tôi giúp các nhóm đưa các ứng dụng AI đến cuộc sống trên một loạt các trường hợp sử dụng.

Lời khuyên bạn sẽ đưa ra cho các kỹ sư hoặc CTO khi chọn bộ gia tốc AI đầu tiên cho một sản phẩm thế hệ tiếp theo đang được xây dựng ngày hôm nay?

Trong một môi trường đang thay đổi nhanh chóng, tôi tin rằng có rất nhiều tiềm năng cho sự đổi mới, cho phép chúng ta chuyển đổi tưởng tượng thành sản phẩm thực tế. Việc chọn một bộ gia tốc cho phép chu kỳ từ khái niệm đến triển khai nhanh chóng là rất quan trọng.

Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Hailo.

Ο Antoine είναι ένας οραματιστής ηγέτης και συνιδρυτής του Unite.AI, οδηγείται από μια αμετάβλητη страсть για το σχήμα και την προώθηση του μέλλοντος του AI και της ρομποτικής. Ένας σειριακός επιχειρηματίας, πιστεύει ότι το AI θα είναι τόσο διαταρακτικό για την κοινωνία όσο η ηλεκτρική ενέργεια, και συχνά πιάνεται να μιλάει για το δυναμικό των διαταρακτικών τεχνολογιών και του AGI.

Ως futurist, είναι αφοσιωμένος στο να εξερευνήσει πώς αυτές οι καινοτομίες θα σχήματίσουν τον κόσμο μας. Επιπλέον, είναι ο ιδρυτής του Securities.io, μια πλατφόρμα που επικεντρώνεται στις επενδύσεις σε τεχνολογίες που αναedefinουν το μέλλον και ανασχήματίσουν ολόκληρους τομείς.