Phỏng vấn
Avi Baum, CTO tại Hailo – Loạt Phỏng Vấn

Avi Baum, CTO tại Hailo, dẫn dắt tầm nhìn công nghệ và đổi mới sản phẩm của công ty. Ông trước đây từng giữ vị trí CTO về Kết nối Không dây tại Texas Instruments, thúc đẩy chiến lược cho các MCU kết nối trong thị trường IoT và IIoT, và từng giữ các vị trí kiến trúc và lãnh đạo cấp cao trong Lực lượng Phòng vệ Israel.
Hailo là một công ty AI-chip của Israel chuyên về các bộ xử lý AI cạnh hiệu suất cao, tiêu thụ điện năng thấp cho các ứng dụng như xe tự hành, máy ảnh thông minh và robot, được hỗ trợ bởi một bộ phần mềm toàn diện và hệ sinh thái đối tác toàn cầu.
Bạn có thể chia sẻ điều gì đã thu hút bạn đến lĩnh vực AI cạnh và cách những trải nghiệm kỹ sư đầu tiên của bạn đã định hình suy nghĩ của bạn về thiết kế bộ xử lý?
Con đường sự nghiệp của tôi đã dẫn tôi đến các lĩnh vực thị trường mới nổi. Trong thời gian tôi làm việc tại TI (Texas Instruments), một nhà lãnh đạo bán dẫn với di sản lâu đời, tôi đã có cơ hội lãnh đạo thiết kế và kiến trúc cấp hệ thống, đứng đầu bộ phận định nghĩa sản phẩm và sau đó là CTO của bộ phận này. Điều này đã dẫn tôi đến việc liên tục khám phá các công nghệ mới nổi có khả năng định hình ‘tương lai không xa’.
Khi chúng tôi thành lập Hailo vào năm 2017, rõ ràng là AI, đã bắt đầu phát triển mạnh trong đám mây, cũng có tiềm năng trở thành công nghệ cho phép cho các thiết bị cạnh. Vì vậy, chúng tôi đã bắt đầu hành trình này.
Làm thế nào mà sự mở rộng của AI tạo ra tại cạnh lại làm cho TOPS – tera hoạt động mỗi giây – không còn là một tiêu chuẩn đủ để đánh giá hiệu suất bộ xử lý?
TOPS đã từng là tiêu chuẩn để đánh giá phần cứng AI, nhưng trong kỷ nguyên AI tạo ra tại cạnh, nó không còn đủ. Bản chất của các mô hình cổ điển là dịch nhiều dữ liệu thành những thông tin có ý nghĩa, vì vậy lượng tính toán cần thiết để xử lý dữ liệu đầu vào tăng theo lượng dữ liệu cần được xử lý. Các mô hình cho những nhiệm vụ này thường nhỏ hơn so với lượng dữ liệu chúng xử lý, khiến băng thông truy cập vào các tham số mô hình tương đối không đáng kể.
Tuy nhiên, các mô hình tạo ra lại khác biệt – nằm trong lĩnh vực tỷ tham số, và trong những trường hợp này, băng thông bộ nhớ trở thành một yếu tố không thể bỏ qua.
Thay vì chỉ tập trung vào TOPS, điều quan trọng là phải đánh giá cách một bộ xử lý cân bằng giữa tính toán và bộ nhớ trong điều kiện thực tế. Không phải là về việc theo đuổi con số cao nhất; mà là về việc điều chỉnh kiến trúc để phù hợp với các tải công việc nó cần xử lý.
Tại sao băng thông bộ nhớ lại trở thành một nút thắt quan trọng hơn tính toán trong các tải công việc AI cạnh, đặc biệt là đối với LLM và VLM?
Đối với các tải công việc AI cạnh, đặc biệt là những tải công việc liên quan đến LLM hoặc VLM, băng thông bộ nhớ đang nhanh chóng trở thành nút thắt chính. Các mô hình này thường nằm trong khoảng từ 0,5 đến 8 tỷ tham số, vượt quá khả năng của bộ nhớ trên chip và yêu cầu truy cập vào bộ nhớ ngoài như DRAM. Điều này làm tăng đáng kể nhu cầu về băng thông bộ nhớ. Ví dụ, một mô hình 1 tỷ tham số có thể cung cấp lên đến ~40 token mỗi giây trong điều kiện tối ưu với giao diện LPDDR4X tiêu chuẩn, nhưng để duy trì tốc độ đó với mô hình 4 tỷ tham số, cần hơn bốn lần băng thông. Nếu không, hiệu suất sẽ bị ảnh hưởng, không phải vì tính toán hạn chế, mà vì bộ xử lý không thể cung cấp dữ liệu đủ nhanh. Sự mất cân bằng giữa tính toán và bộ nhớ là một trong những thách thức quan trọng nhất trong việc triển khai AI tạo ra tại cạnh. Điều này được khuếch đại trong các kiến trúc tính toán từng lớp, nơi các kết quả trung gian cũng làm tăng lưu lượng bộ nhớ và gây áp lực thêm lên băng thông.
Làm thế nào các nhóm sản phẩm nên suy nghĩ lại chiến lượcbenchmark của mình khi thiết kế cho các ứng dụng cạnh thực tế?
Các nhóm sản phẩm nên chuyển hướng khỏi việc dựa vào một chỉ số hiệu suất duy nhất như TOPS và thay vào đó áp dụng một chiến lược benchmark phản ánh thực tế của việc triển khai cạnh. Điều đó bắt đầu bằng việc hiểu trường hợp sử dụng cụ thể, tải công việc thực tế mà bộ xử lý cần xử lý, và xác định ‘điểm làm việc’: giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ. Từ đó, nó là về việc đánh giá cách tính toán và bộ nhớ tương tác dưới những điều kiện đó. Một bộ xử lý có TOPS cao sẽ không mang lại hiệu quả nếu băng thông bộ nhớ bị hạn chế, và nhiều bộ nhớ hơn sẽ không giúp nếu khả năng tính toán là không đủ.
Các nhóm nên đánh giá xem bộ xử lý có thể duy trì hiệu suất trên các nhiệm vụ như tải công việc nhận thức, tăng cường và tạo ra, mỗi nhiệm vụ có những yêu cầu khác nhau. Mục tiêu không phải là tối ưu hóa cho các thông số kỹ thuật đỉnh cao, mà là đảm bảo hiệu suất cân bằng trên toàn bộ phạm vi các trường hợp sử dụng dự kiến trong môi trường thực tế.
Đây là một sự chuyển đổi tự nhiên từ các biện pháp ‘tiệt trùng’ sang các phương pháp tinh vi hơn phản ánh cách các nền tảng được sử dụng và cách chúng được đánh giá – tương tự như những gì đã xảy ra với các kiến trúc khác đã trở thành chủ đạo (ví dụ: SPEC, Coremark, 3DMark, v.v.).
Làm thế nào mà các ràng buộc về năng lượng và chi phí lại ảnh hưởng đến các quyết định kiến trúc đằng sau các bộ xử lý Hailo, đặc biệt là đối với các thiết bị cạnh hướng đến người tiêu dùng?
Năng lượng và chi phí là hai trong số các ràng buộc quan trọng nhất khi thiết kế bộ xử lý AI cho các thiết bị cạnh, đặc biệt là trong các sản phẩm hướng đến người tiêu dùng. Trong các thiết bị nhỏ gọn như cảm biến IoT hoặc trợ lý thông minh, ngân sách năng lượng rất chặt chẽ, và thường không có làm mát chủ động, vì vậy hiệu quả năng lượng trở nên quan trọng. Mỗi tài nguyên tính toán hoặc bộ nhớ bổ sung thêm đều tiêu tốn năng lượng và nhiệt, điều này trực tiếp ảnh hưởng đến khả năng sử dụng và tuổi thọ pin.
Chi phí cũng có ảnh hưởng tương tự. Các thiết bị tiêu dùng phải nằm trong các điểm giá cạnh tranh, có nghĩa là bộ xử lý chỉ có thể bao gồm nhiều TOPS và bộ nhớ trước khi nó trở nên không khả thi về mặt kinh tế. Những ràng buộc này buộc phải có những quyết định kiến trúc khó khăn. Tại Hailo, chúng tôi ưu tiên các thiết kế cung cấp sự cân bằng đúng giữa tính toán và bộ nhớ để đáp ứng nhu cầu ứng dụng thực tế trong một khoảng thời gian chặt chẽ về năng lượng và chi phí, đảm bảo AI cạnh trở nên khả thi, hiệu quả và có thể mở rộng trên một loạt các sản phẩm tiêu dùng.
Bạn có thể giải thích cách định nghĩa một ‘điểm làm việc’ cho một ứng dụng và tại sao điều đó lại quan trọng đến vậy trong việc triển khai AI cạnh?
Định nghĩa ‘điểm làm việc’ là một trong những bước quan trọng nhất khi thiết kế một hệ thống. Nó đề cập đến giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ định hình những gì có thể đạt được trong một triển khai cụ thể. Không giống như trên đám mây, nơi bạn có thể ném nhiều tính toán hoặc bộ nhớ hơn vào một vấn đề, các thiết bị cạnh hoạt động trong một khoảng thời gian cố định. Điều đó có nghĩa bạn phải đưa ra những quyết định thương mại dựa trên yêu cầu thực tế của ứng dụng. Ví dụ, một cảm biến IoT có thể ưu tiên hiệu quả năng lượng hơn hiệu suất thô, trong khi một hệ thống tự hành có thể yêu cầu độ trễ cực thấp bất kể mức tiêu thụ năng lượng. Một khi điểm làm việc được thiết lập, bạn có thể đánh giá xem bộ xử lý có sự cân bằng đúng giữa tính toán và bộ nhớ để đáp ứng nhu cầu đó. Không phải là về việc tối đa hóa thông số kỹ thuật theo mọi hướng; mà là về việc đảm bảo hiệu suất ổn định và tin cậy trong điều kiện thực tế mà ứng dụng sẽ đối mặt.
Generally speaking, điểm làm việc là nơi bạn muốn các chỉ số hiệu suất chính ở mức tối ưu. Việc không thực hiện điều này có thể dẫn đến hoạt động không tối ưu trong hầu hết các kịch bản sử dụng điển hình của nền tảng.
Ví dụ đơn giản, bạn có thể tạo một hệ thống phân tích AI cực kỳ hiệu quả khi đầu vào ở độ phân giải rất cao, nhưng nếu hệ thống này được triển khai trong các hệ thống không bao giờ đạt được độ phân giải đó, thì tối ưu hóa này là vô nghĩa.
Đối với video, audio và ngôn ngữ thường được kết hợp trong các thiết bị hiện đại, bạn tiếp cận tối ưu hóa trên các mô hình đa phương thức như thế nào?
Các mô hình đa phương thức đòi hỏi sự cân bằng cẩn thận giữa tài nguyên tính toán và bộ nhớ. Mỗi phương thức gây áp lực lên hệ thống theo cách khác nhau: video là tính toán chuyên sâu do độ phân giải cao và tốc độ khung hình, trong khi ngôn ngữ và audio đặt nhu cầu nặng hơn về băng thông bộ nhớ. Trong các ứng dụng như xử lý ngôn ngữ-vision, sự chia tách này trở nên rõ ràng (mặc dù điều này không phải là một bảo đảm nhưng là một kịch bản điển hình): xử lý video đẩy tính toán, trong khi mô hình ngôn ngữ có thể nhanh chóng đạt đến các nút thắt bộ nhớ.
Chúng tôi tiếp cận tối ưu hóa bằng cách xem xét cách các tải công việc này tương tác trên toàn bộ đường ống và đảm bảo bộ xử lý được thiết kế để hỗ trợ chúng đồng thời, mà không để một phương thức nào đó ảnh hưởng đến hiệu suất của phương thức khác.
Làm thế nào mà việc tăng kích thước mô hình tại cạnh lại làm phức tạp độ trễ và tiêu thụ năng lượng, và vai trò của kiến trúc cấp hệ thống trong việc giải quyết vấn đề đó?
Khi kích thước mô hình tăng tại cạnh, độ trễ và tiêu thụ năng lượng trở nên khó quản lý hơn. Các mô hình lớn hơn phụ thuộc nhiều hơn vào bộ nhớ ngoài, điều này làm tăng cả tiêu thụ năng lượng và độ trễ, đặc biệt là khi băng thông bộ nhớ trở thành một nút thắt. Ví dụ, việc mở rộng từ mô hình 1 tỷ tham số đến 4 tỷ tham số sẽ yêu cầu hơn bốn lần băng thông để duy trì hiệu suất相同 – nhưng trên thực tế, hiệu suất không tăng tuyến tính do các ràng buộc về băng thông và cấp hệ thống.
Điều quan trọng không chỉ là có nhiều TOPS hoặc bộ nhớ lớn; mà là cách những thành phần này tương tác. Một thiết kế cân bằng đảm bảo tính toán, bộ nhớ và băng thông hoạt động hiệu quả cùng nhau, ngăn chặn một tài nguyên nào đó hạn chế toàn bộ hệ thống.
Làm thế nào Hailo thiết kế để tương lai hóa – xét đến việc các mô hình AI, tải công việc và yêu cầu triển khai đang phát triển nhanh chóng?
Tương lai hóa trong AI cạnh có nghĩa là thiết kế các bộ xử lý có thể xử lý một loạt các tải công việc đang phát triển. Tại Hailo, chúng tôi tập trung vào các kiến trúc cân bằng không được thiết kế cho một nhiệm vụ cụ thể mà có thể hỗ trợ mọi thứ từ các chức năng nhận thức như phát hiện đối tượng đến các mô hình tạo ra như VLM. Mỗi loại tải công việc gây áp lực lên tính toán và bộ nhớ theo cách khác nhau, vì vậy chúng tôi thiết kế cho sự linh hoạt, tránh các nút thắt khi chuyển đổi giữa chúng. Chúng tôi cũng tính đến các giới hạn thực tế về năng lượng, chi phí và độ trễ trên các ứng dụng. Bằng cách ưu tiên sự đa dạng của tải công việc và sự cân bằng tài nguyên, chúng tôi nhằm mục đích hỗ trợ thế hệ tiếp theo của các triển khai AI cạnh trên cả các trường hợp sử dụng tiêu dùng và công nghiệp.
Tuy nhiên, một kích thước không thể phù hợp với tất cả, và danh mục mục tiêu của chúng tôi nhắm vào các ứng dụng cụ thể và cố gắng phù hợp trong ngân sách có sẵn của, ví dụ, năng lượng, yếu tố hình thức và điều đó định nghĩa một ‘điểm làm việc’.
Vai trò của hệ sinh thái nhà phát triển trong việc tối đa hóa giá trị của một bộ xử lý là gì, và làm thế nào bạn đảm bảo các nhóm có thể tận dụng đầy đủ khả năng của Hailo?
Với tư cách là một thiết bị có thể lập trình, điều quan trọng là phải có các công cụ dễ sử dụng cho các nhà phát triển để tận dụng khả năng của bộ xử lý, rút ngắn con đường đến triển khai và cho phép các trường hợp sử dụng mới. Bằng cách cung cấp một môi trường được hỗ trợ tốt xung quanh các bộ xử lý của chúng tôi, chúng tôi giúp các nhóm đưa các ứng dụng AI đến cuộc sống trên một loạt các trường hợp sử dụng.
Lời khuyên bạn sẽ đưa ra cho các kỹ sư hoặc CTO khi chọn bộ gia tốc AI đầu tiên cho một sản phẩm thế hệ tiếp theo đang được xây dựng ngày hôm nay?
Trong điều kiện chín muồi, tôi tin rằng có rất nhiều tiềm năng đổi mới, cho phép chúng ta chuyển đổi tưởng tượng thành sản phẩm thực tế. Trong một môi trường thay đổi nhanh chóng, việc chọn một bộ gia tốc cho phép chu kỳ từ khái niệm đến triển khai nhanh là rất quan trọng.
Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Hailo.












