Συνεντεύξεις

Avi Baum, CTO tại Hailo – Interview Series

Published August 18, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Avi Baum, CTO tại Hailo, lãnh đạo tầm nhìn công nghệ và đổi mới sản phẩm của công ty. Ông trước đây từng là CTO phụ trách Kết nối không dây tại Texas Instruments, thúc đẩy chiến lược cho các MCU kết nối trong thị trường IoT và IIoT, và từng giữ các vị trí kiến trúc và lãnh đạo cấp cao trong Lực lượng Quốc phòng Israel.

Hailo là một công ty AI-chip của Israel chuyên về các bộ xử lý AI cạnh hiệu suất cao, tiết kiệm năng lượng cho các ứng dụng như xe tự hành, máy ảnh thông minh và robot, được hỗ trợ bởi một bộ phần mềm toàn diện và hệ sinh thái đối tác toàn cầu.

Bạn có thể chia sẻ điều gì đã thu hút bạn đến lĩnh vực AI cạnh và cách những trải nghiệm kỹ sư đầu tiên của bạn đã định hình suy nghĩ của bạn về thiết kế bộ xử lý?

Con đường sự nghiệp của tôi đã đưa tôi đến các lĩnh vực thị trường mới nổi. Trong thời gian tôi làm việc tại TI (Texas Instruments), một nhà lãnh đạo bán dẫn với di sản lâu đời, tôi đã có cơ hội lãnh đạo thiết kế và kiến trúc cấp hệ thống, đứng đầu bộ phận định nghĩa sản phẩm và sau đó là CTO của bộ phận này. Điều này đã dẫn tôi đến việc liên tục khám phá các công nghệ mới nổi có khả năng định hình ‘tương lai không quá xa’.

Khi chúng tôi thành lập Hailo vào năm 2017, rõ ràng là AI, đã bắt đầu phát triển mạnh trong đám mây, cũng có tiềm năng trở thành công nghệ cho phép các thiết bị cạnh. Vì vậy, chúng tôi đã bắt đầu hành trình này.

Làm thế nào mà việc mở rộng AI tạo ra tại cạnh lại làm cho TOPS – tera hoạt động mỗi giây – không còn là một tiêu chuẩn đủ để đánh giá hiệu suất bộ xử lý?

TOPS đã từng là tiêu chuẩn để đánh giá phần cứng AI, nhưng trong kỷ nguyên AI tạo ra tại cạnh, nó không còn đủ. Bản chất của các mô hình cổ điển là dịch nhiều dữ liệu thành thông tin có ý nghĩa, vì vậy lượng tính toán cần thiết để xử lý dữ liệu đầu vào tăng lên với lượng dữ liệu cần được xử lý. Các mô hình cho các nhiệm vụ này thường nhỏ hơn so với lượng dữ liệu chúng xử lý, khiến băng thông đầu vào được chỉ định cho việc truy cập các tham số mô hình tương đối không đáng kể.

Tuy nhiên, các mô hình tạo ra lại dễ nhận thấy hơn – thuộc lĩnh vực tỷ tham số, và trong những trường hợp này, băng thông bộ nhớ trở thành một yếu tố không thể bỏ qua.

Thay vì chỉ tập trung vào TOPS, điều quan trọng là phải đánh giá cách một bộ xử lý cân bằng tính toán và bộ nhớ trong điều kiện thực tế. Không phải là về việc theo đuổi con số cao nhất; mà là về việc điều chỉnh kiến trúc cho các tải công việc nó cần xử lý.

Tại sao băng thông bộ nhớ lại trở thành một nút thắt quan trọng hơn tính toán trong các tải công việc AI cạnh, đặc biệt là đối với LLM và VLM?

Đối với các tải công việc AI cạnh, đặc biệt là những tải công việc liên quan đến LLM hoặc VLM, băng thông bộ nhớ đang nhanh chóng trở thành nút thắt chính. Các mô hình này thường nằm trong khoảng từ 0,5 đến 8 tỷ tham số, vượt quá khả năng của bộ nhớ trên chip và yêu cầu truy cập vào bộ nhớ ngoài như DRAM. Điều này làm tăng đáng kể nhu cầu về băng thông bộ nhớ. Ví dụ, một mô hình 1 tỷ tham số có thể cung cấp lên đến ~40 token mỗi giây trong điều kiện tối ưu với giao diện LPDDR4X tiêu chuẩn, nhưng để duy trì tốc độ này với mô hình 4 tỷ tham số, cần hơn bốn lần băng thông. Nếu không, hiệu suất sẽ bị ảnh hưởng, không phải vì tính toán hạn chế, mà vì bộ xử lý không thể cung cấp dữ liệu đủ nhanh. Sự mất cân bằng giữa tính toán và bộ nhớ là một trong những thách thức lớn nhất trong việc triển khai AI tạo ra tại cạnh. Điều này được khuếch đại trong các kiến trúc tính toán từng lớp, nơi kết quả trung gian cũng làm tăng lưu lượng bộ nhớ và gây ra áp lực lên băng thông.

Làm thế nào các đội sản phẩm nên thay đổi chiến lược benchmarking khi thiết kế cho các ứng dụng cạnh thực tế?

Các đội sản phẩm nên chuyển khỏi việc dựa vào một chỉ số hiệu suất duy nhất như TOPS và thay vào đó áp dụng một chiến lược benchmarking phản ánh thực tế của việc triển khai cạnh. Điều đó bắt đầu bằng việc hiểu trường hợp sử dụng cụ thể, tải công việc thực tế mà bộ xử lý cần xử lý, và xác định ‘điểm làm việc’: giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ. Từ đó, điều quan trọng là đánh giá cách tính toán và bộ nhớ tương tác trong những điều kiện đó. Một bộ xử lý có TOPS cao sẽ không mang lại hiệu quả nếu băng thông bộ nhớ bị hạn chế, và nhiều bộ nhớ hơn sẽ không giúp đỡ nếu khả năng tính toán là không đủ.

Các đội nên đánh giá liệu bộ xử lý có thể duy trì hiệu suất trên các nhiệm vụ như tải công việc nhận thức, tăng cường và tạo ra, mỗi nhiệm vụ có những yêu cầu khác nhau. Mục tiêu không phải là tối ưu hóa cho thông số kỹ thuật đỉnh cao, mà là đảm bảo hiệu suất cân bằng trên toàn bộ phạm vi các trường hợp sử dụng dự kiến trong môi trường thực tế.

Đây là một sự thay đổi tự nhiên từ các biện pháp ‘tiệt trùng’ sang các phương pháp tinh vi hơn phản ánh cách các nền tảng được sử dụng và cách chúng được đánh giá – tương tự như những gì đã xảy ra với các kiến trúc khác đã trở thành phổ biến (ví dụ: SPEC, Coremark, 3DMark, v.v.).

Làm thế nào các ràng buộc về năng lượng và chi phí ảnh hưởng đến các quyết định kiến trúc đằng sau các bộ xử lý Hailo, đặc biệt là đối với các thiết bị cạnh hướng đến người tiêu dùng?

Năng lượng và chi phí là hai trong số các ràng buộc quan trọng nhất khi thiết kế bộ xử lý AI cho các thiết bị cạnh, đặc biệt là trong các sản phẩm hướng đến người tiêu dùng. Trong các thiết bị nhỏ gọn như cảm biến IoT hoặc trợ lý thông minh, ngân sách năng lượng rất chặt chẽ, và thường không có làm mát chủ động, vì vậy hiệu quả năng lượng trở nên quan trọng. Mỗi tài nguyên tính toán hoặc bộ nhớ bổ sung thêm đều tăng tiêu thụ năng lượng và nhiệt, điều này trực tiếp ảnh hưởng đến khả năng sử dụng và tuổi thọ pin.

Chi phí cũng có ảnh hưởng tương tự. Các thiết bị tiêu dùng phải nằm trong phạm vi giá cạnh tranh, điều này có nghĩa là bộ xử lý chỉ có thể bao gồm một lượng TOPS và bộ nhớ nhất định trước khi nó trở nên không khả thi về mặt kinh tế. Những ràng buộc này buộc phải thực hiện các quyết định kiến trúc khó khăn. Tại Hailo, chúng tôi ưu tiên các thiết kế cung cấp sự cân bằng đúng giữa tính toán và bộ nhớ để đáp ứng nhu cầu ứng dụng thực tế trong một phạm vi năng lượng và chi phí chặt chẽ, đảm bảo AI cạnh trở nên khả thi, hiệu quả và có thể mở rộng trên một loạt các sản phẩm tiêu dùng.

Bạn có thể giải thích cách định nghĩa một ‘điểm làm việc’ cho một ứng dụng và tại sao điều đó lại quan trọng đến vậy trong việc triển khai AI cạnh?

Định nghĩa ‘điểm làm việc’ là một trong những bước quan trọng nhất khi thiết kế hệ thống. Nó đề cập đến giao điểm của các ràng buộc về năng lượng, chi phí và độ trễ định hình những gì có thể đạt được trong một triển khai cụ thể. Không giống như trên đám mây, nơi bạn có thể ném nhiều tính toán hoặc bộ nhớ hơn vào một vấn đề, các thiết bị cạnh hoạt động trong một phạm vi cố định. Điều đó có nghĩa bạn phải thực hiện các quyết định giao dịch dựa trên yêu cầu thực tế của ứng dụng. Ví dụ, một cảm biến IoT có thể ưu tiên hiệu quả năng lượng hơn hiệu suất thô, trong khi một hệ thống tự hành có thể yêu cầu độ trễ cực thấp bất kể tiêu thụ năng lượng. Khi ‘điểm làm việc’ được thiết lập, bạn có thể đánh giá liệu bộ xử lý có sự cân bằng đúng giữa tính toán và bộ nhớ để đáp ứng nhu cầu đó. Không phải là về việc tối đa hóa thông số kỹ thuật theo mọi hướng; mà là về việc đảm bảo hiệu suất bền vững và tin cậy trong điều kiện thực tế mà ứng dụng sẽ gặp phải.

Generally speaking, ‘điểm làm việc’ là nơi bạn muốn các chỉ số hiệu suất chính ở mức tối ưu. Việc không thực hiện điều này có thể dẫn đến hoạt động dưới mức tối ưu trong hầu hết các kịch bản sử dụng thông thường của nền tảng.

Ví dụ, bạn có thể tạo một hệ thống phân tích AI cực kỳ hiệu quả khi đầu vào ở độ phân giải rất cao, nhưng nếu hệ thống này được triển khai trong các hệ thống không bao giờ đạt được độ phân giải này, thì tối ưu hóa này là vô nghĩa.

Đối với video, audio và ngôn ngữ thường được kết hợp trong các thiết bị hiện đại, bạn tiếp cận tối ưu hóa trên các mô hình đa phương thức như thế nào?

Các mô hình đa phương thức yêu cầu sự cân bằng cẩn thận giữa tài nguyên tính toán và bộ nhớ. Mỗi phương thức gây áp lực lên hệ thống theo cách khác nhau: video là tính toán đòi hỏi cao do độ phân giải và tốc độ khung hình cao, trong khi ngôn ngữ và audio đòi hỏi nhiều băng thông bộ nhớ hơn. Trong các ứng dụng như xử lý ngôn ngữ-hình ảnh, sự phân chia này trở nên rõ ràng (mặc dù điều này không phải là một đảm bảo nhưng là một kịch bản điển hình): xử lý video đẩy tính toán, trong khi mô hình ngôn ngữ có thể nhanh chóng đạt đến các nút thắt bộ nhớ.

Chúng tôi tiếp cận tối ưu hóa bằng cách xem xét cách các tải công việc này tương tác trên toàn bộ đường ống và đảm bảo bộ xử lý được thiết kế để hỗ trợ chúng đồng thời, mà không để một phương thức nào đó ảnh hưởng đến hiệu suất của phương thức khác.

Làm thế nào việc tăng kích thước mô hình tại cạnh lại làm phức tạp độ trễ và tiêu thụ năng lượng, và vai trò của kiến trúc cấp hệ thống trong việc giải quyết vấn đề đó là gì?

Khi kích thước mô hình tăng tại cạnh, độ trễ và tiêu thụ năng lượng trở nên khó quản lý hơn. Các mô hình lớn hơn phụ thuộc nhiều hơn vào bộ nhớ ngoài, điều này làm tăng cả tiêu thụ năng lượng và độ trễ, đặc biệt là khi băng thông bộ nhớ trở thành một nút thắt. Ví dụ, việc tăng quy mô từ mô hình 1 tỷ tham số đến 4 tỷ tham số sẽ yêu cầu hơn bốn lần băng thông để duy trì hiệu suất相同 – nhưng trên thực tế, hiệu suất không tăng tuyến tính do các ràng buộc về băng thông và cấp hệ thống.

Điều quan trọng không chỉ là có TOPS cao hoặc bộ nhớ lớn; mà là cách các thành phần này tương tác. Một thiết kế cân bằng đảm bảo tính toán, bộ nhớ và băng thông hoạt động hiệu quả cùng nhau, ngăn chặn một tài nguyên nào đó hạn chế toàn bộ hệ thống.

Làm thế nào Hailo thiết kế để tương lai hóa – xét đến việc các mô hình AI, tải công việc và yêu cầu triển khai đang phát triển nhanh như thế nào?

Tương lai hóa trong AI cạnh có nghĩa là thiết kế bộ xử lý có thể xử lý nhiều loại tải công việc đang phát triển. Tại Hailo, chúng tôi tập trung vào các kiến trúc cân bằng không chỉ được thiết kế cho một nhiệm vụ mà có thể hỗ trợ mọi thứ từ các chức năng nhận thức như phát hiện vật thể đến các mô hình tạo ra như VLM. Mỗi loại tải công việc gây áp lực lên tính toán và bộ nhớ theo cách khác nhau, vì vậy chúng tôi thiết kế cho tính linh hoạt, tránh các nút thắt khi chuyển đổi giữa chúng. Chúng tôi cũng tính đến các giới hạn thực tế về năng lượng, chi phí và độ trễ trên các ứng dụng. Bằng cách ưu tiên sự đa dạng của tải công việc và cân bằng tài nguyên, chúng tôi nhằm mục đích hỗ trợ thế hệ tiếp theo của các triển khai AI cạnh trên cả các trường hợp sử dụng tiêu dùng và công nghiệp.

Tuy nhiên, một kích thước không thể phù hợp với tất cả, và danh mục mục tiêu của chúng tôi nhắm vào các ứng dụng và cố gắng phù hợp trong ngân sách có sẵn của, ví dụ, năng lượng, yếu tố hình thức và điều đó định nghĩa một ‘điểm làm việc’.

Vai trò của hệ sinh thái nhà phát triển trong việc tối đa hóa giá trị của một bộ xử lý là gì, và bạn đang đảm bảo các đội có thể tận dụng đầy đủ khả năng của Hailo như thế nào?

Với tư cách là một thiết bị có thể lập trình, điều quan trọng là phải có các công cụ dễ sử dụng cho các nhà phát triển để tận dụng khả năng của bộ xử lý, rút ngắn con đường đến triển khai và cho phép các trường hợp sử dụng mới. Bằng cách cung cấp một môi trường được hỗ trợ tốt xung quanh các bộ xử lý của chúng tôi, chúng tôi giúp các đội đưa các ứng dụng AI đến cuộc sống trên một loạt các trường hợp sử dụng.

Điều gì bạn khuyên các kỹ sư hoặc CTO nên chọn bộ gia tốc AI đầu tiên cho một sản phẩm thế hệ tiếp theo được xây dựng ngày hôm nay?

Với điều kiện chín muồi, tôi tin rằng có rất nhiều tiềm năng đổi mới, cho phép chúng ta chuyển tưởng tượng thành sản phẩm thực tế. Trong một môi trường thay đổi nhanh chóng, việc chọn một bộ gia tốc cho phép chu kỳ từ khái niệm đến triển khai nhanh chóng là rất quan trọng.

Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Hailo.

Unite.AI

Avi Baum, CTO tại Hailo – Interview Series

You may like