Phỏng vấn

Rob May, CEO và Đồng sáng lập NeuroMetric – Loạt Phỏng vấn

Published March 26, 2026

Updated March 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Rob May, CEO và Đồng sáng lập của NeuroMetric, là một doanh nhân và nhà đầu tư kỳ cựu với thành tích lâu dài trải dài qua điện toán đám mây, các startup AI và đầu tư mạo hiểm, hiện đang dẫn dắt Neurometric AI đồng thời giữ chức Giám đốc Điều hành tại HalfCourt Ventures, nơi ông đã đầu tư vào hơn 100 công ty công nghệ. Bên cạnh vai trò điều hành và đầu tư, ông đồng sáng lập Cộng đồng AI Innovators và trước đây đã xây dựng và thoái vốn thành công từ các công ty như Backupify, phản ánh kinh nghiệm sâu rộng qua nhiều chu kỳ công nghệ. Ông cũng được biết đến rộng rãi nhờ bản tin Investing in AI lâu năm, mà ông bắt đầu viết từ hơn một thập kỷ trước để phân tích các xu hướng AI mới nổi, chiến lược đầu tư và biến động thị trường, và nay đã phát triển thành một nền tảng cung cấp những hiểu biết sâu sắc hơn về bối cảnh AI đang phát triển nhanh chóng.

NeuroMetric AI tập trung giải quyết một trong những thách thức quan trọng nhất trong trí tuệ nhân tạo ngày nay: chi phí và hiệu quả của suy luận (inference) ở quy mô lớn. Nền tảng này đánh giá động các khối lượng công việc AI và áp dụng các chiến lược tối ưu hóa—chẳng hạn như kết hợp các mô hình chuyên biệt nhỏ hơn với các kỹ thuật tính toán thời gian kiểm tra (test-time compute) tiên tiến—để cải thiện hiệu suất đồng thời giảm chi phí đáng kể, cho phép doanh nghiệp đạt được ROI tốt hơn từ các triển khai AI. Bằng cách điều phối khối lượng công việc và điều chỉnh việc sử dụng mô hình cho các nhiệm vụ cụ thể, Neurometric hướng tới việc làm cho các hệ thống AI nhanh hơn và hợp lý hơn đáng kể, định vị mình tại giao điểm của cơ sở hạ tầng AI, hiệu quả và khả năng mở rộng trong thế giới thực khi các tổ chức chuyển từ giai đoạn thử nghiệm sang sản xuất.

Ông đã sáng lập và dẫn dắt nhiều công ty AI, đầu tư vào hơn 100 startup thông qua HalfCourt Ventures, và trước đây đã xây dựng và thoái vốn từ Backupify. Những trải nghiệm đó đã định hình quan điểm của ông về nơi giá trị bền vững được tạo ra trong AI ngày nay như thế nào?

Tôi nghĩ hầu hết các nhà đầu tư và doanh nhân đang đuổi theo những hào rào ngắn hạn – những thứ trông giống như khoảng trống rõ ràng trên thị trường hiện nay nhưng sẽ nhanh chóng bị lấp đầy bởi các công ty hiện có. AI sẽ biến việc điều hành một doanh nghiệp thành một chuỗi các quyết định xác suất. Các công ty đáng để đầu tư, hoặc xây dựng, là những công ty có ước tính tổng thể tốt nhất về những xác suất đó. Đôi khi điều đó đến từ tích hợp dọc và đôi khi từ quy mô ngang – nó phụ thuộc vào thị trường.

Trong bản tin Investing in AI của mình, ông đã lập luận rằng các mô hình ngày càng trở nên có thể thay thế cho nhau và khả năng phòng thủ thực sự chuyển sang lớp hệ thống. Một “hào rào hệ thống” thực sự trông như thế nào trong thực tế?

Một hào rào hệ thống thực sự có ba đặc tính: nó được cộng dồn khi sử dụng, nó cụ thể cho từng khách hàng và nó không thể được sao chép chỉ bằng cách thay thế bằng một mô hình tốt hơn.

Khả năng phòng thủ nằm trong cái mà tôi gọi là “Hệ thống Ngữ cảnh” — một kiến trúc tích hợp kết nối các mô hình nền tảng với mọi thứ làm cho một công ty trở nên độc đáo: dữ liệu, quy trình làm việc, kiến thức chuyên ngành, lịch sử quyết định của công ty đó. Hệ thống này thu thập tín hiệu từ mọi tương tác — mô hình nào thành công ở nhiệm vụ nào, độ trễ quan trọng ở đâu, những mẫu hình cụ thể nào của doanh nghiệp xuất hiện — và đưa thông tin đó trở lại để cải thiện chính nó.

Điểm mấu chốt là điều này tạo ra một bánh đà nhân lên, chứ không phải cộng thêm. Bạn không chỉ tích lũy một bản ghi có thể tìm kiếm về các quyết định trong quá khứ. Bạn đang tạo ra tín hiệu huấn luyện tạo ra các mô hình chuyên biệt cải thiện việc định tuyến, từ đó thu thập dữ liệu có giá trị hơn. Hào rào được mở rộng với mỗi lần suy luận.

Trong thực tế, một hào rào hệ thống trông giống như sự tích hợp sâu vào quy trình làm việc, nơi chi phí chuyển đổi không phải là về API — mà là về việc viết lại logic kinh doanh. Nó trông giống như ngữ cảnh độc quyền mà không đối thủ nào có thể sao chép vì nó được tạo ra qua nhiều tháng sử dụng trong sản xuất bên trong một doanh nghiệp cụ thể. Và nó trông giống như vòng lặp chuyên môn hóa liên tục, nơi hệ thống trở nên tốt hơn một cách có ý nghĩa cho khách hàng đó theo những cách mà một nhà cung cấp mô hình chung chung sẽ không bao giờ làm được.

Kỷ nguyên mô hình đã cho chúng ta khả năng thô. Kỷ nguyên hệ thống là nơi khả năng đó trở thành giá trị thực tế.

Các doanh nghiệp nên suy nghĩ như thế nào về việc xây dựng chiến lược đa mô hình, bao gồm logic định tuyến, đường leo thang và đánh giá liên tục, thay vì chỉ dựa vào một mô hình tiên phong duy nhất?

Điều đầu tiên các doanh nghiệp cần nội tâm hóa là chiến lược “chỉ sử dụng mô hình tốt nhất” là một chiến lược thua cuộc ở quy mô lớn. Nó tương đương với việc chạy mọi truy vấn qua kỹ sư cao cấp nhất của bạn. Nó đắt đỏ, chậm chạp và — trái với trực giác — thường không tạo ra kết quả tốt nhất.

Điều này dẫn đến cái mà tôi gọi là Biên giới Lởm chởm của Suy luận: hiệu suất mô hình là cụ thể theo nhiệm vụ và không thể đoán trước. Các mô hình tiên phong thường xuyên thua các mô hình chuyên biệt nhỏ hơn trong các nhiệm vụ cụ thể. Chúng tôi đã thấy các hệ thống đa mô hình tổng hợp đạt độ chính xác 72,7% trong các nhiệm vụ CRM, nơi các mô hình tiên phong chỉ đạt 58%. Bề mặt hiệu suất không tương quan gọn gàng với số lượng tham số. Vì vậy, câu hỏi thực sự không phải là “mô hình nào là tốt nhất?” — mà là “mô hình nào là tốt nhất cho nhiệm vụ con cụ thể này?”

Việc định khung lại đó là nền tảng của một chiến lược đa mô hình thực sự. Đây là cách tôi sẽ nói các doanh nghiệp nên nghĩ về nó trong ba lớp.

Logic định tuyến bắt đầu bằng việc lập bản đồ cảnh quan suy luận của bạn. Liệt kê mọi điểm trong hệ thống của bạn nơi một lệnh gọi LLM được thực hiện, và với mỗi điểm, ghi lại loại nhiệm vụ, độ phức tạp đầu vào/đầu ra, yêu cầu về độ trễ, ngưỡng chính xác và khối lượng cuộc gọi. Điều đó cung cấp cho bạn một bản đồ nhiệt. Bạn sẽ nhanh chóng thấy rằng phần lớn khối lượng công việc của bạn là công việc tần suất cao, phạm vi hẹp — phân loại, trích xuất thực thể, định tuyến ý định, tạo mẫu — nơi một mô hình nhỏ hơn được tinh chỉnh có thể sánh ngang hoặc đánh bại mô hình tiên phong với một phần nhỏ chi phí. Dành các cuộc gọi mô hình tiên phong đắt đỏ của bạn cho những nhiệm vụ thực sự đòi hỏi lập luận phức tạp. Một tác nhân thực hiện 50 cuộc gọi cho mỗi nhiệm vụ không cần GPT-4 cho cả 50 cuộc gọi.

Đường leo thang là về việc xây dựng các phương án dự phòng thông minh, không chỉ là chuyển đổi dự phòng. Hệ thống cần nhận ra khi một mô hình nhỏ hơn đang trả về kết quả với độ tin cậy thấp và leo thang lên một mô hình có khả năng hơn — hoặc lên một sự kết hợp mô hình-chiến lược hoàn toàn khác. Đây là nơi các chiến lược tính toán thời gian kiểm tra phát huy tác dụng. Đôi khi câu trả lời đúng không phải là một mô hình lớn hơn — mà là cùng một mô hình với chuỗi suy nghĩ (chain-of-thought), tìm kiếm chùm (beam search) hoặc lấy mẫu tốt nhất trong N (best-of-N sampling). Cấu hình tối ưu thay đổi không chỉ theo mô hình, mà còn theo thuật toán tư duy bạn kết hợp với nó.

Đánh giá liên tục là phần mà hầu hết các doanh nghiệp hoàn toàn bỏ sót, và đó là nơi khả năng phòng thủ thực sự xuất hiện. Lựa chọn mô hình không phải là một quyết định một lần — đó là một bài toán tối ưu hóa liên tục. Các mô hình mới được phát hành liên tục, các trường hợp sử dụng của bạn phát triển và hiệu suất suy giảm theo những cách thất bại âm thầm. Bạn sẽ không biết chatbot dịch vụ khách hàng của mình đưa ra câu trả lời tệ hơn 40% vì bạn đã sử dụng sai mô hình cho loại truy vấn đó — bạn sẽ chỉ thấy tỷ lệ hủy dịch vụ tăng ba tháng sau đó. Bạn cần cơ sở hạ tầng liên tục đo lường những gì thực sự hiệu quả trên các tổ hợp mô hình-nhiệm vụ và điều chỉnh định tuyến dựa trên dữ liệu hiệu suất thực tế, không phải điểm chuẩn.

Lý do hầu hết các công ty chưa thực hiện sự chuyển đổi này là vì không ai bị sa thải vì chọn mô hình tiên phong — đó là “không ai bị sa thải vì mua IBM” trong thế giới AI. Hệ sinh thái nhà cung cấp thúc đẩy mô hình tiên phong vì đó là nơi có biên lợi nhuận. Và cơ sở hạ tầng điều phối cần thiết để thực sự vận hành một kiến trúc đa mô hình — logic định tuyến, cơ chế dự phòng, quản lý mô hình, khả năng quan sát — đơn giản là không tồn tại ở hầu hết các công ty. Họ bị mắc kẹt trong một tối ưu cục bộ, nơi chi phí chuyển đổi và sự không chắc chắn của đa mô hình cảm thấy cao hơn việc tiếp tục chi tiêu quá mức cho suy luận tiên phong.

Những sai lầm lớn nhất mà ông thấy các công ty mắc phải khi chuyển từ các dự án thí điểm AI sang các hệ thống cấp sản xuất là gì?

Họ cho rằng các lựa chọn của mình có thể là tĩnh và lâu dài. Trong thực tế, mọi lớp của ngăn xếp công nghệ cho AI đang thay đổi nhanh chóng. Các công ty cần đưa ra các quyết định cung cấp tính tùy chọn và linh hoạt.

Trong những loại quy trình công việc nào ông đã thấy các mô hình nhỏ, chuyên biệt theo nhiệm vụ vượt trội hơn các mô hình tiên phong lớn, và tại sao điều đó lại quan trọng về mặt chiến lược?

Chúng tôi đã thấy điều này trong hầu hết mọi nhiệm vụ công việc hàng ngày phổ biến – những việc như kế toán cơ bản, tóm tắt văn bản, trích xuất thực thể từ các tài liệu khác nhau. Chúng tôi đã khám phá các SLM cho hàng trăm nhiệm vụ công việc và chúng hầu như luôn chiến thắng nếu vấn đề được cấu trúc đúng cách.

Ông đã viết về chi phí biên giảm dần của việc triển khai AI vào các trường hợp sử dụng mới. Sự thay đổi đó ảnh hưởng thế nào đến kinh tế học dài hạn của việc áp dụng AI cho doanh nghiệp?

Câu chuyện bong bóng giả định rằng doanh thu AI đòi hỏi đầu tư R&D tương xứng vào các mô hình mới. Không phải vậy. Các mô hình đã được xây dựng. Cơ sở hạ tầng đã tồn tại. Mỗi trường hợp sử dụng bổ sung chỉ là một lời nhắc (prompt), một kết nối dữ liệu, có thể một chút tinh chỉnh nhẹ — chứ không phải một đợt huấn luyện 100 triệu đô la nữa. Đường cong chi phí biên

Unite.AI

Rob May, CEO và Đồng sáng lập NeuroMetric – Loạt Phỏng vấn

You may like