Phỏng vấn
Bobby Samuels, Đồng sáng lập và Giám đốc điều hành của Protege – Loạt phỏng vấn

Bobby Samuels dẫn dắt chiến lược và thực hiện của Protege trên sản phẩm, thị trường và hình thành vốn. Ông đồng sáng lập Protege vào năm 2024 và đã giữ vị trí Giám đốc điều hành từ khi thành lập. Dưới sự lãnh đạo của ông, Protege đã huy động được 35 triệu đô la tiền vốn và mở rộng quy mô lên 30 triệu đô la doanh thu hàng năm trong năm đầu tiên hoạt động. Trước đó, Bobby là Tổng giám đốc của Privacy Hub tại Datavant, nơi ông đã giúp công ty phát triển trước khi sáp nhập với Ciox Health để tạo thành hệ sinh thái dữ liệu sức khỏe trung lập lớn nhất tại Hoa Kỳ. Trước đó, ông đã lãnh đạo các đối tác tại LiveRamp, nơi ông đã phát triển chuyên môn trong việc xây dựng mạng dữ liệu trung lập. Bobby拥有 bằng thạc sĩ quản trị kinh doanh từ Trường kinh doanh sau đại học Stanford và bằng cử nhân từ Đại học Harvard, nơi ông từng là Chủ tịch của The Harvard Crimson. Ông mang đến chuyên môn sâu về trao đổi dữ liệu được quản lý và chuyển đổi cơ sở hạ tầng phức tạp thành khả năng cho phép AI được tin cậy cho các đối tác doanh nghiệp.
Protege là một công ty cơ sở hạ tầng dữ liệu kết nối các chủ sở hữu dữ liệu giá trị cao và độc quyền với các nhà phát triển xây dựng mô hình AI, cung cấp một cách thức được quản lý và ưu tiên quyền riêng tư để cấp phép và truy cập dữ liệu đào tạo với quy mô lớn. Thành lập vào năm 2024, nền tảng này tập trung vào việc mở khóa dữ liệu đa phương thức – chẳng hạn như hồ sơ y tế, hình ảnh, video và âm thanh – vốn truyền thống khó khăn cho các nhóm AI để tìm nguồn, đồng thời cung cấp cho các nhà cung cấp dữ liệu quyền kiểm soát hoàn toàn về quyền riêng tư, tuân thủ và kiếm tiền. Đối với các nhà xây dựng AI, Protege đơn giản hóa việc khám phá và mua lại thông qua danh mục được quản lý và các công cụ để lọc và kết hợp dữ liệu, giúp tăng tốc phát triển trên các lĩnh vực như chăm sóc sức khỏe, truyền thông và các lĩnh vực khác. Về bản chất, công ty này nhằm mục đích trở thành lớp dữ liệu đáng tin cậy cho AI, giảm một trong những nút thắt lớn nhất trong phát triển mô hình hiện đại.
Điều gì đã truyền cảm hứng cho bạn để thành lập Protege, và làm thế nào những kinh nghiệm của bạn trong việc lãnh đạo dữ liệu, quyền riêng tư và các sáng kiến chuyển đổi tổ chức tại Datavant – cũng như các vai trò trước đó tại LiveRamp – đã định hình tầm nhìn của bạn trong việc xây dựng nó?
Kinh nghiệm của tôi tại Datavant đã cho tôi thấy cả sức mạnh và sự phức tạp của việc kết nối dữ liệu một cách có trách nhiệm với quy mô lớn. Datavant đã xây dựng một nền tảng giúp liên kết thông tin sức khỏe nhạy cảm trong khi duy trì quyền riêng tư của bệnh nhân, và điều đó đã trở nên rõ ràng với tôi rằng dữ liệu được quản lý tốt có thể thúc đẩy tiến bộ xã hội lớn. Nhưng khi nó không được như vậy, nó có thể gây ra tổn hại thực sự.
Khi AI tăng tốc, tôi đã thấy cùng một mô hình lặp lại: tập trung vào tính toán và kiến trúc AI, nhưng không quá nhiều vào dữ liệu thúc đẩy các mô hình đó. Giả thuyết của chúng tôi là nút thắt lớn tiếp theo là truy cập vào đúng dữ liệu. Tôi muốn xây dựng một lớp cơ sở hạ tầng dữ liệu làm cho việc chia sẻ dữ liệu an toàn, minh bạch và có lợi cho cả người nắm giữ dữ liệu và nhà xây dựng AI, đồng thời cung cấp chuyên môn về dữ liệu AI cụ thể để hỗ trợ tiến bộ AI dựa trên nghiên cứu. Đó là điều đã dẫn đến Protege.
Protege mô tả mình là đang xây dựng “xương sống của nền kinh tế dữ liệu AI.” Bạn định nghĩa lớp đó như thế nào, và cơ sở hạ tầng dữ liệu thực sự cho AI trông như thế nào trong thực tế?
Protege là mô liên kết cho phép chủ sở hữu dữ liệu và nhà phát triển AI cộng tác một cách an toàn và hiệu quả. Cơ sở hạ tầng dữ liệu thực sự cho AI làm nhiều hơn việc lưu trữ hoặc di chuyển dữ liệu; nó xác minh nguồn gốc, quản lý quyền và đảm bảo rằng mỗi tập dữ liệu được sử dụng một cách có đạo đức và với sự đồng ý. Trong thực tế, đó là một nền tảng duy nhất nơi các chủ sở hữu nội dung có thể cấp phép dữ liệu một cách tự tin và được bồi thường đúng mực, và các nhà xây dựng AI có thể truy cập các tập dữ liệu quan trọng trên các ngành, lĩnh vực, phương thức và định dạng mà họ cần để đào tạo và đánh giá mô hình một cách có trách nhiệm.
Một trong những nhiệm vụ cốt lõi của bạn là đảm bảo các mô hình được đào tạo trên các tập dữ liệu được cấp phép, đại diện và dựa trên sự đồng ý. Protege thực hiện việc cấp phép đạo đức với quy mô lớn như thế nào?
Chúng tôi thực hiện đạo đức thông qua hệ thống, không phải thông qua khẩu hiệu. Với mọi nguồn và nội dung dữ liệu mà chúng tôi tổng hợp và cung cấp, chúng tôi đảm bảo rằng các chủ sở hữu quyền đang duy trì quyền sở hữu với các điều khoản cấp phép và bảo vệ quyền riêng tư rõ ràng
Nền tảng của chúng tôi kết hợp chuyên môn nghiên cứu của con người với các đường ống và hệ thống dữ liệu có thể mở rộng để cung cấp dữ liệu được bảo vệ quyền. Chúng tôi cũng làm việc với khách hàng mua dữ liệu của chúng tôi để đảm bảo rằng dữ liệu là đại diện của các quần thể thực tế và phản ánh các trường hợp sử dụng thực tế. Bằng cách giải quyết cả nhà cung cấp và người mua dữ liệu với sự rõ ràng và nhất quán, chúng tôi có thể duy trì sự tuân thủ, công bằng và niềm tin.
Ngành công nghiệp AI đã lâu được thúc đẩy bởi một tâm lý “scrape trước, hỏi sau.” Bạn nhìn thấy việc cấp phép dữ liệu minh bạch lại định hình lại mối quan hệ giữa nhà cung cấp dữ liệu và nhà phát triển AI như thế nào?
Minh bạch biến việc trích xuất thành hợp tác. Thay vì trích xuất, các công ty AI có tùy chọn cấp phép dữ liệu một cách đạo đức từ các nhà cung cấp dữ liệu được kiểm chứng, điều này tạo ra các động lực tốt hơn cho cả hai bên. Các nhà cung cấp dữ liệu thu được doanh thu và kiểm soát, và các nhà phát triển AI nhận được các tập dữ liệu sạch hơn, chất lượng cao hơn mà không có các vấn đề pháp lý và quyền sở hữu trí tuệ.
Sự thay đổi này xây dựng niềm tin, điều này sau đó mở khóa tốc độ trong phát triển AI. Khi các tổ chức thấy rằng AI có thể được xây dựng một cách có trách nhiệm với sự đồng ý rõ ràng và bồi thường cho các chủ sở hữu quyền, điều này mở khóa nhiều trường hợp sử dụng và nhu cầu dữ liệu hơn. Điều này tạo ra nhu cầu lớn hơn về các tập dữ liệu chất lượng cao, bắt đầu một vòng quay tự nhiên: các nguồn dữ liệu tốt nhất thu hút người mua, và người mua thu hút nhiều nguồn dữ liệu chất lượng cao hơn. Mọi người đều được lợi.
Dữ liệu tổng hợp thường được coi là giải pháp cho các thách thức về quyền riêng tư và thiên vị. Bạn nghĩ sự cân bằng đúng đắn nằm ở đâu giữa dữ liệu tổng hợp và dữ liệu thế giới thực, đặc biệt là trong các lĩnh vực có quy định cao như chăm sóc sức khỏe?
Dữ liệu tổng hợp hữu ích cho việc kiểm tra và tăng cường, nhưng nó không thể thay thế hoàn toàn sự phức tạp và tinh tế của các hoạt động thế giới thực tạo ra dữ liệu đào tạo và đánh giá. Điều này đặc biệt đúng trong chăm sóc sức khỏe, nơi lịch sử chăm sóc bệnh nhân lâu dài và kết quả trong bối cảnh tiếp cận chăm sóc quan trọng.
Chúng tôi tin rằng cơ bản rằng AI không được đào tạo trên sự phức tạp đầy đủ của thế giới thực không thể đột nhiên có khả năng tạo ra dữ liệu tổng hợp đại diện cho thế giới thực. Có lẽ, sự cân bằng đúng đắn sẽ là một phương pháp kết hợp, nơi chúng tôi sẽ cần nhiều nguồn dữ liệu chất lượng cao hơn đang bị cô lập và cần được mở khóa, và sau đó kết hợp chúng với dữ liệu tổng hợp được tạo bởi AI cho các trường hợp sử dụng cụ thể.
Làm thế nào Protege cho phép các tổ chức chia sẻ dữ liệu thế giới thực có giá trị một cách an toàn, mà không暴露 thông tin độc quyền, dữ liệu bệnh nhân hoặc quyền sở hữu trí tuệ?
Bảo mật và quyền riêng tư được tích hợp vào mọi bước của hành trình. Cho dù đó là thông qua các hệ thống nội bộ của chúng tôi hay các đối tác xác thực và quyền riêng tư của chúng tôi, chúng tôi đảm bảo rằng dữ liệu của chúng tôi vẫn nằm trong ranh giới dự định.
Trong chăm sóc sức khỏe, điều đó có nghĩa là tuân thủ các khuôn khổ quyền riêng tư và tuân thủ cho tất cả các giao dịch dữ liệu của chúng tôi. Trong truyền thông, điều đó có nghĩa là đảm bảo nội dung được cấp phép chỉ cho các mục đích sử dụng dự kiến theo các điều khoản cấp phép và thời hạn cấp phép đã thỏa thuận.
Khi các mô hình nền tảng tiếp tục phát triển, điều gì sẽ định nghĩa cho thế hệ tiếp theo của các đường ống dữ liệu đào tạo chất lượng cao?
Ba nguyên tắc sẽ dẫn đầu: nguồn gốc, độ chính xác và mục đích.
Nguồn gốc có nghĩa là khả năng theo dõi đầy đủ đến nguồn và điều khoản. Độ chính xác có nghĩa là việc kiểm tra cho các phương thức hoặc trường hợp sử dụng cụ thể chứ không phải các tập dữ liệu chung chung – hoặc dữ liệu không phản ánh hoàn toàn các tình huống thế giới thực. Mục đích có nghĩa là việc sắp xếp lựa chọn dữ liệu với các kết quả cụ thể, thực tế, chứ không chỉ các điểm chuẩn hư danh.
Cùng nhau, những điều này tạo ra một con đường hướng tới sử dụng dữ liệu chất lượng cao để thúc đẩy các mô hình tốt hơn.
Làm thế nào các quy định mới nổi như Đạo luật AI của EU và các khuôn khổ sắp tới của Hoa Kỳ ảnh hưởng đến cách tiếp cận của Protege đối với việc tuân thủ và hợp tác dữ liệu xuyên biên giới?
Các quy định này xác nhận cách tiếp cận của chúng tôi mà chúng tôi đã dựa vào khi thành lập công ty. Chúng nhấn mạnh sự minh bạch, nguồn gốc và quản lý rủi ro, những điều đã được tích hợp vào các sản phẩm và nền tảng của chúng tôi theo mặc định.
Chúng tôi tin rằng các cơ hội AI trong tương lai phải bảo vệ các chủ sở hữu quyền và duy trì các biện pháp bảo vệ quyền riêng tư nghiêm ngặt. Bằng cách coi những điều này là không thể thương lượng, chúng tôi giúp các đối tác dữ liệu và khách hàng tiến bước với sự tự tin và niềm tin trong bối cảnh AI luôn thay đổi. Mục tiêu của chúng tôi là làm cho việc phát triển AI có trách nhiệm không chỉ là điều đúng đắn để làm, mà còn là điều dễ dàng hơn.
Vai trò của bạn nhìn thấy sự minh bạch và nguồn gốc của dữ liệu trong việc xây dựng lại niềm tin của công chúng vào các hệ thống AI?
Niềm tin bắt đầu với khả năng theo dõi. Khi mọi người hiểu dữ liệu đến từ đâu và nó được sử dụng như thế nào, họ có nhiều khả năng tin tưởng vào kết quả AI.
Sự minh bạch và nguồn gốc tạo ra trách nhiệm từ chủ sở hữu dữ liệu đến nhà phát triển mô hình đến người dùng cuối. Chúng biến AI từ một hộp đen thành thứ gì đó có thể hiểu và giải thích được.
Sau khi tăng trưởng 20 lần và vòng Series A 25 triệu đô la, bạn đang cân bằng giữa việc mở rộng nhanh chóng với việc duy trì cam kết về đạo đức và bảo mật của Protege – và điều gì tiếp theo khi bạn tiếp tục định hình cách các tổ chức đào tạo mô hình AI một cách có trách nhiệm?
Đạo đức và bảo mật là nền tảng cho phép chúng tôi mở rộng quy mô. Mỗi quy trình, đối tác và sản phẩm mới đều được đo lường dựa trên việc hoạt động như thể mọi người đang theo dõi. Nếu mọi người thấy cách chúng tôi hoạt động và các quyết định chúng tôi đưa ra, tôi muốn họ tự hào.
Khi chúng tôi nhìn về năm 2026, chúng tôi đang mở rộng phạm vi của mình vào các lĩnh vực mới ngoài chăm sóc sức khỏe và truyền thông, cũng như tạo ra các sản phẩm dữ liệu mới như dữ liệu đánh giá cho việc tạo chuẩn mực khi các tổ chức AI cố gắng đo lường hiệu suất AI cho các trường hợp sử dụng thế giới thực tốt hơn. Mục tiêu của chúng tôi là trở thành nền tảng đáng tin cậy duy nhất cho dữ liệu AI thế giới thực và chuyên môn, được xây dựng để thúc đẩy tiến bộ AI trong thời gian dài.
Cảm ơn cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm có thể truy cập Protege.












