Phỏng vấn
Bobby Samuels, Đồng sáng lập và CEO của Protege – Loạt phỏng vấn

Bobby Samuels dẫn dắt chiến lược và thực hiện của Protege trên sản phẩm, thị trường và tạo vốn. Ông đồng sáng lập Protege vào năm 2024 và đã giữ vị trí CEO từ khi thành lập. Dưới sự lãnh đạo của ông, Protege đã huy động được 35 triệu đô la tiền vốn và mở rộng quy mô lên 30 triệu đô la doanh thu hàng năm trong năm đầu tiên hoạt động. Trước đó, Bobby là Tổng giám đốc của Privacy Hub tại Datavant, nơi ông đã giúp thúc đẩy sự tăng trưởng của công ty trước khi sáp nhập với Ciox Health để tạo ra hệ sinh thái dữ liệu sức khỏe trung lập lớn nhất tại Mỹ. Trước đó, ông đã lãnh đạo các đối tác tại LiveRamp, nơi ông đã phát triển chuyên môn trong việc xây dựng mạng dữ liệu trung lập. Bobby拥有 bằng Thạc sĩ Quản trị Kinh doanh từ Trường Kinh doanh Sau đại học Stanford và bằng Cử nhân từ Đại học Harvard, nơi ông từng là Chủ tịch của The Harvard Crimson. Ông mang lại chuyên môn sâu về trao đổi dữ liệu được quản lý và chuyển đổi cơ sở hạ tầng phức tạp thành khả năng AI đáng tin cậy cho các đối tác doanh nghiệp.
Protege là một công ty cơ sở dữ liệu kết nối các chủ sở hữu dữ liệu độc quyền có giá trị cao với các nhà phát triển xây dựng mô hình AI, cung cấp một cách quản lý và bảo vệ quyền riêng tư để cấp phép và truy cập dữ liệu đào tạo với quy mô lớn. Thành lập vào năm 2024, nền tảng này tập trung vào việc mở khóa dữ liệu đa phương thức – như hồ sơ bệnh án, hình ảnh, video và âm thanh – vốn truyền thống khó cho các nhóm AI nguồn, đồng thời cung cấp cho các nhà cung cấp dữ liệu quyền kiểm soát đầy đủ về quyền riêng tư, tuân thủ và kiếm tiền. Đối với các nhà xây dựng AI, Protege đơn giản hóa việc khám phá và mua lại thông qua danh mục được quản lý và các công cụ để lọc và kết hợp dữ liệu, giúp tăng tốc phát triển trên các lĩnh vực như chăm sóc sức khỏe, truyền thông và các lĩnh vực khác. Về bản chất, công ty này nhằm mục đích trở thành lớp dữ liệu đáng tin cậy cho AI, giảm một trong những điểm nghẽn lớn nhất trong phát triển mô hình hiện đại.
Điều gì đã truyền cảm hứng cho bạn để thành lập Protege, và cách kinh nghiệm của bạn trong việc lãnh đạo dữ liệu, quyền riêng tư và các sáng kiến chuyển đổi tổ chức tại Datavant – cũng như các vai trò trước đó tại LiveRamp – đã định hình tầm nhìn của bạn trong việc xây dựng nó?
Kinh nghiệm của tôi tại Datavant đã chỉ cho tôi cả sức mạnh và sự phức tạp của việc kết nối dữ liệu một cách có trách nhiệm với quy mô lớn. Datavant đã xây dựng một nền tảng giúp liên kết thông tin sức khỏe nhạy cảm trong khi duy trì quyền riêng tư của bệnh nhân, và điều đó đã trở nên rõ ràng với tôi rằng dữ liệu được quản lý tốt có thể thúc đẩy tiến bộ xã hội lớn. Nhưng khi AI tăng tốc, tôi đã thấy cùng một mô hình lặp lại: tập trung vào tính toán và kiến trúc AI, nhưng không quá nhiều vào dữ liệu thúc đẩy các mô hình chính nó. Giả thuyết của chúng tôi là nút thắt lớn tiếp theo là truy cập vào dữ liệu phù hợp. Tôi muốn xây dựng một lớp cơ sở dữ liệu làm cho việc chia sẻ dữ liệu an toàn, minh bạch và có lợi cho cả người nắm giữ dữ liệu và nhà xây dựng AI, đồng thời cung cấp chuyên môn về dữ liệu AI cụ thể để hỗ trợ tiến bộ AI nghiên cứu. Đó là điều đã dẫn đến Protege.
Protege mô tả mình là đang xây dựng “xương sống của nền kinh tế dữ liệu AI”. Bạn định nghĩa lớp này như thế nào, và cơ sở hạ tầng dữ liệu thực sự cho AI trông như thế nào trong thực tế?
Protege là mô liên kết cho phép chủ sở hữu dữ liệu và nhà phát triển AI cộng tác một cách an toàn và hiệu quả. Cơ sở hạ tầng dữ liệu thực sự cho AI làm được nhiều hơn việc lưu trữ hoặc di chuyển dữ liệu; nó xác minh nguồn gốc, quản lý quyền và đảm bảo rằng mỗi tập dữ liệu được sử dụng một cách đạo đức và có sự đồng ý. Trong thực tế, nó là một nền tảng duy nhất nơi các chủ sở hữu nội dung có thể cấp phép dữ liệu một cách tự tin và được đền bù đúng mức, và các nhà xây dựng AI có thể truy cập các tập dữ liệu quan trọng trên các ngành, lĩnh vực, phương thức và định dạng mà họ cần để đào tạo và đánh giá mô hình một cách có trách nhiệm.
Một trong những nhiệm vụ cốt lõi của bạn là đảm bảo các mô hình được đào tạo trên các tập dữ liệu được cấp phép, đại diện và dựa trên sự đồng ý. Protege hoạt động hóa việc thu thập dữ liệu một cách đạo đức như thế nào?
Chúng tôi hoạt động hóa đạo đức thông qua hệ thống, không phải khẩu hiệu. Với mọi nguồn và nội dung dữ liệu mà chúng tôi tổng hợp và cung cấp, chúng tôi đảm bảo rằng các chủ sở hữu quyền vẫn duy trì quyền sở hữu với các điều khoản cấp phép và bảo vệ quyền riêng tư rõ ràng
Nền tảng của chúng tôi kết hợp chuyên môn nghiên cứu của con người với đường ống và hệ thống dữ liệu có thể mở rộng để cung cấp dữ liệu được bảo vệ quyền. Chúng tôi cũng làm việc với khách hàng mua dữ liệu của mình để đảm bảo rằng dữ liệu là đại diện của các dân số thực tế và phản ánh các trường hợp sử dụng thực tế. Bằng cách giải quyết cả nhà cung cấp và người mua dữ liệu với sự rõ ràng và nhất quán, chúng tôi có thể duy trì sự tuân thủ, công bằng và niềm tin.
Ngành công nghiệp AI đã lâu được thúc đẩy bởi một tâm lý “scrape trước, hỏi sau”. Bạn nhìn thấy việc cấp phép dữ liệu minh bạch sẽ thay đổi mối quan hệ giữa nhà cung cấp dữ liệu và nhà phát triển AI như thế nào?
Minh bạch biến việc trích xuất thành hợp tác. Thay vì trích xuất, các công ty AI có tùy chọn cấp phép dữ liệu một cách đạo đức từ các nhà cung cấp dữ liệu được xác minh, điều này tạo ra các động lực tốt hơn cho cả hai bên. Các nhà cung cấp dữ liệu thu được doanh thu và kiểm soát, và các nhà phát triển AI nhận được tập dữ liệu sạch hơn, chất lượng cao hơn mà không có vấn đề pháp lý và sở hữu trí tuệ.
Sự thay đổi này xây dựng niềm tin, điều này sau đó mở khóa tốc độ trong phát triển AI. Khi các tổ chức thấy rằng AI có thể được xây dựng một cách có trách nhiệm với sự đồng ý và bồi thường rõ ràng cho các chủ sở hữu quyền, điều này mở khóa nhiều trường hợp sử dụng và nhu cầu dữ liệu hơn. Điều này tạo ra nhu cầu lớn hơn về các tập dữ liệu chất lượng cao, bắt đầu một vòng quay tự nhiên: các nguồn dữ liệu tốt nhất thu hút người mua, và người mua thu hút nhiều nguồn dữ liệu chất lượng cao hơn. Mọi người đều được lợi.
Dữ liệu tổng hợp thường được coi là giải pháp cho các thách thức về quyền riêng tư và thiên vị. Bạn nghĩ sự cân bằng đúng nằm ở đâu giữa dữ liệu tổng hợp và dữ liệu thế giới thực, đặc biệt là trong các lĩnh vực có quy định cao như chăm sóc sức khỏe?
Dữ liệu tổng hợp hữu ích cho việc kiểm tra và tăng cường, nhưng nó không thể thay thế hoàn toàn sự phức tạp và tinh tế của các hoạt động thế giới thực tạo ra dữ liệu đào tạo và đánh giá. Điều này đặc biệt đúng trong chăm sóc sức khỏe, nơi lịch sử chăm sóc bệnh nhân lâu dài và kết quả trong bối cảnh tiếp cận chăm sóc quan trọng.
Chúng tôi tin rằng AI không được đào tạo trên sự phức tạp đầy đủ của thế giới thực không thể đột nhiên có khả năng tạo ra dữ liệu tổng hợp đại diện cho thế giới thực. Có khả năng sự cân bằng đúng sẽ là một cách tiếp cận kết hợp, nơi chúng tôi sẽ cần nhiều nguồn dữ liệu chất lượng cao, hữu ích hơn hiện đang bị cô lập và cần được mở khóa, và sau đó kết hợp với dữ liệu tổng hợp được tạo bởi AI cho các trường hợp sử dụng cụ thể.
Làm thế nào Protege cho phép các tổ chức chia sẻ dữ liệu thế giới thực có giá trị một cách an toàn, mà không暴 lộ thông tin độc quyền, dữ liệu bệnh nhân hoặc tài sản trí tuệ?
Bảo mật và quyền riêng tư được tích hợp vào mọi bước của hành trình. Cho dù đó là thông qua các hệ thống nội bộ của chúng tôi hay các đối tác xác thực và quyền riêng tư của chúng tôi xác minh các chuyển giao dữ liệu của chúng tôi, chúng tôi đảm bảo rằng dữ liệu của chúng tôi vẫn nằm trong ranh giới dự định.
Trong chăm sóc sức khỏe, điều đó có nghĩa là tuân thủ các khuôn khổ quyền riêng tư và tuân thủ cho tất cả các chuyển giao dữ liệu của chúng tôi. Trong truyền thông, điều đó có nghĩa là đảm bảo nội dung chỉ được cấp phép cho sử dụng dự kiến theo các điều khoản cấp phép và thời hạn được thỏa thuận trước.
Khi các mô hình nền tảng tiếp tục phát triển, điều gì sẽ định nghĩa thế hệ tiếp theo của các đường ống dữ liệu đào tạo chất lượng cao?
Ba nguyên tắc sẽ dẫn đầu: nguồn gốc, chính xác và mục đích.
Nguồn gốc có nghĩa là khả năng theo dõi đầy đủ đến nguồn và điều khoản. Chính xác có nghĩa là kiểm duyệt cho các phương thức hoặc trường hợp sử dụng cụ thể chứ không phải các tập dữ liệu chung – hoặc dữ liệu không phản ánh đầy đủ các tình huống thế giới thực. Mục đích có nghĩa là sắp xếp việc lựa chọn dữ liệu với các kết quả cụ thể, thực tế, không chỉ các điểm chuẩn hư vô.
Cùng nhau, những điều này tạo ra một con đường hướng tới sử dụng dữ liệu chất lượng cao để thúc đẩy các mô hình tốt hơn.
Làm thế nào các quy định mới nổi như Đạo luật AI của EU và các khuôn khổ sắp tới của Mỹ ảnh hưởng đến cách tiếp cận của Protege về tuân thủ và hợp tác dữ liệu xuyên biên giới?
Những quy định này xác thực cách tiếp cận của chúng tôi mà chúng tôi đã dựa vào khi thành lập công ty. Chúng nhấn mạnh vào minh bạch, nguồn gốc và quản lý rủi ro, những điều này được nhúng vào sản phẩm và nền tảng của chúng tôi theo mặc định.
Chúng tôi tin rằng các cơ hội AI trong tương lai phải bảo vệ các chủ sở hữu quyền và duy trì các kiểm soát quyền riêng tư nghiêm ngặt. Bằng cách coi những điều này là không thể thương lượng, chúng tôi giúp các đối tác dữ liệu và khách hàng của mình tiến bước với sự tự tin và niềm tin trong bối cảnh AI luôn thay đổi. Mục tiêu của chúng tôi là làm cho việc phát triển AI có trách nhiệm không chỉ là điều đúng đắn để làm, mà còn là điều dễ dàng hơn để làm.
Vai trò gì bạn nhìn thấy sự minh bạch và nguồn gốc của dữ liệu trong việc xây dựng lại niềm tin của công chúng vào các hệ thống AI?
Niềm tin bắt đầu với khả năng theo dõi. Khi mọi người hiểu dữ liệu đến từ đâu và nó được sử dụng như thế nào, họ có nhiều khả năng hơn để tin tưởng vào kết quả AI.
Minh bạch và nguồn gốc tạo ra trách nhiệm từ chủ sở hữu dữ liệu đến nhà phát triển mô hình đến người dùng cuối. Chúng biến AI từ một hộp đen thành thứ gì đó có thể hiểu và giải thích được.
Sau khi tăng trưởng 20 lần và vòng Series A 25 triệu đô la, bạn đang cân bằng giữa việc mở rộng nhanh với duy trì các cam kết về đạo đức và bảo mật của Protege – và điều gì tiếp theo khi bạn tiếp tục định hình cách các tổ chức đào tạo mô hình AI một cách có trách nhiệm?
Đạo đức và bảo mật là nền tảng cho phép chúng tôi mở rộng quy mô. Mỗi quy trình mới, đối tác và sản phẩm đều được đo lường dựa trên việc hoạt động như thể mọi người đang theo dõi. Nếu mọi người thấy cách chúng tôi hoạt động và các quyết định chúng tôi đưa ra, tôi muốn họ cảm thấy tự hào.
Khi chúng tôi nhìn về phía năm 2026, chúng tôi đang mở rộng phạm vi của mình vào các lĩnh vực mới ngoài chăm sóc sức khỏe và truyền thông, cũng như tạo ra các sản phẩm dữ liệu mới như dữ liệu đánh giá cho việc tạo điểm chuẩn khi các tổ chức AI nỗ lực đo lường hiệu suất AI cho các trường hợp sử dụng thực tế tốt hơn. Mục tiêu của chúng tôi là trở thành nền tảng đáng tin cậy duy nhất cho dữ liệu AI thế giới thực và chuyên môn, được xây dựng để thúc đẩy tiến bộ AI trong thời gian dài.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm nên truy cập Protege.












