sơ khai Alex Ratner, CEO & Đồng sáng lập của Snorkel AI - Chuỗi bài phỏng vấn - Unite.AI
Kết nối với chúng tôi

Phỏng vấn

Alex Ratner, Giám đốc điều hành & Đồng sáng lập của Snorkel AI – Chuỗi bài phỏng vấn

mm

Được phát hành

 on

Alex Ratner là Giám đốc điều hành & Đồng sáng lập của ống thở AI, một công ty được thành lập từ phòng thí nghiệm AI của Stanford.

ống thở AI giúp việc phát triển AI nhanh chóng và thiết thực bằng cách chuyển đổi các quy trình phát triển AI thủ công thành các giải pháp có lập trình. Snorkel AI cho phép các doanh nghiệp phát triển AI phù hợp với khối lượng công việc riêng của họ bằng cách sử dụng dữ liệu và kiến ​​thức độc quyền của họ nhanh hơn 10-100 lần.

Điều gì ban đầu thu hút bạn đến với khoa học máy tính?

Có hai khía cạnh rất thú vị của khoa học máy tính khi bạn còn trẻ. Thứ nhất, bạn có thể học nhanh như mong muốn từ việc mày mò và xây dựng, nhận được phản hồi tức thì thay vì phải đợi giáo viên. Hai, bạn bắt đầu xây dựng rất nhiều mà không cần phải xin phép ai!

Tôi bắt đầu học lập trình khi còn nhỏ vì những lý do này. Tôi cũng yêu thích độ chính xác mà nó yêu cầu. Tôi rất thích quá trình trừu tượng hóa các quy trình và công việc phức tạp, sau đó mã hóa chúng theo cách mô-đun.

Sau này, khi trưởng thành, tôi quay trở lại với khoa học máy tính một cách chuyên nghiệp thông qua công việc tư vấn, nơi tôi được giao nhiệm vụ viết kịch bản để thực hiện một số phân tích cơ bản về kho tài liệu bằng sáng chế. Tôi bị mê hoặc bởi lượng kiến ​​thức của con người—bất cứ thứ gì mà bất kỳ ai từng cho là có thể được cấp bằng sáng chế— đều sẵn có, nhưng lại không thể tiếp cận được vì rất khó để thực hiện ngay cả những phân tích đơn giản nhất đối với văn bản kỹ thuật phức tạp và dữ liệu đa phương thức.

Đây là điều khiến tôi quay trở lại hố thỏ, và cuối cùng quay lại trường cao học ở Stanford, tập trung vào NLP, lĩnh vực sử dụng ML/AI trên ngôn ngữ tự nhiên.

Lần đầu tiên bạn bắt đầu và lãnh đạo dự án nguồn mở Snorkel khi còn ở Stanford, bạn có thể hướng dẫn chúng tôi về hành trình của những ngày đầu này không?

Hồi đó, chúng tôi, giống như nhiều người trong ngành, tập trung vào phát triển các thuật toán mới và—tức là tất cả những công cụ học máy “lạ mắt” mà mọi người trong cộng đồng đã nghiên cứu và xuất bản các bài báo về nó.

Tuy nhiên, chúng tôi luôn cam kết đặt nền tảng này vào các vấn đề thực tế—chủ yếu là với các bác sĩ và nhà khoa học tại Stanford. Nhưng mỗi khi chúng tôi đưa ra một mô hình hoặc thuật toán mới, phản hồi lại trở thành “chắc chắn rồi, chúng tôi sẽ thử điều đó, nhưng chúng tôi cần tất cả dữ liệu đào tạo được gắn nhãn này mà chúng tôi không có thời gian để tạo!” 

Chúng tôi nhận thấy rằng vấn đề lớn chưa được nói ra là xung quanh quá trình gắn nhãn và quản lý dữ liệu đào tạo đó — vì vậy chúng tôi chuyển toàn bộ trọng tâm sang vấn đề đó, đó là cách dự án Snorkel và ý tưởng về “AI lấy dữ liệu làm trung tâm” bắt đầu.

Snorkel có cách tiếp cận AI lấy dữ liệu làm trung tâm. Bạn có thể định nghĩa điều này có ý nghĩa gì và nó khác với việc phát triển AI lấy mô hình làm trung tâm như thế nào không?

AI tập trung vào dữ liệu có nghĩa là tập trung vào việc xây dựng dữ liệu tốt hơn để xây dựng các mô hình tốt hơn.

Điều này trái ngược với—nhưng hoạt động song song với—AI lấy mô hình làm trung tâm. Trong AI lấy mô hình làm trung tâm, các nhà khoa học hoặc nhà nghiên cứu dữ liệu giả định dữ liệu là tĩnh và dồn sức lực vào việc điều chỉnh các tham số và kiến ​​trúc mô hình để đạt được kết quả tốt hơn.

Các nhà nghiên cứu vẫn đang làm rất tốt công việc về AI lấy mô hình làm trung tâm, nhưng các mô hình sẵn có và kỹ thuật ML tự động đã được cải thiện rất nhiều đến mức việc lựa chọn mô hình đã trở thành hàng hóa thông dụng tại thời điểm sản xuất. Trong trường hợp đó, cách tốt nhất để cải thiện các mô hình này là cung cấp cho chúng nhiều dữ liệu tốt hơn.

Các nguyên tắc cốt lõi của phương pháp tiếp cận AI tập trung vào dữ liệu là gì?

Nguyên tắc cốt lõi của AI tập trung vào dữ liệu rất đơn giản: dữ liệu tốt hơn xây dựng các mô hình tốt hơn. 

Trong công việc học tập của mình, chúng tôi gọi đây là “lập trình dữ liệu”. Ý tưởng là nếu bạn cung cấp cho một mô hình đủ mạnh các ví dụ về đầu vào và đầu ra dự kiến, thì mô hình đó sẽ học cách sao chép các mẫu đó.

Điều này đưa ra một thách thức lớn hơn bạn có thể mong đợi. Phần lớn dữ liệu không có nhãn—hoặc ít nhất, không có nhãn hữu ích cho ứng dụng của bạn. Việc dán nhãn dữ liệu đó bằng tay đòi hỏi sự tẻ nhạt, thời gian và công sức của con người.

Việc có một tập dữ liệu được dán nhãn cũng không đảm bảo chất lượng. Lỗi của con người len lỏi khắp mọi nơi. Mỗi ví dụ không chính xác trong sự thật cơ bản của bạn sẽ làm giảm hiệu suất của mô hình cuối cùng. Không có mức độ điều chỉnh tham số nào có thể che lấp được thực tế đó. Các nhà nghiên cứu thậm chí còn tìm thấy các bản ghi được dán nhãn không chính xác trong các bộ dữ liệu nguồn mở cơ bản.

Bạn có thể giải thích thêm ý nghĩa của việc AI lấy dữ liệu làm trung tâm được lập trình không?

Việc ghi nhãn dữ liệu theo cách thủ công đặt ra những thách thức nghiêm trọng. Làm như vậy đòi hỏi rất nhiều thời gian của con người và đôi khi những giờ con người đó có thể tốn kém. Ví dụ, các tài liệu y tế chỉ có thể được dán nhãn bởi bác sĩ.

Ngoài ra, việc ghi nhãn thủ công chạy nước rút thường là các dự án sử dụng một lần. Người gắn nhãn chú thích dữ liệu theo một lược đồ cứng nhắc. Nếu doanh nghiệp cần thay đổi và yêu cầu một bộ nhãn khác, người dán nhãn phải bắt đầu lại từ đầu.

Các phương pháp tiếp cận có lập trình đối với AI tập trung vào dữ liệu sẽ giảm thiểu cả hai vấn đề này. Hệ thống ghi nhãn có lập trình của Snorkel AI kết hợp các tín hiệu đa dạng—từ các mô hình cũ đến các nhãn hiện có cho đến cơ sở kiến ​​thức bên ngoài—để phát triển các nhãn xác suất trên quy mô lớn. Nguồn tín hiệu chính của chúng tôi đến từ các chuyên gia về chủ đề cộng tác với các nhà khoa học dữ liệu để xây dựng các chức năng ghi nhãn. Chúng mã hóa phán đoán chuyên môn của họ thành các quy tắc có thể mở rộng, cho phép nỗ lực đầu tư vào một quyết định có thể tác động đến hàng chục hoặc hàng trăm điểm dữ liệu.

Khung này cũng linh hoạt. Thay vì bắt đầu lại từ đầu khi nhu cầu kinh doanh thay đổi, người dùng thêm, xóa và điều chỉnh các chức năng ghi nhãn để áp dụng nhãn mới trong vài giờ thay vì vài ngày.

Cách tiếp cận tập trung vào dữ liệu này cho phép mở rộng nhanh chóng dữ liệu chưa được gắn nhãn như thế nào?

Phương pháp tiếp cận có lập trình của chúng tôi đối với AI tập trung vào dữ liệu cho phép mở rộng nhanh chóng dữ liệu chưa được gắn nhãn bằng cách khuếch đại tác động của từng lựa chọn. Sau khi các chuyên gia về chủ đề thiết lập một tập hợp sự thật cơ bản nhỏ ban đầu, họ bắt đầu cộng tác với các nhà khoa học dữ liệu để lặp lại nhanh chóng. Họ xác định một số chức năng ghi nhãn, huấn luyện mô hình nhanh, phân tích tác động của các chức năng ghi nhãn và sau đó thêm, xóa hoặc điều chỉnh các chức năng ghi nhãn nếu cần.

Mỗi chu trình cải thiện hiệu suất của mô hình cho đến khi đáp ứng hoặc vượt mục tiêu của dự án. Điều này có thể giảm thời gian ghi nhãn dữ liệu hàng tháng xuống chỉ còn vài giờ. Trong một dự án nghiên cứu của Snorkel, hai nhà nghiên cứu của chúng tôi đã dán nhãn 20,000 tài liệu trong một ngày—một khối lượng mà những người dán nhãn thủ công có thể phải mất mười tuần hoặc lâu hơn.

Snorkel cung cấp nhiều giải pháp AI bao gồm Snorkel Flow, Snorkel GenGlow và Snorkel Foundry. Sự khác biệt giữa các dịch vụ này là gì?

Bộ Snorkel AI cho phép người dùng tạo các chức năng ghi nhãn (ví dụ: tìm kiếm từ khóa hoặc mẫu trong tài liệu) để gắn nhãn theo chương trình cho hàng triệu điểm dữ liệu trong vài phút, thay vì gắn thẻ thủ công từng điểm dữ liệu một lần.

Nó nén thời gian cần thiết để các công ty chuyển dữ liệu độc quyền thành các mô hình sẵn sàng sản xuất và bắt đầu trích xuất giá trị từ chúng. Snorkel AI cho phép doanh nghiệp mở rộng quy mô các phương pháp tiếp cận vòng lặp của con người bằng cách kết hợp hiệu quả khả năng phán đoán của con người và kiến ​​thức chuyên môn về chủ đề.

Điều này dẫn đến AI minh bạch và dễ giải thích hơn, trang bị cho doanh nghiệp quản lý sự thiên vị và mang lại kết quả có trách nhiệm.

Đi sâu vào vấn đề cốt lõi, Snorkels AI cho phép các doanh nghiệp Fortune 500:

  • Phát triển dữ liệu được dán nhãn chất lượng cao để đào tạo mô hình hoặc nâng cao RAG;
  • Tùy chỉnh LLM bằng tinh chỉnh;
  • Chắt lọc LLM thành các mô hình chuyên dụng nhỏ hơn nhiều và vận hành rẻ hơn nhiều;
  • Xây dựng LLM theo miền và nhiệm vụ cụ thể bằng đào tạo trước.

Bạn đã viết một số bài báo mang tính đột phá, theo bạn bài báo nào là quan trọng nhất?

Một trong những bài báo quan trọng là bài gốc trên lập trình dữ liệu (gắn nhãn dữ liệu huấn luyện theo chương trình) và trên một dữ liệu dành cho Snorkel.

Tầm nhìn của bạn về tương lai của Snorkel là gì?

Tôi thấy Snorkel trở thành đối tác đáng tin cậy của tất cả các doanh nghiệp lớn nghiêm túc về AI.

Snorkel Flow sẽ trở thành một công cụ phổ biến cho các nhóm khoa học dữ liệu tại các doanh nghiệp lớn—cho dù họ đang tinh chỉnh các mô hình ngôn ngữ lớn tùy chỉnh cho tổ chức của mình, xây dựng mô hình phân loại hình ảnh hay xây dựng các mô hình hồi quy logistic đơn giản, có thể triển khai.

Bất kể doanh nghiệp cần loại mô hình nào, họ sẽ cần dữ liệu được gắn nhãn chất lượng cao để đào tạo nó.

Cảm ơn bạn về cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm hãy truy cập ống thở AI,

Một đối tác sáng lập của unity.AI & một thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot.

Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá.