Connect with us

Ingo Mierswa, Người sáng lập & Chủ tịch tại RapidMiner, Inc – Loạt phỏng vấn

Trí tuệ nhân tạo

Ingo Mierswa, Người sáng lập & Chủ tịch tại RapidMiner, Inc – Loạt phỏng vấn

mm

Ingo Mierswa là Người sáng lập & Chủ tịch tại RapidMiner, Inc. RapidMiner mang trí tuệ nhân tạo đến doanh nghiệp thông qua một nền tảng khoa học dữ liệu mở và có thể mở rộng. Được xây dựng cho các nhóm phân tích, RapidMiner thống nhất toàn bộ chu kỳ khoa học dữ liệu từ chuẩn bị dữ liệu đến học máy đến triển khai mô hình dự đoán. Hơn 625.000 chuyên gia phân tích sử dụng sản phẩm RapidMiner để thúc đẩy doanh thu, giảm chi phí và tránh rủi ro.

Điều gì đã truyền cảm hứng cho bạn khi ra mắt RapidMiner?

Tôi đã làm việc trong lĩnh vực tư vấn khoa học dữ liệu trong nhiều năm và tôi thấy cần một nền tảng trực quan và dễ tiếp cận hơn cho những người không có trình độ chính thức về khoa học dữ liệu. Nhiều giải pháp hiện có tại thời điểm đó phụ thuộc vào mã hóa và lập kịch bản và chúng đơn giản không thân thiện với người dùng. Hơn nữa, điều này làm cho dữ liệu khó quản lý và duy trì các giải pháp được phát triển trong các nền tảng đó. Về cơ bản, tôi nhận ra rằng những dự án này không cần phải khó khăn như vậy, vì vậy chúng tôi bắt đầu tạo nền tảng RapidMiner để cho phép bất kỳ ai cũng có thể trở thành một nhà khoa học dữ liệu tuyệt vời.

Bạn có thể thảo luận về quản trị minh bạch đang được sử dụng bởi RapidMiner?

Khi bạn không thể giải thích một mô hình, rất khó để điều chỉnh, tin cậy và dịch. Một lượng lớn công việc khoa học dữ liệu là truyền đạt kết quả đến người khác để các bên liên quan có thể hiểu cách cải thiện quy trình. Điều này đòi hỏi sự tin cậy và hiểu biết sâu sắc. Ngoài ra, các vấn đề về sự tin cậy và dịch có thể khiến việc vượt qua các yêu cầu doanh nghiệp để đưa mô hình vào sản xuất trở nên rất khó khăn. Chúng tôi đang chiến đấu chống lại trận chiến này theo một số cách khác nhau:

Là một nền tảng khoa học dữ liệu trực quan, RapidMiner bản chất đã lập bản đồ một lời giải thích cho tất cả các đường ống dữ liệu và mô hình trong một định dạng có thể tiêu thụ cao có thể được hiểu bởi các nhà khoa học dữ liệu hoặc không phải nhà khoa học dữ liệu. Nó làm cho các mô hình minh bạch và giúp người dùng hiểu hành vi của mô hình và đánh giá điểm mạnh và điểm yếu của nó cũng như phát hiện các偏见 tiềm năng.

Ngoài ra, tất cả các mô hình được tạo trong nền tảng đều đi kèm với các hình ảnh hóa rộng rãi cho người dùng – thường là người tạo mô hình – để có được thông tin chi tiết về mô hình, hiểu hành vi của mô hình và đánh giá các偏见 của mô hình.

RapidMiner cũng cung cấp giải thích mô hình – ngay cả khi ở trong sản xuất: Đối với mỗi dự đoán được tạo bởi một mô hình, RapidMiner tạo và thêm các yếu tố ảnh hưởng đã dẫn đến hoặc ảnh hưởng đến quyết định được thực hiện bởi mô hình đó trong sản xuất.

Cuối cùng – và điều này rất quan trọng đối với tôi cá nhân vì tôi đã thúc đẩy điều này với các nhóm kỹ sư của chúng tôi một vài năm trước – RapidMiner cũng cung cấp khả năng mô phỏng mô hình cực kỳ mạnh mẽ, cho phép người dùng mô phỏng và quan sát hành vi của mô hình dựa trên dữ liệu đầu vào được cung cấp bởi người dùng. Dữ liệu đầu vào có thể được đặt và thay đổi rất dễ dàng, cho phép người dùng hiểu hành vi dự đoán của các mô hình trên các trường hợp giả định hoặc thực tế. Mô phỏng cũng hiển thị các yếu tố ảnh hưởng đến quyết định của mô hình. Người dùng – trong trường hợp này thậm chí là người dùng kinh doanh hoặc chuyên gia lĩnh vực – có thể hiểu hành vi của mô hình, xác thực quyết định của mô hình so với kết quả thực tế hoặc kiến thức lĩnh vực và xác định các vấn đề. Mô phỏng cho phép bạn mô phỏng thế giới thực và nhìn vào tương lai – vào tương lai của bạn, thực sự.

RapidMiner sử dụng học sâu như thế nào?

Sử dụng học sâu của RapidMiner là điều chúng tôi rất tự hào. Học sâu có thể rất khó áp dụng và những người không phải nhà khoa học dữ liệu thường gặp khó khăn khi thiết lập các mạng lưới mà không có hỗ trợ từ chuyên gia. RapidMiner làm cho quá trình này trở nên đơn giản nhất có thể cho người dùng của tất cả các loại. Học sâu là, ví dụ, một phần của sản phẩm học máy tự động (ML) của chúng tôi gọi là RapidMiner Go. Ở đây, người dùng không cần biết bất cứ điều gì về học sâu để sử dụng các mô hình tinh vi như vậy. Ngoài ra, người dùng mạnh có thể đi sâu hơn và sử dụng các thư viện học sâu phổ biến như Tensorflow, Keras hoặc DeepLearning4J ngay từ các luồng công việc trực quan mà họ đang xây dựng với RapidMiner. Điều này giống như chơi với các khối xây dựng và đơn giản hóa trải nghiệm cho người dùng có ít kỹ năng khoa học dữ liệu. Thông qua cách tiếp cận này, người dùng của chúng tôi có thể xây dựng các kiến trúc mạng lưới linh hoạt với các hàm kích hoạt khác nhau và số lượng nút và lớp người dùng xác định, nhiều lớp với số lượng nút khác nhau và chọn từ các kỹ thuật đào tạo khác nhau.

Loại học máy nào khác được sử dụng?

Tất cả! Chúng tôi cung cấp hàng trăm thuật toán học khác nhau như một phần của nền tảng RapidMiner – mọi thứ bạn có thể áp dụng trong các ngôn ngữ lập trình khoa học dữ liệu phổ biến Python và R. Trong số những thứ khác, RapidMiner cung cấp các phương pháp cho Naive Bayes, hồi quy như Mô hình tuyến tính tổng quát, phân cụm như k-Means, FP-Growth, Cây quyết định, Rừng ngẫu nhiên, Học sâu song song, và Cây tăng cường gradient. Những và nhiều hơn nữa đều là một phần của thư viện mô hình của RapidMiner và có thể được sử dụng với một cú nhấp chuột.

Bạn có thể thảo luận về cách Auto Model biết các giá trị tối ưu để sử dụng?

RapidMiner AutoModel sử dụng tự động hóa thông minh để tăng tốc mọi thứ người dùng làm và đảm bảo các mô hình chính xác, âm thanh được xây dựng. Điều này bao gồm lựa chọn thể hiện và xóa bỏ điểm dị biệt tự động, kỹ thuật tính năng cho các loại dữ liệu phức tạp như ngày hoặc văn bản và toàn bộ kỹ thuật tính năng tự động đa mục tiêu để chọn các tính năng tối ưu và xây dựng các tính năng mới. Auto Model cũng bao gồm các phương pháp làm sạch dữ liệu khác để sửa các vấn đề phổ biến trong dữ liệu như giá trị thiếu, chuẩn hóa dữ liệu bằng cách đánh giá chất lượng và giá trị của các cột dữ liệu và các biến đổi khác nhau.

Auto Model cũng trích xuất siêu dữ liệu chất lượng dữ liệu – ví dụ, cách một cột hành xử như một ID hoặc liệu có nhiều giá trị thiếu. Siêu dữ liệu này được sử dụng ngoài siêu dữ liệu cơ bản trong việc tự động hóa và hỗ trợ người dùng trong việc ‘sử dụng các giá trị tối ưu’ và giải quyết các vấn đề chất lượng dữ liệu.

Để biết thêm chi tiết, chúng tôi đã vạch ra tất cả trong Bản thiết kế Auto Model của chúng tôi. (Hình ảnh dưới đây để cung cấp thêm ngữ cảnh)

Có bốn giai đoạn cơ bản nơi tự động hóa được áp dụng:

– Chuẩn bị dữ liệu: Phân tích tự động dữ liệu để xác định các vấn đề chất lượng phổ biến như tương quan, giá trị thiếu và ổn định.
– Lựa chọn và tối ưu hóa mô hình tự động, bao gồm toàn bộ xác thực và so sánh hiệu suất, đề xuất các kỹ thuật học máy tốt nhất cho dữ liệu đã cho và xác định các tham số tối ưu.
– Mô phỏng mô hình để giúp xác định các hành động cụ thể (đề xuất) để thực hiện nhằm đạt được kết quả mong muốn được dự đoán bởi mô hình.
– Trong giai đoạn triển khai và vận hành mô hình, người dùng được hiển thị các yếu tố như trôi, thiên vị và tác động kinh doanh, tự động mà không cần thêm công việc.

Thiên vị máy tính là một vấn đề với bất kỳ loại AI nào, có bất kỳ kiểm soát nào được thực hiện để ngăn chặn thiên vị từ việc xâm nhập vào kết quả?

Vâng, đây thực sự là điều cực kỳ quan trọng đối với khoa học dữ liệu đạo đức. Các tính năng quản trị được đề cập trước đó đảm bảo rằng người dùng luôn có thể xem chính xác dữ liệu nào đã được sử dụng để xây dựng mô hình, cách nó được biến đổi và liệu có thiên vị trong việc chọn dữ liệu. Ngoài ra, các tính năng của chúng tôi để phát hiện trôi là một công cụ mạnh mẽ khác để phát hiện thiên vị. Nếu một mô hình trong sản xuất thể hiện sự trôi lớn trong dữ liệu đầu vào, điều này có thể là dấu hiệu rằng thế giới đã thay đổi đáng kể. Tuy nhiên, nó cũng có thể là một chỉ số rằng có thiên vị nghiêm trọng trong dữ liệu đào tạo. Trong tương lai, chúng tôi đang xem xét việc đi thêm một bước nữa và xây dựng các mô hình học máy có thể được sử dụng để phát hiện thiên vị trong các mô hình khác.

Bạn có thể thảo luận về RapidMiner AI Cloud và cách nó khác biệt so với các sản phẩm cạnh tranh?

Các yêu cầu cho một dự án khoa học dữ liệu có thể rất lớn, phức tạp và đòi hỏi tính toán, điều này đã làm cho việc sử dụng công nghệ đám mây trở thành một chiến lược hấp dẫn cho các nhà khoa học dữ liệu. Thật không may, các nền tảng khoa học dữ liệu dựa trên đám mây bản địa gắn bạn với dịch vụ đám mây và dịch vụ lưu trữ dữ liệu của nhà cung cấp đám mây đó.

RapidMiner AI Cloud chỉ đơn giản là dịch vụ phân phối đám mây của nền tảng RapidMiner. Dịch vụ có thể được tùy chỉnh để phù hợp với môi trường của bất kỳ khách hàng nào, bất kể chiến lược đám mây của họ. Điều này rất quan trọng trong những ngày này vì cách tiếp cận của hầu hết các doanh nghiệp đối với quản lý dữ liệu đám mây đang phát triển rất nhanh trong khí hậu hiện tại. Linh hoạt thực sự là điều làm cho RapidMiner AI Cloud khác biệt. Nó có thể chạy trong bất kỳ dịch vụ đám mây nào, ngăn xếp đám mây riêng hoặc trong một thiết lập hỗn hợp. Chúng tôi là di động đám mây, trung lập đám mây, đa đám mây – bất cứ điều gì bạn thích gọi nó.

RapidMiner AI Cloud cũng rất ít gây rối, vì tất nhiên, chúng tôi cung cấp khả năng quản lý tất cả hoặc một phần của việc triển khai cho khách hàng để họ có thể tập trung vào việc chạy doanh nghiệp của mình với AI, không phải ngược lại. Thậm chí còn có một tùy chọn theo nhu cầu, cho phép bạn khởi động môi trường khi cần cho các dự án ngắn.

RapidMiner Radoop loại bỏ một số sự phức tạp đằng sau khoa học dữ liệu, bạn có thể cho chúng tôi biết Radoop mang lại lợi ích cho các nhà phát triển như thế nào?

Radoop chủ yếu dành cho những người không phải là nhà phát triển muốn khai thác tiềm năng của dữ liệu lớn. RapidMiner Radoop thực hiện các luồng công việc RapidMiner trực tiếp trong Hadoop theo cách không cần mã. Chúng tôi cũng có thể nhúng động cơ thực hiện RapidMiner vào Spark để dễ dàng đẩy toàn bộ luồng công việc vào Spark mà không có sự phức tạp đến từ các phương pháp dựa trên mã.

Một thực thể chính phủ có thể sử dụng RapidMiner để phân tích dữ liệu để dự đoán các đại dịch tiềm năng, tương tự như cách BlueDot hoạt động?

Là một nền tảng khoa học dữ liệu và học máy tổng quát, RapidMiner được thiết kế để tối ưu hóa và nâng cao quá trình tạo và quản lý mô hình, bất kể chủ đề hoặc lĩnh vực nào là trung tâm của vấn đề khoa học dữ liệu / học máy. Mặc dù chúng tôi không tập trung vào việc dự đoán đại dịch, với dữ liệu phù hợp, một chuyên gia chủ đề (như một nhà virus học hoặc dịch tễ học, trong trường hợp này) có thể sử dụng nền tảng để tạo một mô hình có thể dự đoán chính xác đại dịch. Trên thực tế, nhiều nhà nghiên cứu sử dụng RapidMiner – và nền tảng của chúng tôi là miễn phí cho mục đích học thuật.

Có gì khác mà bạn muốn chia sẻ về RapidMiner?

Hãy thử nó! Bạn có thể sẽ ngạc nhiên về việc khoa học dữ liệu có thể dễ dàng như thế nào và một nền tảng tốt có thể cải thiện năng suất của bạn và đội của bạn như thế nào.

Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời này, những người đọc muốn tìm hiểu thêm nên truy cập RapidMiner.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.