potongan Peter Staar, Ilmuwan IBM, Kumpulan Data Penelitian Terbuka COVID-19 - Seri Wawancara - Unite.AI
Terhubung dengan kami

wawancara

Peter Staar, Ilmuwan IBM, Kumpulan Data Riset Terbuka COVID-19 – Seri Wawancara

mm
Updated on

Ilmuwan IBM Peter Staar telah mengembangkan sebuah alat AI yang digunakan oleh lebih dari 300 ahli yang sedang mengembangkan pengobatan atau vaksinasi untuk COVID-19.

Untuk membantu para peneliti mengakses data terstruktur dan tidak terstruktur dengan cepat, IBM menawarkan sumber daya penelitian AI berbasis cloud yang telah dilatih pada ribuan lebih dari 45,000 makalah ilmiah yang terkandung dalam Dataset Penelitian Terbuka COVID-19 (CORD-19), disiapkan oleh Gedung Putih dan koalisi kelompok penelitian, dan database berlisensi dari DrugBank, Clinicaltrials.gov, dan GenBank.

Dr. Peter Staar bergabung dengan IBM Research – Zurich Laboratory pada bulan Juli 2015 sebagai peneliti pasca-doktoral di proyek Foundations of Cognitive Solutions. Ilmuwan kelahiran Belgia ini pertama kali datang ke IBM Research sebagai mahasiswa musim panas pada tahun 2006.

Anda pertama kali bergabung dengan IBM Research – Zurich Laboratory pada Juli 2015. Jenis proyek apa yang pernah Anda kerjakan di IBM?

Penelitian awal saya berfokus pada aplikasi untuk komputasi kinerja tinggi dan merupakan bagian dari tim pemenang penghargaan bergengsi ACM Gordon Bell.

Baru-baru ini sekitar tahun 2017 saya mulai fokus pada AI dan pada bulan Agustus 2018 tim saya menerbitkan makalah di Konferensi ACM tentang Penemuan Pengetahuan dan Penambangan Data (KDD 2018) tentang sistem penyerapan dokumen yang dapat diskalakan secara besar-besaran, yang kami sebut Layanan Konversi Corpus. Alat cloud berbasis AI ini mampu menyerap 100,000 halaman PDF per hari (bahkan dokumen yang dipindai) dengan akurasi di atas 97 persen—lalu melatih dan menerapkan model pembelajaran mesin canggih yang mengekstraksi konten dari dokumen-dokumen ini pada skala yang belum pernah dicapai sebelumnya. Kami sekarang menerapkan teknologi yang sama untuk membantu para peneliti menangani COVID-19.

Kapan IBM pertama kali menemukan ide untuk menggunakan Layanan Konversi Corpus untuk mengatasi wabah COVID-19?

Pada pertengahan Maret, Gedung Putih memimpin upaya untuk menerbitkan lebih dari 45,000 dokumen tentang virus corona dan COVID-19. Saat kami melihat korpus, kami segera menyadari bahwa teknologi kami dapat membantu, tidak hanya membuat PDF dapat dicari, tetapi juga menggabungkan pengetahuan di dalam PDF tersebut dengan kumpulan data tambahan seperti Bank obat, GenBank dan uji klinis.gov. Kami melakukan live streaming pada tanggal 3 April.

Bagaimana cara terbaik Anda menjelaskan apa itu Layanan Konversi Corpus?

Seperti halnya volume besar sumber data yang berbeda, sulit untuk mengumpulkan dan menganalisis data secara efisien dengan cara yang dapat menghasilkan wawasan ilmiah. Kami membuatnya lebih mudah menggunakan grafik pengetahuan yang menemukan koneksi antara sumber data ini untuk berpotensi menghasilkan pengetahuan baru.

Bisakah Anda mendiskusikan tantangan utama dalam mengekstraksi data dari format PDF ke dalam formulir yang dapat dicari?

Menurut Adobe, ada sekitar 2.5 triliun file Portable Document Format (PDF) yang beredar saat ini. Pikirkan tentang pengetahuan yang terkandung dalam file-file ini: artikel ilmiah, literatur teknis, dan banyak lagi. Tetapi semua konten itu "gelap" atau tidak terpakai, karena hingga saat ini, kami belum memiliki cara untuk mencerna file PDF dalam jumlah besar dalam skala besar dan membuat kontennya dapat digunakan (atau terstruktur).

File PDF sering menyertakan kombinasi grafik vektor, teks, dan grafik bitmap, yang semuanya membuat ekstraksi data kualitatif dan kuantitatif cukup menantang. Faktanya, mengonversi rekonstruksi konten otomatis telah menjadi masalah selama lebih dari satu dekade. Sementara banyak solusi konversi dokumen tersedia, tidak satupun dari mereka mengatasi skalabilitas atau menerapkan AI, yang berarti mereka harus bergantung pada pemeliharaan dan peningkatan berbasis manusia yang mahal.

Sepengetahuan kami, Layanan Konversi Corpus adalah sistem komprehensif pertama yang menggunakan AI tingkat lanjut pada tingkat skalabilitas ini. Sementara solusi yang ada hanya dapat mengonversi satu dokumen pada satu waktu ke format keluaran yang diinginkan, alat kami dapat menyerap seluruh koleksi, kumpulan dokumen, dan membangun model yang dipelajari mesin di atas itu.

Bagaimana Anda mengekstrak tidak hanya teks yang terkandung dalam dokumen tetapi juga strukturnya?

Elemen utamanya adalah kami merancang interaksi manusia-komputer dalam sistem untuk memungkinkan anotasi yang sangat cepat dan masif tanpa sepengetahuan ilmu komputer. Pertukaran ke pembelajaran mesin ini memberi layanan kami banyak fleksibilitas, karena dapat beradaptasi dengan cepat ke templat dokumen tertentu, mencapai hasil yang sangat akurat, dan pada akhirnya menghilangkan penyetelan yang mahal dan memakan waktu yang khas dari algoritme berbasis aturan tradisional.

Bisakah Anda mendiskusikan tantangan membangun model pembelajaran mesin yang dapat menskalakan dan merespons dengan cepat ke ratusan bahkan ribuan pengguna secara bersamaan?

Kami telah mengembangkan Layanan Konversi Corpus di atas layanan cloud canggih, seperti OpenShift di IBM Cloud. Ini memungkinkan kami untuk menskalakan aplikasi kami dengan mudah dengan permintaan yang meningkat. Model AI yang kami terapkan dapat digunakan oleh banyak pengguna secara bersamaan.

Berapa banyak dokumen yang telah diserap ke dalam layanan?

Kami memiliki beberapa klien industri yang menggunakan alat tersebut, jadi kami tidak tahu berapa banyak dokumen yang telah mereka cerna karena masing-masing memiliki instans IBM Cloud sendiri. Tetapi untuk COVID-19 kami menyerap semua 45,826 makalah dari Gedung Putih.

Bagaimana komunitas riset bereaksi terhadap penggunaan alat AI ini?

Sejak kami mengumumkan ketersediaan gratis alat kami, beberapa minggu yang lalu kami memiliki lebih dari 400 pengguna dari lebih dari selusin negara, kebanyakan dari mereka adalah dokter dan profesor medis.

Apakah ada hal lain yang ingin Anda bagikan tentang Layanan Konversi Corpus dan/atau bagaimana layanan ini digunakan dalam konteks COVID-19?

Salah satu klien kami adalah perusahaan energi Italia Eni yang menggunakan teknologi kami untuk eksplorasi hidrokarbon, yang merupakan bisnis yang kompleks dan padat pengetahuan yang melibatkan berbagai disiplin ilmu teknik dan bekerja sama.

Di Eni, pengetahuan didasarkan pada pemrosesan data geologi, fisik, dan geokimia dalam jumlah besar, yang kemudian diolah menjadi grafik pengetahuan. Geoscientist kemudian dapat menggunakan AI untuk mengontekstualisasikan dan menyajikan informasi yang relevan, yang akan membantu mereka meningkatkan pengambilan keputusan dan identifikasi serta verifikasi kemungkinan skenario eksplorasi alternatif. Lebih khusus lagi, bagi Eni ini berarti representasi model geologis yang lebih realistis dan tepat.

Terima kasih atas wawancara yang sangat penting ini, ini akan menghemat waktu peneliti. Pembaca yang ingin mempelajari lebih lanjut tentang teknologi harus mengunjungi Layanan Konversi Corpus situs web. Peneliti harus mengunjungi Alat AI COVID-19 halaman. Harap dicatat, akses ke sumber daya ini hanya akan diberikan kepada peneliti yang memenuhi syarat. 

Mitra pendiri unite.AI & anggota Dewan Teknologi Forbes, anto adalah seorang futuris yang bersemangat tentang masa depan AI & robotika.

Dia juga Pendiri Sekuritas.io, situs web yang berfokus pada investasi dalam teknologi disruptif.