заглушки Quantum Stat випускає «Big Bad NLP Database» - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Quantum Stat випускає «Big Bad NLP Database»

оновлений on

Quantum Stat випустила свій "Велика погана база даних НЛП», що є великим кроком вперед для обробки природної мови (NLP). База даних містить сотні різних наборів даних, які можуть використовувати розробники машинного навчання. 

За словами компанії, вони пропонують рішення для ініціатив НЛП та ШІ. Вони роблять це за допомогою таких послуг, як попередня обробка до розробки веб-додатків, багатогранний підхід, який включає машинне навчання та глибокі нейронні мережі, чат-бот і керування діалогами, а також їх нова база даних NLP. 

Компанія також проводить первинні та вторинні дослідження, щоб допомогти людям проаналізувати події в галузях. 

Центральний хаб даних НЛП

Рішення створити базу даних, яка є найбільшою у світі бібліотекою даних для обробки природної мови, виникло через необхідність центрального центру для зберігання даних NLP. Компанія прагнула зробити його більш доступним і зручним для пошуку, ніж альтернатива, яка часто вимагає від дослідників пошуку в багатьох сторонніх бібліотеках. 

Компанія розробляла базу даних кілька тижнів; наразі вони мають близько 200 наборів даних. Існує цілий ряд різних наборів даних, не лише класичні. До складу компанії входять такі як CommonCrawl і Penn Treebank. 

Разом із низкою різних баз даних постають різні завдання НЛП. Є ті, які зосереджені на класифікації та відповідях на запитання, але є також набори даних для перетворення тексту в SQL, розпізнавання мовлення та мультимодального режиму. 

Quantum Stat хоче, щоб база даних керувалася спільнотою за рахунок внесків користувачів. Компанія відкрила свої двері для всіх, хто може надіслати новий набір даних або порекомендувати зміни. 

Ще один фокус полягає в додаванні наборів даних, які урізноманітнюють мову, відходячи від суто англійської. Їх мета – зробити бібліотеку більш глобальною та доступною для інших. 

Після входу в «Big Bad NLP Database» користувач зіткнеться з чистим і організованим макетом. Відображається назва набору даних, а потім мова та детальний опис. Тут також перераховано екземпляри, формат, завдання, рік створення та автора. Для кожної бази даних є посилання для завантаження. 

Різні бази даних

Можна зіткнутися з такими базами даних, як набір даних Historical Newspapers Daily World Time Series, що містить щоденний вміст газет у США та Великобританії з 1836 по 1922 рік; Набір даних SciQ, що містить 13,679 25 краудсорсингових питань іспиту з природничих наук у галузях фізики, біології та хімії; CommonCrawl, що містить дані з 22,000,000 мільярдів веб-сторінок; і MovieLens, набір даних, що містить 580,000 33,000 240,000 оцінок і XNUMX XNUMX тегів для XNUMX XNUMX фільмів від XNUMX XNUMX користувачів. 

Вражаюча база даних Quantum Stat з’являється в той час, коли дослідникам потрібні більші та різноманітніші набори даних завдяки прогресу глибокого навчання. Через величезну кількість даних, які містяться в людській мові, кожен унікальний набір даних полегшує обробку. Розвиток НЛП спирається на ці бази даних, і Quantum Stat сприяла прискоренню цього прогресу, зібравши стільки наборів даних в одному просторі. 

НЛП буде важливим у багатьох аспектах суспільства. Він може допомогти передбачити захворювання на основі електронних медичних записів і мови пацієнта, допомогти компаніям дізнатися, що клієнти говорять про продукт, і визначити фейкові новини у світі, де вони поширені. 

Технологія розвивається надзвичайно швидко, і невдовзі вона зможе вирішувати ці складні програми. 

 

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.