关注我们.

人工智能

Quantum Stat 发布“Big Bad NLP 数据库”

mm

Quantum Stat 发布了他们的“大坏 NLP 数据库”这是自然语言处理 (NLP) 的一大进步。该数据库包含数百个不同的数据集供机器学习开发人员使用。 

据该公司称,他们为 NLP 和 AI 计划提供解决方案。 他们通过 Web 应用程序开发的预处理等服务来实现这一目标,这是一种多方面的方法,包括机器学习和深度神经网络、聊天机器人和对话管理以及新的 NLP 数据库。 

该公司还进行初级和二级研究,以帮助个人分析行业内的发展。 

NLP 数据的中心枢纽

创建该数据库是世界上最大的自然语言处理数据库的决定是出于对保存 NLP 数据的中央枢纽的需要。 该公司的目标是使其比替代方案更容易访问和搜索,后者通常需要研究人员通过多个第三方库进行搜索。 

该公司已经开发该数据库数周; 他们目前拥有大约 200 个数据集。 有各种不同的数据集,而不仅仅是经典的。 该公司包括 CommonCrawl 和 Penn Treebank 等公司。 

伴随着一系列不同的数据库而来的是不同的 NLP 任务。 有些数据集专注于分类和问答,但也有用于文本到 SQL、语音识别和多模式的数据集。 

Quantum Stat 希望该数据库能够由社区驱动并得到用户的贡献。 该公司已向任何人敞开大门发送新数据集或建议更改。 

另一个重点是添加使语言多样化的数据集,摆脱严格的英语。 他们的目标是使图书馆更加全球化并可供其他人使用。 

进入“Big Bad NLP 数据库”后,用户将看到一个干净且有组织的布局。 列出数据集的名称,后面是语言和详细描述。 它还列出了实例、格式、任务、创建年份和创建者。 每个数据库都有一个下载链接。 

各种数据库

人们会遇到诸如历史报纸每日世界时间序列数据集之类的数据库,其中包含 1836 年至 1922 年美国和英国报纸的每日内容; SciQ 数据集,包含物理、生物和化学领域的 13,679 个众包科学考试问题; CommonCrawl,包含25亿个网页的数据; MovieLens,一个包含 22,000,000 位用户对 580,000 部电影的 33,000 个评分和 240,000 个标签的数据集。 

由于深度学习的进步,研究人员需要更大、更多样化的数据集,Quantum Stat 令人印象深刻的数据库应运而生。 由于人类语言中包含大量数据,每个独特的数据集都使其更容易处理。 NLP 的进步依赖于这些数据库,而 Quantum Stat 通过在一个空间中收集如此多的数据集,为加速这一进步做出了贡献。 

NLP 将在社会的许多方面发挥重要作用。 它可以帮助根据电子健康记录和患者的言语来预测疾病,帮助公司了解客户对产品的评价,并在假新闻猖獗的世界中识别假新闻。 

该技术正在飞速发展,用不了多久就能够处理这些复杂的应用。 

 

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。