Connect with us

人工智能

量子统计发布“大坏NLP数据库”

mm

量子统计发布了他们的“大坏NLP数据库”,这是自然语言处理(NLP)领域的一个重大进步。该数据库包含数百个不同的数据集,供机器学习开发人员使用。

根据公司的说法,他们为NLP和AI项目提供解决方案。他们通过提供预处理、Web应用开发、多方面的方法(包括机器学习和深度神经网络)、聊天机器人和对话管理以及新的NLP数据库等服务来实现这一点。

该公司还进行初级和二级研究,以帮助个人分析行业的发展。

NLP数据中心枢纽

创建数据库的决定源于需要一个中心枢纽来存储NLP数据。该公司旨在使其比替代方案更容易访问和搜索,替代方案通常需要研究人员搜索多个第三方库。

该公司已经开发了数据库数周,目前拥有大约200个数据集。有各种不同的数据集,不仅仅是经典的数据集。该公司还包括CommonCrawl和Penn Treebank等数据集。

随着不同数据库的出现,还有不同的NLP任务。有些专注于分类和问答,还有一些数据集用于文本到SQL、语音识别和多模态等任务。

Quantum Stat希望数据库由社区驱动,用户可以贡献数据集。该公司已开放大门,欢迎任何人提交新数据集或推荐更改。

另一个重点是添加多语言数据集,不仅仅局限于英文。他们的目标是使图书馆更加全球化和便于他人使用。

进入“大坏NLP数据库”后,用户将看到一个干净且组织良好的布局。数据集的名称列出,接着是语言和详细描述。它还列出了实例、格式、任务、创建年份和创建者。每个数据库都有一个下载链接。

各种数据库

您将遇到诸如历史报纸每日世界时间序列数据集、包含1836年至1922年美国和英国报纸的每日内容;SciQ数据集,包含13,679个众包科学考试题,涵盖物理、生物和化学等领域;CommonCrawl,包含25亿网页的数据;以及MovieLens,一个包含22,000,000个评分和580,000个标签的数据集,涵盖了240,000个用户对33,000部电影的评分。

Quantum Stat令人印象深刻的数据库出现在研究人员需要更大、更多样化的数据集的时候,因为深度学习的进步。由于人类语言中包含大量数据,每个独特的数据集都使得处理变得更容易。NLP的进步依赖于这些数据库,Quantum Stat通过将这么多数据集聚集在一个空间中促进了这一进步。

NLP将在社会的许多方面发挥重要作用。它可以帮助根据电子健康记录和患者的言语预测疾病,帮助公司了解客户对产品的看法,并在一个充满虚假信息的世界中识别假新闻。

该技术正在非常迅速地发展,不久它就将能够处理这些复杂的应用。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。