数据集:

hebrew_this_world

语言:

he

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

agpl-3.0
英文

HebrewSentiment 数据集卡片

数据集摘要

HebrewThisWorld 是一个数据集,包含了由Uri Avnery编辑的报纸《This World》的2028期,发行于1950年至1989年之间。该数据集采用AGPLv3许可发布。

数据注释:

支持的任务和排行榜

语言建模

语言

希伯来语

数据集结构

以“,”为分隔符的csv文件

数据实例

示例:

{
  "issue_num": 637,
  "page_count": 16,
  "date": "1950-01-01",
  "date_he": "1 בינואר 1950",
  "year": "1950",
  "href": "https://thisworld.online/1950/637",
  "pdf": "https://olam.eu-central-1.linodeobjects.com/pdfs/B-I0637-D010150.pdf",
  "coverpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-1.png",
  "backpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-16.png",
  "content": "\nלפיד\nהנוער ־ בירושלים צילומים :\n\nב. רותנברג\n\nוזהו הלפיד\n...",
  "url": "https://thisworld.online/api/1950/637"
}

数据字段

  • issue_num: 期刊编号
  • page_count: 当前期刊的页数
  • date: 发行日期
  • date_he: 希伯来语的发行日期
  • year: 期刊年份
  • href: 浏览/打印等期刊的URL
  • pdf: 扫描版pdf的URL
  • coverpage: 封面页的URL
  • backpage: 背面页的URL
  • content: 期刊的文本内容
  • url: URL

数据拆分

train
corpus 2028

数据集创建

策展理由

[需要更多信息]

源数据

thisworld.online

初始数据收集和归一化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

研究人员

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

GNU AGPLv3+

这是自由软件,您可以在一定条件下重新分发它。

本程序是自由软件:您可以依照自由软件基金会颁布的GNU Affero General Public License条款的版本3或(您可以选择)任何以后版本的条件,自由地获取、使用和重新分发此程序。

此程序是基于有用性,在没有明示或暗示的情况下提供,但没有任何担保。详见GNU Affero General Public License获取更多详细信息。

如果你没有收到GNU Affero General Public License的副本,请参阅 http://www.gnu.org/licenses/

引用信息

https://thisworld.online/

贡献者

感谢 @lhoestq @imvladikon 提供此数据集。