Stackexchange OpenAssistant使用说明
此数据集来源于
https://archive.org/details/stackexchange
。
有一个单个的Parquet文件将所有stackexchange站点组合在一起。已按照以下方式过滤主题:只选择有接受答案的主题,问题和回答都少于1000个字符。其他答案、没有被采纳的问题或过长的条目都已被删除。
每行由以下内容组成:
- INSTRUCTION(说明)
- RESPONSE(回答)
- SOURCE(“stackexchange-ai”)
- METADATA(标签、问题分数、答案分数)
由
https://github.com/b-mc2
编写的原始提取代码
如何重现这个数据集
从stackexchange存档中下载所有的XML文件到xml/文件夹中 ./download.py
处理XML,过滤对话并将其转换为OA格式到parquet/文件夹中 ./process.py
对parquet/文件夹中的所有文件运行统计 ./stats.py
将所有parquet文件合并成一个大的stackexchange.parquet文件 ./combine.py
上传到huggingface hub,您首先需要使用huggingface-cli登录 ./upload.py
统计数据
- 3dprinting(3D打印):1,006
- academia(学术):6,956
- ai(人工智能):1,169
- android(安卓):11,591
- anime(动漫):3,688
- apple(苹果):32,603
- arduino(Arduino):3,725
- askubuntu(问Ubuntu):78,472
- astronomy(天文学):2,425
- aviation(航空):4,945
- avp(全球植物学):1,949
- beer(啤酒):387
- bicycles(自行车):4,835
- bioacoustics(生物声学):70
- bioinformatics(生物信息学):903
- biology(生物学):5,344
- bitcoin(比特币):7,456
- blender(Blender):25,527
- boardgames(桌游):4,538
- bricks(积木):1,457
- buddhism(佛教):911
- cardano(Cardano):670
- chemistry(化学):7,430
- chess(国际象棋):2,185
- chinese(中文):4,897
- christianity(基督教):1,248
- civicrm(CiviCRM):3,221
- codegolf(代码高尔夫):943
- codereview(代码审查):2,171
- coffee(咖啡):350
- cogsci(认知科学):645
- computergraphics(计算机图形学):540
- conlang(构造语言):101
- cooking(烹饪):7,951
- craftcms(Craft CMS):4,533
- crafts(手工艺品):438
- crypto(加密货币):4,425
- cs(计算机科学):9,478
- cseducators(计算机科学教育者):71
- cstheory(计算机科学理论):2,196
- datascience(数据科学):5,045
- dba(数据库管理员):16,850
- devops(DevOps):961
- diy(自家动手):14,400
- drones:190
- drupal(Drupal):24,090
- dsp(数字信号处理):4,470
- earthscience(地球科学):922
- ebooks(电子书):323
- economics(经济学):2,120
- electronics(电子学):41,717
- elementaryos(elementary OS):1,769
- ell(英文学习):30,428
- emacs(Emacs):7,140
- engineering(工程学):2,314
- english(英语):42,415
- eosio(EOSIO):626
- es_stackoverflow(西班牙语Stackoverflow):21,475
- esperanto(世界语):617
- ethereum(以太坊):9,603
- expatriates(移民):973
- expressionengine(ExpressionEngine):3,638
- fitness(健身):1,833
- freelancing(自由职业):338
- french(法语):5,193
- gamedev(游戏开发):9,678
- gaming(游戏):44,899
- gardening(园艺):4,492
- genealogy(家谱学):487
- german(德语):6,715
- gis(地理信息系统):30,249
- graphicdesign(平面设计):10,563
- ham(火腿广播):790
- hardwarerecs(硬件推荐):647
- health(健康):804
- hermeneutics(诠释学):782
- hinduism(印度教):1,036
- history(历史):1,776
- homebrew(自酿):2,357
- hsm(硬件安全模块):484
- interpersonal(人际关系):199
- iot(物联网):331
- iota(IOTA):292
- islam(伊斯兰教):1,496
- italian(意大利语):1,356
- ja_stackoverflow(日本语Stackoverflow):9,734
- japanese(日语):13,862
- joomla(Joomla):1,875
- judaism(犹太教):6,156
- korean(韩语):754
- languagelearning(语言学习):135
- latin(拉丁语):1,387
- law(法律):3,475
- lifehacks(小窍门):934
- linguistics(语言学):1,507
- literature(文学):582
- magento(Magento):20,537
- martialarts(武术):364
- materials(材料科学):338
- math(数学):501,019
- matheducators(数学教育):316
- mathematica(Mathematica):19,529
- mathoverflow_net_7z(数学溢出网):23,803
- mechanics(力学):4,735
- meta(元):34,161
- meta_askubuntu(元 问Ubuntu):2,076
- meta_mathoverflow_net_7z(元 数学溢出网):333
- meta_serverfault(元 Serverfault):823
- meta_stackoverflow(元 Stackoverflow):12,641
- meta_superuser(元 超级用户):1,748
- moderators(管理员):39
- monero(门罗币):1,443
- money(金融):7,996
- movies(电影):6,789
- music(音乐):5,740
- musicfans(音乐迷):781
- mythology(神话):271
- networkengineering(网络工程):4,637
- opendata(开放数据):1,117
- opensource(开源):805
- or:586
- outdoors(户外活动):1,503
- parenting(育儿):815
- patents(专利):582
- pets(宠物):1,081
- philosophy(哲学):1,505
- photo(摄影):6,386
- physics(物理学):35,386
- pm(项目管理):982
- poker(扑克):431
- politics(政治):1,903
- portuguese(葡萄牙语):658
- proofassistants(证明助手):87
- pt_stackoverflow(葡萄牙语Stackoverflow):27,650
- puzzling(谜题):11,959
- quant(量化交易):3,303
- quantumcomputing(量子计算):1,604
- raspberrypi(树莓派):6,794
- retrocomputing(复古计算):1,016
- reverseengineering(逆向工程):1,606
- robotics(机器人学):1,020
- rpg(角色扮演游戏):9,517
- ru_stackoverflow(俄语Stackoverflow):106,714
- rus(俄语):8,210
- russian(俄语):1,960
- salesforce(Salesforce):27,962
- scicomp(科学计算):1,403
- scifi(科幻):15,174
- security(安全):11,733
- serverfault(服务器故障):81,229
- sharepoint(SharePoint):24,934
- sitecore(Sitecore):2,691
- skeptics(怀疑论者):1,043
- softwareengineering(软件工程):10,526
- softwarerecs(软件推荐):3,032
- solana(Solana):602
- sound(声音):2,031
- space(航天):3,145
- spanish(西班牙语):3,049
- sports(体育):1,715
- sqa(软件质量保证):1,944
- stackapps(Stack应用):702
- stackoverflow:4,269,779
- stats(统计学):23,102
- stellar(Stellar):373
- substrate(Substrate):812
- superuser(超级用户):128,488
- sustainability(可持续性):240
- tex(TeX):42,808
- tezos(Tezos):635
- tor(洋葱路由):887
- travel(旅行):9,957
- tridion(SDL Tridion):1,769
- ukrainian(乌克兰语):577
- unix(Unix):54,338
- ux(用户体验):7,403
- vegetarianism(素食主义):151
- vi(Vi):4,360
- webapps(Web应用):10,159
- webmasters(网站管理员):9,413
- windowsphone(Windows Phone):1,110
- woodworking(木工):677
- wordpress(WordPress):24,270
- workplace(职场):4,104
- worldbuilding(构建世界):2,766
- writers(作家):1,957