每个数据科学家都应该知道的顶级GitHub库和Reddit线程(2018年6月版)
2018年07月06日 由 浅浅 发表
203171
0
介绍
半年过去了,这带来了我们流行系列的六月版的顶级GitHub存储库和Reddit线程。在撰写这些文章的过程中,我从开源代码或世界顶级数据科学大脑之间的宝贵讨论中学到了很多关于机器学习的知识。
让GitHub与众不同的不仅仅是数据科学家的代码托管和社交协作功能。它降低了进入开源世界的门槛,并在传播知识和扩展机器学习社区方面发挥了巨大作用。
我们在6月份发布了一些令人惊讶的开源代码。其中一个最有趣的存储库是“NLP Progress” ,旨在让每个人都了解该领域的最新更新。Facebook还发布了其流行的DensePose框架的代码,该框架可能是姿势估计领域的游戏规则改变者。
Facebook’s DensePose
对于Reddit,它拥有来自全球数据科学家和ML专家的丰富知识和观点。在本文中,你将看到有关强化学习应用程序,机器学习设置,精彩计算机视觉示例等的讨论。
人体姿势估计在今年的深度学习社区中引起了很多关注。当Facebook将姿势估计框架DensePose开放代码时,Facebook将事情提升到了一个新的水平。该技术识别人体中超过5000个节点(对于上下文,其他方法使用10或20个关节操作)。你可以在上面的图像中了解此节点映射技术。
DensePose已在Detectron框架中创建,由Caffe2提供支持。除了代码之外,此存储库还包含用于可视化DensePose-COCO数据集的笔记本。在此处阅读有关此版本的更多详情。
NLP进展
自然语言处理(NLP)是一个经常难以进入的领域,尽管它有很大吸引力。你需要使用大量非结构化文本,这不是一件容易的事。此存储库专门用于跟踪NLP字段中的进度。这是一个非常有用的数据集列表和当前最先进的任务,如依赖解析,词性标注,阅读理解等。
还有很多可以(并且将会)添加到此列表中,如信息提取,关系提取,语法错误纠正等。
MLflow
将模型投入生产是数据科学家进入该领域时面临的最大挑战之一。设计和构建模型是吸引大多数人进行机器学习的原因,但如果你不能将这个模型投入到生产中,它本质上就变成了一块无用的代码。
因此,Databricks(由Apache Spark创建者创建)决定为所有ML框架挑战构建和开源解决方案。它被称为MLflow,它是一个管理整个机器学习生命周期的平台(从开始到生产),并且可用于任何库。自从它发布以来,就有很多追随者(GitHub上评星为1355),你可以在下面的网址查看我们对库的报道:www.analyticsvidhya.com/blog/2018/06/mlflow-an-open-source-machine-learning-platform-that-works-with-any-library-algorithm-and-tool/
Salesforce的decaNLP
这是本文中的另一个NLP条目。当谈到情绪分析或机器翻译等NLP任务时,规范就是建立特定于该任务的模型。你有没有建立一个情感分析模型,同时也可以进行语义分析和问答?这就是Salesforce研究人员打算用这个存储库做的事情。
他们发表了一篇研究论文,概述了一个可以同时完成10个不同NLP任务的模型。在本文中,他们向社区抛出了一个挑战(他们称之为decaNLP),你能建立这样一个模型并改进他们提供的方法吗?Salesforce建造的模型被称为“Swiss Army Knife for Natural Language Processing”。
阅读更多的细节:www.analyticsvidhya.com/blog/2018/06/salesforce-has-developed-one-single-model-to-deal-with-10-different-nlp-tasks/
强化学习笔记
强化学习日益流行,开源社区也是如此。该存储库是Richard Sutton和Andrew Barto的书和其他研究论文中的强化学习算法的集合。这些算法以pf Python笔记本的形式呈现。
存储库的创建者建议你在阅读本书时使用这些笔记,因为它们将显着增强您对所呈现内容的理解。这些注释都很详细,任何进入该领域的人都应该参考这个系列。
使用YOLOv3进行扑克牌检测
该线程有很多关于如何创建该技术的有用信息(这是开发人员的逐步解释),花了多长时间,它可以做什么样的其他事情等等。你会学到很多关于这个线程中的计算机视觉。
这项技术和视频的创建者也在GitHub上开源了他的代码。所以打开你的Jupyter笔记本并开始破解吧!
代码:github.com/geaxgx/playing-card-detection
OpenAI Five
OpenAI Five是一组由5个神经网络组成的设计和开发,用于在流行的Dota 2游戏中击败人类对手。它由Elon Musk共同创立的OpenAI合资企业开发,该合资企业解释了自发布以来它所获得的直接受欢迎程度。
科学家希望从这种技术中看到的其他数据的丰富讨论,它与流行的DeepMind AlphaGo算法进行比较,以及需要多少计算能力才能实现这一点。这个帖子中有很多视角可以使你受益匪浅。
此外,你还可以阅读我们关于OpenAI Five的文章:www.analyticsvidhya.com/blog/2018/06/openai-five-a-team-of-5-algorithms-is-beating-human-opponents-in-a-popular-game/
你希望别人会研究什么ML的假设?
如果这个话题没有引起你的注意,那么前几条评论肯定会。这个讨论就像是数据科学家和机器学习从业者希望从社区中看到的愿望清单。由于每个想法产生的讨论,这个帖子成了我的清单。一旦一个人将他们的想法添加到帖子中,多个人回答他们关于如何实现它的想法以及是否已经存在类似的研究。
对于爱好者和从业者来说,这是一个必读的讨论。花一些时间来完成它,你会得到很多知识(甚至更多的问题)。
讨论:old.reddit.com/r/MachineLearning/comments/8rue4t/d_what_machine_learning_hypothesis_are_you/
数据科学家用于机器学习的设置
用于机器学习的硬件在确定模型的性能方面起着至关重要的作用,尤其是当要训练的数据量很大时。阅读此主题以了解科学家用于构建ML过程和模型的其他数据。原始海报列出了一个结构化的问题列表,这些问题有助于保持线索的整洁和可理解性。问题如下:
- 台式机还是笔记本?什么型号?
- GPU?
- 操作系统?
- 编程语言?
- 框架?
- 你做了什么样的工作/研究?
- 你也可以参与讨论或使用本文下方的评论部分告诉我们您的设置!
讨论:old.reddit.com/r/MachineLearning/comments/8omn0u/d_what_is_your_setup_for_ml/
强化学习的实际用例
正如我上面提到的,强化学习是一个受欢迎的领域。但由于工作的复杂性,大多数研究和使用案例仅限于游戏和实验室环境。在这个帖子中,已经在这个领域工作的人们会在不久的将来看到他们看到强化学习渗透的地方。有些评论更具怀疑性,但值得一读,以了解专家和爱好者对强化学习的看法。
实际用例:www.reddit.com/r/MachineLearning/comments/8u6wo4/d_what_are_practical_use_cases_for_reinforcement/
总结
无论是对NLP,强化学习,开源代码,计算机视觉感兴趣,还是对关于各种机器学习相关事物的讨论等等感兴趣,这个列表都适合你。