315
Jim Fan(@DrJimFan)在Twitter上分享了一系列关于开源AI生态系统的讨论。从预训练大型语言模型(LLM)到3D生成模型,这些讨论涵盖了多个研究领域。
以下是根据Jim Fan的Twitter推文整理的相关亮点,他认为以下推特和相关内容具有关注价值。
- Andrej Karpathy(@karpathy)指出,预训练LLM基础模型的成本仍然很高,需要超级计算机和数月的时间。
- John Schulman(@johnschulman2)的演讲探讨了如何通过强化学习(RL)减少模型的幻觉倾向。https://youtube.com/watch?v=hhiLw5Q_UFg
- Sasha Rush(@srush_nlp)的研究表明,在某些情况下,注意力机制可能并非必要。https://arxiv.org/abs/2212.10544
- Yann LeCun(@ylecun)发布了一篇关于自监督学习的论文,提供了实用的方法。https://arxiv.org/abs/2304.12210
- Loubna Ben Allal(@LoubnaBenAllal1)发布了开源代码生成模型StarCoder。相关推文:https://twitter.com/LoubnaBenAllal1/status/1509843203720792069
- Together(@togethercompute)推出了RedPajama-3B和7B模型,具有商业友好的许可证。https://twitter.com/togethercompute/status/1507352433699790849
- Steven Hoi(@stevenhoi)领导的团队推出了Instruct-BLIP,一款新的开源多模态对话模型。http://arxiv.org/abs/2305.06500,项目地址:https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
- Alex Nichol(@unixpickle)发布了两篇关于3D生成模型的论文:Shap-E和Point-E。论文链接:https://arxiv.org/abs/2305.02463,项目地址:https://github.com/openai/shap-e
- Gabriel Peyré(@gabrielpeyre)制作了一些出色的数学可视化。相关推文:https://twitter.com/gabrielpeyre/status/1508230275931398150
- Kevin Zakka(@kevin_zakka)展示了一些引人注目的机器人仿真。相关推文:https://twitter.com/kevin_zakka/status/1509457932231757828
以上就是关于开源AI生态系统的一些讨论内容。