笑笑乐园 - 朝花夕拾

OpenAI Blog ★★★★☆ 2019-12-03

Procgen Benchmark

推荐理由：提供RL模型评测新基准，契合AI模型评测主题

OpenAI发布Procgen Benchmark，包含16个程序生成的强化学习环境，用于评估智能体泛化能力的学习速度。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-11-21

Benchmarking safe exploration in deep reinforcement learning

推荐理由：涉及AI模型评测与安全探索技术，契合模型评测兴趣点

该文章对深度强化学习中的安全探索方法进行了系统性基准测试，评估了多种算法在不同环境下的安全性与性能表现。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-11-21

Safety Gym

推荐理由：涉及AI模型训练中的安全机制，属热门研究方向

OpenAI发布Safety Gym，一套用于评估强化学习智能体在训练过程中遵守安全约束的环境和工具。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-11-05

GPT-2: 1.5B release

推荐理由：涉及大模型发布及开源，符合AI模型发布与评测主题

OpenAI发布GPT-2最大版本（15亿参数），包含代码和模型权重，作为阶段性发布的最终环节，旨在为社区提供完整发布流程的参考案例，并推动负责任AI发布的讨论。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-10-15

Solving Rubik’s Cube with a robot hand

推荐理由：展示强化学习在实体机器人控制中的突破性应用

OpenAI利用强化学习和自动域随机化技术，在仿真中训练神经网络，成功让类人机器人手解魔方，展示了AI在现实物理任务中的高精度控制能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-09-19

Fine-tuning GPT-2 from human preferences

推荐理由：涉及AI模型微调方法与人类反馈机制，属AI模型训练前沿实践

研究团队基于人类偏好微调GPT-2（774M参数），在摘要等任务中使用6万条人工标注数据，发现模型倾向于直接复制原文以满足标注者对准确性的要求。目标是通过人机交互更好地理解人类价值观。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-09-17

Emergent tool use from multi-agent interaction

推荐理由：揭示AI智能体自主演化工具使用能力，对AI模型行为研究有启发

研究发现多智能体在捉迷藏游戏中自发演化出六种复杂工具使用策略，展示了多智能体协同适应可催生高度复杂行为。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-08-22

Testing robustness against unforeseen adversaries

推荐理由：涉及AI模型鲁棒性评测，契合模型评测主题

提出新方法评估神经网络对训练中未见对抗攻击的鲁棒性，引入UAR指标衡量模型在未知攻击下的可靠性。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-08-20

GPT-2: 6-month follow-up

推荐理由：涉及大模型发布及AI社区协作规范，属AI模型发布范畴

OpenAI发布7.74亿参数的GPT-2模型，并附带开源法律协议以促进模型共享，同时发布关于AI模型发布规范的技术报告。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-25

MuseNet

推荐理由：属于AI模型发布及技术应用案例，展示大模型在创意领域的落地。

OpenAI发布MuseNet，一个基于Transformer的AI模型，可生成4分钟多乐器音乐，融合多种风格，通过无监督学习从MIDI文件中掌握音乐规律。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-23

Generative modeling with sparse transformers

推荐理由：涉及大模型架构创新与性能突破，属AI模型发布及评测范畴

OpenAI提出稀疏Transformer模型，通过改进注意力机制，可处理比以往长30倍的序列，在文本、图像和音频生成任务中创出新纪录。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-15

OpenAI Five defeats Dota 2 world champions

推荐理由：展示AI在复杂策略游戏中的能力突破

OpenAI Five在Dota 2比赛中击败世界冠军战队OG，成为首个在公开直播中战胜电竞职业选手的AI系统。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-03-21

Implicit generation and generalization methods for energy-based models

推荐理由：涉及AI模型新方法及性能提升，属模型技术进展

研究提出改进的能量模型（EBM）训练方法，提升生成质量和泛化能力，在低温度下生成效果媲美GAN，同时具备似然模型的模式覆盖保证。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-03-06

Introducing Activation Atlases

推荐理由：涉及AI模型可解释性技术，对理解大模型内部机制有参考价值。

介绍激活图谱（Activation Atlases）技术，用于可视化神经元间交互所代表的内容，有助于理解AI系统内部决策机制并发现其弱点。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-03-04

Neural MMO: A massively multiagent game environment

推荐理由：提供多智能体AI研究的新工具平台

Neural MMO是一个支持大量智能体的多智能体强化学习游戏环境，具有持久开放的任务设定，促进智能体探索、生态位分化和整体能力提升。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-02-26

Spinning Up in Deep RL: Workshop review

推荐理由：涉及AI教育与热门RL工具库，契合AI工具库及skill推荐主题

OpenAI举办首次Spinning Up深度强化学习 workshop，作为其新教育计划的一部分，旨在帮助学习者掌握深度强化学习基础。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-02-14

Better language models and their implications

推荐理由：涉及大模型性能与多任务能力，符合模型发布及评测主题

OpenAI训练出大规模无监督语言模型，在多项基准测试中达到SOTA，无需任务特定训练即可执行阅读理解、翻译、问答和摘要等任务。

阅读原文 →

OpenAI Blog ★★★★☆ 2018-12-14

How AI training scales

推荐理由：涉及AI模型训练机制与可扩展性，属核心技术进展

研究发现梯度噪声尺度可预测神经网络训练的并行性，表明大批次训练在未来将更有效，有助于AI系统扩展。

阅读原文 →

OpenAI Blog ★★★☆☆ 2018-12-06

Quantifying generalization in reinforcement learning

推荐理由：涉及AI模型评测与训练环境创新，有助于理解泛化能力

OpenAI发布CoinRun训练环境，用于量化强化学习智能体在新情境中的泛化能力，解决了该领域长期存在的难题。该环境复杂度适中，比传统平台游戏简单，但仍对当前先进算法构成泛化挑战。

阅读原文 →

OpenAI Blog ★★★★☆ 2018-11-08

Spinning Up in Deep RL

推荐理由：推荐热门RL学习资源，含实用代码与教程

OpenAI发布Spinning Up in Deep RL，提供清晰的深度强化学习代码示例、教程和练习，帮助用户掌握RL实践技能。

阅读原文 →