笑笑乐园 - 朝花夕拾

OpenAI Blog ★★★☆☆ 2017-10-11

Competitive self-play

推荐理由：涉及AI训练方法及能力演化，契合AI模型技术进展主题

文章探讨了自对弈（self-play）如何让AI在无显式设计的情况下自主发现多种物理技能，并指出自对弈将成为未来强大AI系统的核心组成部分。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-09-14

Learning to model other minds

推荐理由：涉及AI多智能体协作与建模，属前沿模型能力探索

OpenAI发布LOLA算法，使AI能在博弈中建模其他智能体的学习行为，实现自利但协作的策略（如以牙还牙），是迈向具备“心智理论”的AI的重要一步。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-18

OpenAI Baselines: ACKTR & A2C

推荐理由：发布热门AI算法开源实现，属于工具库推荐范畴

OpenAI开源了两种新的强化学习算法实现：A2C（同步确定性版本的A3C）和ACKTR（比TRPO和A2C更样本高效，计算开销略高于A2C）。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-16

More on Dota 2

推荐理由：涉及AI训练方法与性能突破，具技术参考价值

文章探讨Dota 2中自对弈（self-play）如何推动AI系统从远低于人类水平迅速提升至超人类水平，强调其相比监督学习的优势。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-11

Dota 2

推荐理由：展示AI在复杂游戏场景中的自主学习与决策能力，具技术突破性。

OpenAI开发的Dota 2 AI bot通过纯自博弈训练，在标准比赛规则下击败世界顶级职业选手，未使用模仿学习或树搜索，展示了AI在复杂人类环境中的目标达成能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-03

Gathering human feedback

推荐理由：推荐开源AI训练工具，契合AI工具库及安全对齐方向

RL-Teacher 是一个开源工具，通过人类反馈而非手工设计的奖励函数来训练AI，适用于奖励难以定义的强化学习场景，并有助于构建更安全的AI系统。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-07-27

Better exploration with parameter noise

推荐理由：涉及AI模型训练技巧，属热门AI工具库及skill推荐范畴

文章介绍在强化学习算法参数中加入自适应噪声可提升性能，该探索方法实现简单且几乎不会降低表现，适用于各类问题。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-07-20

Proximal Policy Optimization

推荐理由：涉及AI模型算法发布与技术细节，属核心AI技术进展

OpenAI发布近端策略优化（PPO）算法，作为更简单易用且性能优越的强化学习新方法，现已成为其默认RL算法。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-07-17

Robust adversarial inputs

推荐理由：涉及AI模型鲁棒性与安全，属模型评测范畴

研究展示了能从不同尺度和视角稳定欺骗神经网络分类器的对抗样本，反驳了自动驾驶因多视角输入而难以被恶意攻击的观点。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-07-01

Teacher–student curriculum learning

推荐理由：涉及AI模型训练新方法，属热门研究方向

提出一种教师-学生课程学习框架，通过动态调整训练数据难度提升模型学习效率，在多个AI任务中验证有效性。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-06-28

Faster physics in Python

推荐理由：推荐热门AI开源工具库，契合机器人与AI仿真需求

开源了一个基于MuJoCo引擎的高性能Python机器人仿真库，用于加速物理模拟，适用于机器人研究。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-06-13

Learning from human preferences

推荐理由：涉及AI对齐与安全关键技术，属AI模型训练方法创新

OpenAI与DeepMind合作开发新算法，通过人类对两种行为的偏好反馈来推断真实目标，减少人工编写目标函数带来的风险，提升AI系统安全性。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-05-24

OpenAI Baselines: DQN

推荐理由：热门AI开源项目，涉及强化学习核心算法实现

OpenAI开源了其内部强化学习算法实现项目Baselines，首批发布包括DQN及其三个变体，旨在复现与论文结果相当的性能。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-05-16

Robots that learn

推荐理由：涉及AI模型在机器人领域的落地应用与技术突破

OpenAI发布可在仿真中训练、仅需一次演示即可在实体机器人上学习新任务的系统。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-05-15

Roboschool

推荐理由：热门AI开源工具，适用于强化学习与机器人仿真

OpenAI发布Roboschool，一个开源的机器人仿真软件，与OpenAI Gym集成，可用于强化学习研究和开发。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-04-10

Stochastic Neural Networks for hierarchical reinforcement learning

推荐理由：涉及AI模型新方法，属强化学习前沿研究

论文提出使用随机神经网络进行分层强化学习，通过引入随机性提升探索效率和策略泛化能力，在复杂任务中表现优于传统方法。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-04-06

Unsupervised sentiment neuron

推荐理由：涉及AI模型在情感分析上的创新方法，属模型能力评测范畴

研究团队开发了一种无监督系统，仅通过预测亚马逊评论文本的下一个字符，就能学习到出色的情感表征。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-04-01

Spam detection in the physical world

推荐理由：展示AI模型从仿真到实体部署的落地应用案例

团队开发了全球首个完全在仿真中训练的垃圾信息检测AI，并成功部署到实体机器人上，实现物理世界的垃圾信息识别。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-03-24

Evolution strategies as a scalable alternative to reinforcement learning

推荐理由：涉及AI模型训练新方法，对AI研发有参考价值

研究表明，演化策略（ES）作为一种经典优化方法，在Atari/MuJoCo等现代强化学习基准上可媲美主流RL方法，且规避了RL的诸多不便，具备良好的可扩展性。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-03-21

One-shot imitation learning

推荐理由：涉及前沿AI模型能力与应用，契合AI模型发布及技能推荐主题

本文探讨了一种名为“一次性模仿学习”（One-shot imitation learning）的AI技术，使智能体能通过观察单次示范快速学习并执行新任务，适用于机器人控制和自动化场景。

阅读原文 →