笑笑乐园 - 朝花夕拾

Hugging Face Blog ★★★★☆ 2020-09-10

用于更小更快语言模型的块稀疏矩阵

推荐理由：涉及AI模型优化技术，有助于提升模型效率和落地应用

文章探讨如何利用块稀疏矩阵技术压缩和加速大语言模型，提升推理效率并减少内存占用，适用于部署资源受限场景。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-09-07

Generative language modeling for automated theorem proving

推荐理由：涉及AI模型在专业领域的创新应用，属AI技术前沿探索

探索生成式语言模型在自动定理证明中的应用，通过微调大语言模型提升形式化数学推理能力，并在Lean等证明助手中实现初步验证。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-09-04

Learning to summarize with human feedback

推荐理由：涉及AI模型训练方法及性能优化，属模型评测与改进范畴。

通过人类反馈强化学习训练出更优的文本摘要语言模型，提升摘要生成质量。

阅读原文 →

Lilian Weng's Blog ★★★★☆ 2020-08-06

Neural Architecture Search

推荐理由：涉及AI模型自动化设计，属热门AI工具库与技术方向

文章探讨神经架构搜索（NAS）技术，将其方法分解为搜索空间、搜索算法和子模型演化策略三部分，综述了实现更高效、低成本自动设计高性能神经网络的前沿思路。

阅读原文 →

Hugging Face Blog ★★★★☆ 2020-07-03

Reformer：突破语言模型的极限

推荐理由：介绍高效大模型架构，属AI模型技术进展

Reformer是一种高效Transformer变体，通过局部敏感哈希和可逆残差层显著降低内存与计算开销，适用于长序列建模。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-06-17

Image GPT

推荐理由：涉及AI生成模型技术原理与性能评测

研究表明，与语言模型类似，基于像素序列训练的大型Transformer模型可生成连贯图像，并在无监督图像分类任务中表现优异。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-06-11

OpenAI API

推荐理由：涉及 AI 模型服务发布，对开发者有直接使用价值

OpenAI 发布新 API，提供对其最新 AI 模型的访问接口，开发者可集成其先进模型能力到各类应用中。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-05-28

Language models are few-shot learners

推荐理由：探讨大模型核心能力，对AI编程与应用有启发

论文提出语言模型可通过少量示例（few-shot）完成任务，无需微调。在多个NLP基准上验证了该能力，展示了大模型的泛化潜力。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-05-05

AI and efficiency

推荐理由：涉及AI模型训练效率与算法进展，契合模型评测与技术演进主题

自2012年以来，训练ImageNet分类神经网络所需算力每16个月减半，算法进步带来的效率提升远超摩尔定律，凸显AI领域算法优化的重要性。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-04-30

Jukebox

推荐理由：热门AI开源项目，涉及生成式AI在音乐领域的创新应用

OpenAI发布Jukebox，一个能生成多种风格音乐及简单人声的神经网络模型，并开源模型权重、代码及音频样本探索工具。

阅读原文 →

OpenAI Blog ★★★☆☆ 2020-04-16

Improving verifiability in AI development

推荐理由：涉及AI开发透明度与可信机制，契合AI商业化落地中的合规与评估需求。

多机构联合发布报告，提出10种机制提升AI系统声明的可验证性，帮助开发者证明AI的安全性、公平性等，供用户和政策制定者评估AI开发流程。

阅读原文 →

OpenAI Blog ★★★☆☆ 2020-04-14

OpenAI Microscope

推荐理由：涉及AI模型内部机制可视化，属模型评测与分析工具

OpenAI发布Microscope，提供8个视觉模型各层神经元的可视化，助力可解释性研究。

阅读原文 →

Lilian Weng's Blog ★★★★☆ 2020-04-07

The Transformer Family

推荐理由：深入解析主流AI模型架构演进，契合模型评测与技术发展兴趣

文章系统梳理了Transformer模型的多种改进版本，涵盖长序列注意力、计算与内存优化、强化学习任务适配等方向，并于2023年更新至第二版，涵盖2020年以来的新进展。

阅读原文 →

Hugging Face Blog ★★★★☆ 2020-03-01

如何生成文本：使用不同的解码方法进行基于 Transformer 的语言生成

推荐理由：深入讲解AI文本生成核心技术，对开发者理解和优化生成效果有实用价值。

本文介绍在使用Transformer模型进行文本生成时，多种解码策略（如贪心搜索、束搜索、采样、top-k和top-p采样）的原理、优缺点及适用场景。

阅读原文 →

Hugging Face Blog ★★★★☆ 2020-02-14

如何使用 Transformers 和 Tokenizers 从零开始训练一个新语言模型

推荐理由：涵盖主流AI工具库实战教程，适合开发者掌握大模型训练技能

本文详细介绍了如何利用 Hugging Face 的 Transformers 和 Tokenizers 库，从数据准备、分词器训练到模型训练全流程，从头开始构建一个语言模型。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-01-30

OpenAI standardizes on PyTorch

推荐理由：涉及主流AI框架选型，影响开发者技术栈

OpenAI宣布将深度学习框架统一为PyTorch，表明其对PyTorch生态的全面投入，可能影响未来AI模型开发和工具链选择。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-01-23

Scaling laws for neural language models

推荐理由：涉及大模型核心训练规律，对AI模型研发有重要参考价值

论文探讨神经语言模型的缩放规律，分析模型性能随参数量、数据量和计算资源增长的变化趋势，为大模型训练提供理论指导。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-13

Dota 2 with large scale deep reinforcement learning

推荐理由：涉及大模型与强化学习在复杂场景的应用，具技术参考价值

文章介绍使用大规模深度强化学习技术训练AI在Dota 2游戏中达到人类顶尖水平，展示了复杂环境下的多智能体协作与决策能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-05

Deep double descent

推荐理由：揭示大模型训练中的关键现象，对AI模型开发有指导意义

研究发现双下降现象普遍存在于CNN、ResNet和Transformer等模型中，表现为模型性能随规模、数据量或训练时间增加先升后降再升，需通过正则化缓解。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-03

Procgen Benchmark

推荐理由：提供RL模型评测新基准，契合AI模型评测主题

OpenAI发布Procgen Benchmark，包含16个程序生成的强化学习环境，用于评估智能体泛化能力的学习速度。

阅读原文 →