机器学习 | 第 24 页

悟透Transformer–AI是如何学习扑克牌排序的（一）

人工智能的各个领域（自然语言处理、计算机视觉等）是兄弟爬山，每个领域都有自己的模型框架。作为一种具有更高普适性的AI模型架构，但绝大部分是从谷歌的原...

智源社区

2年前 (2023)

大模型自学使用工具（Toolformer）｜OpenBMB论文速读第 7 期

本期论文速读带大家了解如何驱动语言模型去使用简单的模型来调用外部的工具——Toolformer:驱动语言模型去使用简单的模型来调用外部的工具，Toolformer 通过语...

智源社区

2年前 (2023)

视频自监督学习综述

深度学习在各个领域的显著成功依赖于大规模注释数据集的可用性，使用人工生成的注释会导致模型有偏差学习、领域泛化能力差和鲁棒性差，自监督学习提供了一种...

智源社区

2年前 (2023)

IEEE Spcetrum | 在寻找人类智能AI的道路上，Meta将宝押向了自监督学习

我们希望构建出能像动物和人类一样进行学习的智能机器“内容涉及到一种用于AI系统的自监督学习（SSL）。人工智能系统从标记的数据集中进行学习（标签就像教师...

智源社区

2年前 (2023)

University of Washington :Hao Yin | 深度强化学习辅助下一代Wi-Fi网络的多接入点协调

【推荐理由】企业中的Wi-Fi（以重叠Wi-Fi单元为特征）构成了下一代网络的设计挑战，最近启动的IEEE 802.11be（Wi-Fi 7）工作组的标准化工作重点关注媒体访问...

强化学习

2年前 (2023)

University of Toronto:Anthony Coache | 深度强化学习的条件可诱导动态风险度量

【推荐理由】本文提出了一种新的框架来解决风险敏感强化学习（RL）问题。其中智能体优化了时间一致的动态频谱风险度量：该方法构造了（严格一致的）评分函数...

强化学习

2年前 (2023)

爱可可AI前沿推介(7.3)

用数据修剪战胜神经网络幂律扩展率、生成式神经人体辐射场、逆向问题中深度学习方法的理论分析、贝叶斯因果推断的批判性综述、可复现高效协作型优化基准、基...

智源社区

2年前 (2023)

通过奖励建模实现可扩展的智能体对齐

将强化学习算法应用于现实场景的障碍之一是缺乏合适的奖励函数，一定程度上是因为无法明确表述用户对任务目标的理解，从而能够以符合用户意图的方式解决复杂...

强化学习

2年前 (2023)

在使用函数逼近的高效在线强化学习中，普适覆盖条件的可证明益处

本篇论文旨在探讨使用覆盖条件在在线强化学习中的潜力和效用。本文的关键思路是探索更多可能的覆盖条件。本文提出的$L^p$浓度性、密度比实现性和部分/全覆盖...

强化学习

2年前 (2023)

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL & Double Deep Q-Network

本期周刊整理了强化学习领域相关的最新论文推荐及研究综述，可以扫描文末的二维码加入强化学习社区群。您已经完成《强化学习周刊》订阅啦;以后智源社区会自动...

强化学习

2年前 (2023)

标签：机器学习

悟透Transformer–AI是如何学习扑克牌排序的（一）

大模型自学使用工具（Toolformer）｜OpenBMB论文速读第 7 期

视频自监督学习综述

IEEE Spcetrum | 在寻找人类智能AI的道路上，Meta将宝押向了自监督学习

University of Washington :Hao Yin | 深度强化学习辅助下一代Wi-Fi网络的多接入点协调

University of Toronto:Anthony Coache | 深度强化学习的条件可诱导动态风险度量

爱可可AI前沿推介(7.3)

通过奖励建模实现可扩展的智能体对齐

在使用函数逼近的高效在线强化学习中，普适覆盖条件的可证明益处

《强化学习周刊》第52期：Depth-CUPRL、DistSPECTRL & Double Deep Q-Network

站点公告

最新文章

随机网址

热门标签