大模型

参数数量非常庞大的深度神经网络或其他机器学习模型。

Lecun报告《目标驱动AI:能学习、记忆、推理、规划、具备常识且可控安全的AI系统研究》

该文章提出了朝着能够学习、记忆、推理、规划、具备常识且可控制以及安全的人工智能系统迈进的目标。虽然自监督学习在文本、图像、视频等方面表现很好,但还...

斯坦福|半监督元学习时空学习

本文提出了一种半监督元学习方法,应用于视频数据的时空模式学习。方法包括使用预训练的掩码自编码器进行微调,训练MAE编码器并应用分类头,以及使用预训练的...

斯坦福|基于因果引导解缠的跨平台仇恨言论检测

本文提出了一种跨平台的仇恨言论检测模型,通过学习因果关系和解缠输入表示来实现对仇恨言论的有效检测和泛化。该方法将输入表示解缠为不变的和平台依赖的特...

AWS AI Labs|基于组合扩散模型的数据保护训练

本文提出了一种名为Compartmentalized Diffusion Models(CDM)的方法,可以在不同的数据源上独立训练,并在推理时进行组合,从而实现了对训练数据的保护。CDM...

面壁智能给大模型接入16000+真实API,效果直逼ChatGPT!

开源语言模型更好地使用各种工具,增强其复杂场景下推理能力,TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出了ToolLLM工具学习框架,加入OpenBMB大模型...

Google Research|基于树的生成模型

该论文提出了一种基于树的生成模型,适用于稠密建模和表格数据生成,改进了最近提议的建模能力,并提出了一个简化了以前方法训练设置的训练算法,显示出与boo...

使用llama.cpp加速AquilaChat推理,可在苹果 M1上运行

Georgi Gerganov has developed an open-source project called llama.cpp, which enables developers to run Meta's Llama model on devices without advanc...

Anthropic|基于影响函数的大型语言模型泛化研究

将以下内容总结出150个字的摘要,只返回摘要结果。 Studying Large Language Model Generalization with Influence Functions Roger Grosse, Juhan Bae, Cem...

AI大模型训练背后,一条数据产业链正在形成

本文探讨了海量数据在新的AI浪潮中的重要性,以及数据作为未来的关键生产要素所面临的问题。据统计,数据要素所能释放的数字经济潜力将无比巨大,然而,数据...

大模型Agent能力全面评测,清华伯克利发布AgentBench,AK高赞论文

将以下内容总结出150个字的摘要,只返回摘要结果。 AgentBench: 评估LLMs作为Agent的能力 标题:AgentBench: Evaluating LLMs as Agents 机构:清华大学、俄...
1 2 3 4 5 15