实际上,MiniGPT-4 应该是一个名字耽误了的开源项目。尽管现在它的 Star 数快要突破 1 万(睡醒可能就过了),但它值得更高的关注度。它的真正意义在于破解了 GPT-4 的魔法,树立了一个引领性的开源灯塔。
它是来自阿卜杜拉国王科技大学的几位博士的开源项目,有华裔,其内容完善,开源文档质量很高,包括论文、代码、视频和演示网站(虽然运行稳定性不强)。
MiniGPT-4 的代码编写得相当精妙,不超过 100 个文件,整体上 Python 代码写得很 Pythonic,阅读起来很舒服。
1. CV 部分采用了 EVA、BEIT、timm 和 DeiT。其中,EVA 来自智源研究院,BEIT 来自微软,DeiT 则来自 Facebook,充分体现了开源世界合作的力量。
2. NLP 部分采用了 LLaMA,效果虽然没GPT-4那么好,但是也基本上合格
3. 框架主体使用了 PyTorch,TensorFlow 基本上快凉凉了……
4. 分布式部分,用了Salesforce.com的一个基于 PyTorch 分布式的简单封装和加强库
………
还有诸多亮点,就不一一阐述。小团队和个人可以认真阅读 MiniGPT-4 的代码,甚至稍加修改,封装出勉强可用的小版本。而大公司则完全可以借鉴 MiniGPT-4,依靠自身强大的工程能力,开发出接近 GPT-4 图像理解和交流能力的版本。
虽然 MiniGPT-4 由于起点的原因,最终大规模生产化可能性不大,但它确实树立了一个很好的示范和方向。借助各种基础开源模型的组合,是可以实现能被理解,而不是过度吹捧的多模态识别组合,这将迈出了AI正确的一步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...