首页 联华证券 十大配资公司 2024十大正规股票配资排名
联华证券_十大配资公司_2024十大正规股票配资排名

联华证券

你的位置:联华证券_十大配资公司_2024十大正规股票配资排名 > 联华证券 > 股票没有杠杆买股票杠杆 多模态大语言模型领域进展分享(2024)

股票没有杠杆买股票杠杆 多模态大语言模型领域进展分享(2024)

发布日期:2025-01-11 12:42    点击次数:130

股票没有杠杆买股票杠杆 多模态大语言模型领域进展分享(2024)

随着人工智能技术的快速发展,多模态大语言模型(MLLM)正成为研究和应用的新热点。幻影视界今天分享的是:《多模态大语言模型领域进展分享(2024)》由殷述康@中国科技大学发布。报告主要介绍多模态大语言模型的背景、基础概念、演进、团队相关工作以及未来展望。

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

背景-LLM正走向多模态

大语言模型(LLM)是近几年来最火热的方向之一 可以解决各种传统NLP任务,如文本分类、命名实体识别等 可以做更高级的任务 作为聊天机器人,按照要求扮演某个角色 (强大的指令遵循能力) 做高阶的推理任务,如写代码、解数学问题等 (强大的推理能力, CoT进一步增强) 然而LLM存在固有的限制 无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站 截图给出源代码、理解一张表情包的含义 无法获取更多的多模态的世界知识,如名画、名人等

展开剩余76%

多模态大语言模型演进

1. 分辨率提升

分辨率的提高使得模型能够捕捉到更多的细节信息,从而更准确地回答问题。

2. 更丰富的输入形式

早期的多模态模型主要支持单一图片输入,并且输出主要是文本。随着技术的发展,现在的模型不仅支持多图输入,还支持视频输入。

3. 更丰富的 I/O 模态支持

现代多模态模型不仅输出文本,还能生成图文结合的内容。

未来展望

未来需要什么? 支持更长的context/有效的压缩视 觉token输入的视觉token越来越多,多图、高分辨率、长视频理解...长上下文理解能力,如电影级别的视频理解 多模态Agent如智能手机助手,自动完成某项操作,如将手机亮度调整至夜间模式轻量化的部署 统一多模态生成和理解统一的训练范式,统一的推理流程直接生成任意图文交错的内容

幻影视界整理分享报告原文节选如下:

发布于:广东省