华中科大发布多模态大模型“Monkey”,团队称“看图说话”能力突出
近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布并开源了一个高性能多模态大模型“Monkey”。该模型通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。
多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在众多场景中展现了卓越的能力。
VLRLab团队介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名模型。
VLRLab团队称,Monkey模型的一个显著特点是“看图说话”能力比较突出。在详细描述任务中,Monkey模型展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。
这是因为在模型选择上,Monkey模型采用了开源模型Qwen-VL作为语言解码器,以及20亿参数的ViT-BigHuge作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”VLRLab团队负责人、华中科技大学软件学院教授白翔对第一财经记者说,“我们团队从2003年便开始从事图像识别研究,Monkey的最终方案是经10余种方案尝试后才最终确定的”。
记者注意到,Monkey模型还能够处理分辨率达到1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey模型能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
VLRLab团队成员刘禹良介绍,目前业内能处理的图片最大分辨率为448×448像素,想要进一步提升处理能力,需投入十分高昂的算力成本。为了以更低成本扩大输入分辨率,VLRLab团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,从而提取更多局部特征。
白翔表示,Monkey模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化Monkey 模型的感知、联想、推理和泛化能力,希望Monkey能成长为神通广大的“孙悟空”。
朱共山:光伏产业要拥抱全球能源互联网
“特高压负责整合资源、分配资源,储能负责调峰调频,柔性电网负责灵活化、智能化调度,能源生产清洁化、配置广域化、消费电气化。”9月27日,以“全球能源互联网与新型能源体系”为主题的2023全球能源互联网大会在北京举行。全球绿色能源理事会主席、亚洲光伏产业协会主席、协鑫集团董事长朱共山出席本次论坛,并发表以《全球能源互联网赋能光伏产业大发展》为主题的演讲。0000一季报陆续出炉, “吃吃喝喝”的企业率先复苏了
食品和啤酒企业一季度复苏明显。随着经济和消费的复苏,3月份国家统计局公布的社会消费品零售数据也逐步向好。近期多家食品和酒水企业的一季报显示,行业复苏趋势已经出现,特别是“吃吃喝喝”的企业,业绩恢复好于预期。近两日,世界两大食品巨头雀巢和达能先后公布了2023年一季报。0001上交所“我是股东”对话央国企负责人:新基建一定要跟传统基建协同发展
央企控股上市公司作为国民经济的“稳定器”、“压舱石”,是资本市场的重要力量,为其稳定发展作出积极贡献。这其中,基建类央企在更好服务我国现代化产业体系建设、稳增长等国家重大战略,促进实体经济高质量发展等方面扮演着重要角色。锤子财富2023-09-11 15:13:420000连板牛股频出,国企改革概念持续爆发,多家公司密集发布股票异动公告
今日盘后,四川金顶、文投控股、南京公用、南宁百货、上海建科等超10只国企改革概念股发布股价异动公告。12月13日,国企改革概念股大涨,其中四川金顶和文投控股收获六连板,南宁百货实现3连板,上海建科录得5天3板,华原股份、天纺标大涨30%。消息面上,中央经济工作会议强调,明年要围绕推动高质量发展,突出重点,把握关键,扎实做好经济工作。深入实施国有企业改革深化提升行动,增强核心功能、提高核心竞争力。0000行业一季报盘点|券商股走强 多家券商一季度业绩报喜
4月27日,券商板块午后上攻,截至收盘,国金证券涨超4%,兴业证券涨超3%,中金公司、西部证券涨超2%。盘后,中信证券、中信建投、兴业证券、浙商证券、中国银河等近10家券商的一季报业绩悉数出炉,其一季度净利均较上年同期实现增长。锤子财富2023-04-27 23:20:090000