admin管理员组文章数量:1487745
Today
前不久,智谱官微放出来了关于智谱AI Open Day的预告。
今天,智谱AI 在OpenDay正式开源了GLM4系列的小版本-GLM-4-9B系列。
GLM-4-9B是智谱AI最新推出的预训练模型GLM-4系列的开源版本。
在语义理解、数学计算、逻辑推理、编程代码以及综合知识等多个领域的数据集评估中,GLM-4-9B及其针对人类偏好优化的版本GLM-4-9B-Chat均展现出超越Llama-3-8B的优异性能。
GLM-4-9B-Chat不仅能够进行多轮对话,还具备网页浏览、代码执行、自定义功能调用以及长文本推理等高级功能,支持最大128K的上下文长度。
此外,智谱AI还推出了GLM-4-9B-Chat-1M模型,支持高达1M的上下文长度,相当于约200万中文字符。
GLM4的两款mini模型定价策略如下:
同时,基于GLM-4-9B开发的多模态模型GLM-4V-9B,具备1120*1120的高分辨率,支持中英双语的多轮对话能力。
在中英文综合能力、感知推理、文字识别和图表理解等多模态评估中,GLM-4V-9B均表现出超越GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max以及Claude 3 Opus的卓越性能。本代模型还增加了对包括日语、韩语、德语在内的26种语言的支持。
目前智谱AI开放平台支持了GLM4系列的语言模型和多模态大模型,每一个模型的定价策略不同:
评测结果
对话模型典型任务
基座模型典型任务
由于 GLM-4-9B
在预训练过程中加入了部分数学、推理、代码相关的 instruction 数据,所以将 Llama-3-8B-Instruct 也列入比较范围。
长文本
在 1M 的上下文长度下进行大海捞针实验,结果如下:
在 LongBench-Chat 上对长文本能力进行了进一步评测,结果如下:
多语言能力
在六个多语言数据集上对 GLM-4-9B-Chat 和 Llama-3-8B-Instruct 进行了测试,测试结果及数据集对应选取语言如下表
工具调用能力
我们在 Berkeley Function Calling Leaderboard 上进行了测试并得到了以下结果:
多模态能力
GLM-4V-9B 是一个多模态语言模型,具备视觉理解能力,其相关经典任务的评测结果如下:
GLM-4全系列全面上线魔搭社区,不仅包括基础模型和对话模型,也包括多模态,长序列,快来魔搭社区体验吧!
Chat模型链接:
多模态大模型:
更多模型详见:
对此,你有什么看法呢?欢迎留言评论
PS:今天看到非常不错的小册子,很适合处于现阶段的你。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-06-05,如有侵权请联系 cloudcommunity@tencent 删除开源测试模型数据性能本文标签: today
版权声明:本文标题:Today 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/shuma/1754997841a3182284.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论