admin管理员组

文章数量:1487745

Today

前不久,智谱官微放出来了关于智谱AI Open Day的预告。

今天,智谱AI 在OpenDay正式开源了GLM4系列的小版本-GLM-4-9B系列。

GLM-4-9B是智谱AI最新推出的预训练模型GLM-4系列的开源版本。

在语义理解、数学计算、逻辑推理、编程代码以及综合知识等多个领域的数据集评估中,GLM-4-9B及其针对人类偏好优化的版本GLM-4-9B-Chat均展现出超越Llama-3-8B的优异性能。

GLM-4-9B-Chat不仅能够进行多轮对话,还具备网页浏览、代码执行、自定义功能调用以及长文本推理等高级功能,支持最大128K的上下文长度。

此外,智谱AI还推出了GLM-4-9B-Chat-1M模型,支持高达1M的上下文长度,相当于约200万中文字符。

GLM4的两款mini模型定价策略如下:

同时,基于GLM-4-9B开发的多模态模型GLM-4V-9B,具备1120*1120的高分辨率,支持中英双语的多轮对话能力。

在中英文综合能力、感知推理、文字识别和图表理解等多模态评估中,GLM-4V-9B均表现出超越GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max以及Claude 3 Opus的卓越性能。本代模型还增加了对包括日语、韩语、德语在内的26种语言的支持。

目前智谱AI开放平台支持了GLM4系列的语言模型和多模态大模型,每一个模型的定价策略不同:

评测结果

对话模型典型任务

基座模型典型任务

由于 GLM-4-9B 在预训练过程中加入了部分数学、推理、代码相关的 instruction 数据,所以将 Llama-3-8B-Instruct 也列入比较范围。

长文本

在 1M 的上下文长度下进行大海捞针实验,结果如下:

在 LongBench-Chat 上对长文本能力进行了进一步评测,结果如下:

多语言能力

在六个多语言数据集上对 GLM-4-9B-Chat 和 Llama-3-8B-Instruct 进行了测试,测试结果及数据集对应选取语言如下表

工具调用能力

我们在 Berkeley Function Calling Leaderboard 上进行了测试并得到了以下结果:

多模态能力

GLM-4V-9B 是一个多模态语言模型,具备视觉理解能力,其相关经典任务的评测结果如下:

GLM-4全系列全面上线魔搭社区,不仅包括基础模型和对话模型,也包括多模态,长序列,快来魔搭社区体验吧!

Chat模型链接:

多模态大模型:

更多模型详见:

对此,你有什么看法呢?欢迎留言评论

PS:今天看到非常不错的小册子,很适合处于现阶段的你。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-06-05,如有侵权请联系 cloudcommunity@tencent 删除开源测试模型数据性能

本文标签: today