对不少用户来说,使用市面主流大模型的最大痛点,是AI的智能化程度不够高,做不到像人一样理解给定素材(尤其是图像、视频、文档等多模态素材),导致许多任务承载不了,所谓的AI助理秒变鸡肋。
然而,智谱最新推出的多模态大模型GLM-4.1V-Thinking(以下简称“GLM”),其性能之强大,或将完全颠覆这种局面。今天appmall.ai就带大家来测评一下,这款刚刚推出就成功登顶HuggingFaceTrending榜单的AI大模型,是否真的不输月薪5万私人助理。
GLM因何“能扛能打”?
首先看出身。GLM是“AI六小虎”智谱AI最新发布的视觉语言大模型,它是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。
其次看跑分。这款模型尺寸只有9B,在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL。
最后看能力。GLM在内容理解(分析图像与文本信息)、解题推理(数学与科学题目分析演绎)、主体锚定(识别并指出语言指令里提到的主体)等方面都表现出了高度稳定的性能。

GLM实测效果如何?
GLM现已上线appmall.ai,低至2.3元/小时,就可以收获超越Qwen-2.5等市面主流大模型的多模态AI助理体验,妥妥不输月入5万的私人助理。
今天AppMall就带着大家来实测一下GLM最能打的核心竞争力吧:
(1)Easy模式:图片理解、主体识别
首先上传一张图片,测试GLM能否识别出这是哪个成语典故。GLM很好地完成了任务,同时展现出了深度思考的过程,包括常见成语检索、典故解释、其他成语排除、组织语言。


指定主体的识别和定位方面,GLM表现如何?比如问GLM:下面这张图片中,红衣女士的位置在哪里?

可以看到,AI经过分析精准地识别出prompt里指定的主体,并且对其位置有正确的描述。

(2)Normal模式:细节分析、常识测试
继续测试GLM是否能在图片理解过程中体现像人一样的思考。比如问GLM:在这个唐朝宴饮画面中,有哪些不符合常识的地方?

GLM也识别出来,可口可乐、智能手机不应该出现在当时的朝代。

再看看GLM对于一些精细化的内容分析能力如何。比如我们抛出一个典型的“找不同”场景,交给GLM进行分析。

从答案来看,整体表现还是可以的,但是在颜色的识别上还是出现了明显错误(比如最右侧的花朵颜色有差别,但是GLM没有识别出来),基本可以认定GLM的分析胜任度和内容细节的丰富度成反比。

(3)Hard模式:解题推理
从前面的使用场景,GLM在文科领域的整体表现可以在95/100分以上,那么理科场景的胜任度如何呢?我们选择了一道2025高考数学题,来测试GLM包含基本文字理解(题目语义)、公式记忆、图像识别、逻辑解答等能力。

可以看到,GLM很快就开始了思考过程,最终给出了与标准答案一致的回答,证明其在数学科学推理领域的跑分实至名归。

对于更复杂的任务,比如对多页、多语言ppt或pdf理解分析方面,虽然GLM目前支持图片、视频、PPT和PDF格式的文档上传,但AppMall实测下来,现有的9B小版本在视频和文档分析方面比较受限,表现并不好。妥协方式是复制大段文本发送到对话框中,让GLM进行分析。
总而言之,目前appmall.ai上线的GLM小版本,更适合主流高频日常场景的使用,基本可以达成文理双料学霸的AI助理水准,不输月入5万私人助理。如果AI深度玩家需要将GLM应用在更复杂的场景,那么更适合自行部署完整版本进行探索。
还在等什么?快来appmall.ai试用GLM吧~