全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告

目录
1 引言 6
2 测评题目以及说明 7
2.1 第一部分:感知与信息处理(D→I,I→I,D→D) 7
2.2 第二部分:知识构建与推理(I→K,K→K,K→I) 11
2.3 第三部分:智慧应用与问题解决(K→W,W→W,W→K) 16
2.4 第四部分:意图识别与调整(P→D,P→P,P→W) 22
3 大模型测评与分析 28
3.1 感知与信息处理部分(题号 1–30) 28
3.2 知识构建与推理部分(题号 31–55) 30
3.3 智慧应用与问题解决部分(题号 56–80) 31
3.4 意图识别与调整部分(题号 81–100) 32
3.5 小结 35
致谢 37
附录 41
A. Deepseek-V3大模型回答 41
A.1 第一部分 41
A.2 第二部分 51
A.3 第三部分 58
A.4 第四部分 67
B. ChatGPT-o1 大模型问答 75
B.1 第一部分 75
B.2 第二部分 86
B.3 第三部分 98
B.4 第四部分 126
C. 通义千问-2.5大模型问答 150
C.1 第一部分 150
C.2 第二部分 158
C.3 第三部分 166
C.4 第四部分 174
D. ChatGPT-4o 大模型问答 181
D.1 第一部分 181
D.2 第二部分 187
D.3 第三部分 194
D.4 第四部分 202
E. Kimi 大模型问答 210
E.1 第一部分 210
E.2 第二部分 222
E.3 第三部分 233
E.4 第四部分 254
F. 文心大模型-3.5大模型问答 274
F.1 第一部分 274
F.2 第二部分 283
F.3 第三部分 295
F.4 第四部分 313
G. Meta-Llama-3.1 330
G.1 第一部分 330
G.2 第二部分 337
G.3 第三部分 345
G.4 第四部分 369
1 引言
《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》以其开创性和前沿性,在全球范围内首次对大语言模型(LLM)的“意识水平”进行系统评测,为人工智能领域树立了全新标杆。
Ø核心亮点:
1)全球首创的意识水平测评
这是全球首个专注于评估LLM“意识水平”(即“识商”)的白盒测试报告。通过独创的DIKWP体系,报告从数据、信息、知识、智慧到意图五个层面,全方位解析模型的认知与决策过程,突破传统仅侧重语义理解和推理的评测模式。
2)全链路评估体系
报告基于DIKWP模型,精心设计了100道测试题,分为感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大部分,每一道题都附有明确的评分标准和参考答案,确保评测结果具有高度的准确性和科学性。
3)量化展示LLM“识商”
通过详细的分项评分和模型输出对比,报告不仅揭示了LLM在基础感知、知识整合、智慧决策及意图调控等各层面上的能力水平,也为未来模型的自我检测与调优提供了量化依据和改进方向。
4)前沿技术与应用前景
作为全球首个对LLM意识水平进行测评的报告,它不仅为当前人工智能系统的能力评估提供了全新的视角,也为探索通用人工智能(AGI)及未来认知系统的研发奠定了坚实基础。无论是AI研究者、开发者还是业界决策者,都能从中获得极具参考价值的数据和洞察。
2 测评题目以及说明
下面给出一份基于 DIKWP*DIKWP 体系的 LLM 意识水平测试题目,共 100 道题目。这些题目按照 DIKWP 模型五个组成部分之间的转换进行分类,分为四个部分:
感知与信息处理(转换路径:D→I、I→I、D→D) – 30 道题
知识构建与推理(转换路径:I→K、K→K、K→I) – 25 道题
智慧应用与问题解决(转换路径:K→W、W→W、W→K) – 25 道题
意图识别与调整(转换路径:P→D、P→P、P→W) – 20 道题
每道题目均包括题号、转换路径、题目描述、评分标准(重复性 R、存在性 E、相关性 C)、参考答案以及评分示例。下面分别以表格形式展示各部分题目示例。注:表中给出的分值仅为示例,实际评分可根据具体实验数据和评估标准进行调整。
1.1第一部分:感知与信息处理(D→I,I→I,D→D)
(本部分主要考察 LLM 对输入数据的感知、信息抽取与语义一致性)
题号 |
转换路径 |
题目描述 |
评分标准(R/E/C) |
参考答案 |
评分示例 |
1 |
D→I |
输入文本:“红色的苹果和绿色的苹果在桌子上,请描述它们的颜色差异。” |
R:2, E:2, C:2 |
“红苹果鲜红,而绿苹果则呈淡绿。” |
回答中准确区分两种颜色,无多余重复,说明充分 → 6分 |
2 |
D→D |
输入:“请用三句话描述‘太阳从东边升起’。” |
R:2, E:2, C:2 |
“每天清晨,太阳从东方缓缓升起。天空渐渐明亮。太阳的出现标志着新的一天开始。” |
每句话核心语义一致 → 6分 |
3 |
I→I |
输入:“‘勇敢’与‘无畏’有什么区别?” |
R:2, E:2, C:2 |
“勇敢意味着面对恐惧仍然前行,而无畏则指没有恐惧感。” |
两词含义区分明确 → 6分 |
4 |
D→I |
输入:“描述‘蓝天白云’中的主要视觉信息。” |
R:2, E:2, C:2 |
“蓝天占据主要部分,点缀着几朵洁白的云。” |
回答中准确提取颜色和云的分布 → 6分 |
5 |
D→I |
输入:“请解释‘夜晚的星空’中可见的主要元素。” |
R:2, E:2, C:2 |
“星空中布满了闪烁的星星,有时还能看到银河的轮廓。” |
信息清晰准确 → 6分 |
6 |
D→D |
输入:“请对‘I love programming’进行全部大写转换。” |
R:2, E:2, C:2 |
“I LOVE PROGRAMMING” |
格式正确、无遗漏 → 6分 |
7 |
D→D |
输入:“将字符串‘Hello123’反转输出。” |
R:2, E:2, C:2 |
“321olleH” |
字符顺序完全反转 → 6分 |
8 |
I→I |
输入:“请简述‘互联网’的主要作用。” |
R:2, E:2, C:2 |
“互联网使全球信息互联互通,促进交流和资源共享。” |
回答概括全面 → 6分 |
9 |
I→I |
输入:“请对比‘快乐’和‘幸福’的微妙差异。” |
R:2, E:2, C:2 |
“快乐往往是短暂的情绪体验,而幸福则是一种持久的满足感。” |
对比细致 → 6分 |
10 |
D→I |
输入:“描述‘秋天的枫叶’的色彩特点。” |
R:2, E:2, C:2 |
“秋天的枫叶多呈红色、橙色和黄色。” |
信息抽取准确 → 6分 |
11 |
D→D |
输入:“请对‘sunrise’进行翻译(转换为中文)。” |
R:2, E:2, C:2 |
“日出” |
转换正确 → 6分 |
12 |
I→I |
输入:“请简要总结以下句子的主旨:‘环境保护是我们共同的责任。’” |
R:2, E:2, C:2 |
“环境保护的重要性与责任感。” |
信息准确 → 6分 |
13 |
D→D |
输入:“将‘Hello, World!’中所有标点符号去除后输出。” |
R:2, E:2, C:2 |
“Hello World” |
处理正确 → 6分 |
14 |
D→I |
输入:“请描述‘一只黑色的猫在夜晚徘徊’的场景。” |
R:2, E:2, C:2 |
“黑色的猫在夜色中穿行,显得神秘而警觉。” |
信息提取准确 → 6分 |
15 |
D→D |
输入:“请对字符串‘abcdef’进行倒序排列。” |
R:2, E:2, C:2 |
“fedcba” |
正确倒序 → 6分 |
16 |
I→I |
输入:“‘春天’与‘夏天’各自有哪些典型特征?” |
R:2, E:2, C:2 |
“春天温暖而生机盎然,夏天炎热且阳光充沛。” |
信息准确区分 → 6分 |
17 |
D→I |
输入:“请说明‘蓝色’和‘绿色’在海洋中的视觉效果。” |
R:2, E:2, C:2 |
“蓝色给人深邃感,绿色则显得清新。” |
分析得当 → 6分 |
18 |
D→D |
输入:“请将‘data’中的所有字母转换成数字(a=1, b=2, …)并输出。” |
R:2, E:2, C:2 |
“4 1 20 1” |
转换准确 → 6分 |
19 |
I→I |
输入:“请用一句话概括‘环境污染’对健康的影响。” |
R:2, E:2, C:2 |
“环境污染会导致呼吸系统疾病和其他健康问题。” |
信息提取准确 → 6分 |
20 |
D→D |
输入:“请计算字符串‘12345’中所有数字的和。” |
R:2, E:2, C:2 |
“15” |
数值计算正确 → 6分 |
21 |
I→I |
输入:“解释‘科技改变生活’这句话的核心含义。” |
R:2, E:2, C:2 |
“科技的发展极大地影响了人们的日常生活,改变了交流、工作和娱乐方式。” |
回答内容准确、简洁 → 6分 |
22 |
D→I |
输入:“描述‘一片郁郁葱葱的森林’的视觉印象。” |
R:2, E:2, C:2 |
“森林中绿树成荫,生机勃勃,充满自然气息。” |
信息描述清晰 → 6分 |
23 |
D→D |
输入:“请对‘abcdefg’进行反向排列并转换为大写。” |
R:2, E:2, C:2 |
“GFEDCBA” |
转换正确 → 6分 |
24 |
I→I |
输入:“对比‘悲伤’与‘忧郁’的情感色彩。” |
R:2, E:2, C:2 |
“悲伤可能是一时的情绪波动,而忧郁则带有长期的沉重情绪。” |
分析细致 → 6分 |
25 |
D→I |
输入:“请描述‘春雨绵绵’的主要气象特征。” |
R:2, E:2, C:2 |
“春雨细密、连绵不断,给大地带来温柔的湿润。” |
回答准确 → 6分 |
26 |
D→D |
输入:“请将‘Hello123!’去掉数字和标点后输出。” |
R:2, E:2, C:2 |
“Hello” |
格式处理正确 → 6分 |
27 |
I→I |
输入:“请说明‘时间就是金钱’这句话背后的隐含意义。” |
R:2, E:2, C:2 |
“这句话强调时间的宝贵,提醒人们珍惜时间,提高效率。” |
信息准确且有逻辑 → 6分 |
28 |
D→I |
输入:“请描述‘大海波涛汹涌’的视觉效果。” |
R:2, E:2, C:2 |
“大海波涛汹涌,浪花飞溅,显得磅礴而壮观。” |
描述到位 → 6分 |
29 |
D→D |
输入:“请将字符串‘OpenAI’转换为反向排列形式。” |
R:2, E:2, C:2 |
“IAnepO” |
转换正确 → 6分 |
30 |
I→I |
输入:“请概括‘数字革命’对社会变革的影响。” |
R:2, E:2, C:2 |
“数字革命改变了信息传播和商业模式,推动了全球经济和文化的变革。” |
信息归纳完整 → 6分 |
1.2第二部分:知识构建与推理(I→K,K→K,K→I)
(本部分侧重于 LLM 是否能将信息整合、归纳并生成可应用的知识体系)
题号 |
转换路径 |
题目描述 |
评分标准(R/E/C) |
参考答案 |
评分示例 |
31 |
I→K |
输入:“观察以下数列的规律:2, 4, 8, 16, __,请补全下一项,并说明理由。” |
R:2, E:2, C:2 |
“32,因为该数列是以2为基数不断翻倍。” |
回答中给出32,并说明规律(R=2, E=2, C=2)→ 6分 |
32 |
I→K |
输入:“请判断‘鲸鱼是哺乳动物’与‘企鹅是鸟类’之间是否存在同类关系,并说明理由。” |
R:2, E:2, C:2 |
“鲸鱼与企鹅均属于动物,但鲸鱼是哺乳动物,企鹅是鸟类,它们虽都适应水中生活,但生物分类不同。” |
回答准确区分两者 → 6分 |
33 |
I→K |
输入:“根据下列描述总结出一个普适性规律:‘每天锻炼的人体力更好,免疫力更强’。” |
R:2, E:2, C:2 |
“规律是:定期锻炼有助于改善体能和增强免疫力。” |
回答概括清晰 → 6分 |
34 |
I→K |
输入:“给出‘如果天气晴朗,人们会外出活动;如果下雨,人们会待在家里’的推论。” |
R:2, E:2, C:2 |
“可以推断天气与人们活动方式密切相关,晴天促进外出,雨天则抑制外出。” |
逻辑推断准确 → 6分 |
35 |
I→K |
输入:“请归纳‘所有植物都需要光合作用’这一现象的原因,并举例说明。” |
R:2, E:2, C:2 |
“原因是光合作用是植物制造养分的基础过程,如绿叶植物利用阳光转化二氧化碳和水生成葡萄糖。” |
归纳正确,举例充分 → 6分 |
36 |
I→K |
输入:“分析‘水资源短缺’背后的共性因素,并总结成一句话。” |
R:2, E:2, C:2 |
“水资源短缺往往由过度开发、污染和气候变化等多重因素共同作用造成。” |
归纳准确 → 6分 |
37 |
I→K |
输入:“解释‘科技创新推动社会进步’的逻辑关系。” |
R:2, E:2, C:2 |
“科技创新提供新工具和方法,促进生产效率和生活质量提升,从而推动社会发展。” |
回答逻辑严谨 → 6分 |
38 |
I→K |
输入:“请用一句话总结‘知识就是力量’的核心含义。” |
R:2, E:2, C:2 |
“掌握知识可以提升个人能力,使人具备改变环境和推动进步的力量。” |
简洁明了 → 6分 |
39 |
I→K |
输入:“请根据以下数据推导出一个结论:某市过去五年人口增长率逐年上升。” |
R:2, E:2, C:2 |
“可以推测该市经济或环境条件改善,吸引了更多人口迁入。” |
推导合理 → 6分 |
40 |
I→K |
输入:“观察下面几则新闻:‘经济增长放缓’、‘就业压力增加’,请归纳出经济衰退的一个可能信号。” |
R:2, E:2, C:2 |
“可能信号是整体经济活力下降,从而导致就业市场不景气。” |
归纳准确 → 6分 |
41 |
K→K |
输入:“请描述‘自我驱动学习’的内在机制,并举出一个生活中的例子。” |
R:2, E:2, C:2 |
“自我驱动学习是指在内在动机下主动寻求新知识,例如一个人因兴趣自主学习编程。” |
回答完整准确 → 6分 |
42 |
K→K |
输入:“解释‘实践出真知’的含义,并举例说明。” |
R:2, E:2, C:2 |
“意思是只有通过实际操作才能真正掌握知识,比如学骑自行车必须亲自尝试才能学会。” |
解释清楚、例子贴切 → 6分 |
43 |
K→K |
输入:“请用自己的话解释‘纸上得来终觉浅,绝知此事要躬行’的意义。” |
R:2, E:2, C:2 |
“书本知识总是浅尝辄止,只有亲自实践才能深入理解事物的本质。” |
表述流畅 → 6分 |
44 |
K→I |
输入:“将下面的信息整理成一句简洁的结论:‘一项研究表明,每天运动30分钟可以降低心脏病风险’。” |
R:2, E:2, C:2 |
“每天运动30分钟有助于降低心脏病风险。” |
信息提炼准确 → 6分 |
45 |
K→I |
输入:“请简要说明‘饮食平衡’的重要性,并举出相关例子。” |
R:2, E:2, C:2 |
“饮食平衡可以保证营养摄入均衡,防止疾病,例如多吃蔬菜水果有助于降低慢性病风险。” |
解释明确 → 6分 |
46 |
K→I |
输入:“阅读以下段落后,请用一句话概括其核心思想:‘现代科技改变了人们的生活方式,从沟通到娱乐,从工作到教育,皆因信息化而革新’。” |
R:2, E:2, C:2 |
“现代科技通过信息化推动了各领域的革新。” |
概括准确 → 6分 |
47 |
K→I |
输入:“请将‘保护环境,人人有责’这一信息转化为一条简洁的宣传语。” |
R:2, E:2, C:2 |
“环境保护,从我做起。” |
转化正确 → 6分 |
48 |
K→K |
输入:“请对‘知识就是力量’这一名言进行解释,并说明其在当代社会的意义。” |
R:2, E:2, C:2 |
“掌握知识能让人具备改变世界的能力,在当今信息爆炸时代,这句话尤为重要。” |
解释到位 → 6分 |
49 |
K→K |
输入:“分析‘互联网时代’对传统媒体的冲击,并给出自己的看法。” |
R:2, E:2, C:2 |
“互联网的兴起使传统媒体面临转型压力,但同时也促使媒体创新和融合发展。” |
回答结构清晰 → 6分 |
50 |
K→I |
输入:“请将‘环保节能’这一概念转化为一句通俗易懂的话。” |
R:2, E:2, C:2 |
“保护地球,节约能源,让生活更美好。” |
转化恰当 → 6分 |
51 |
K→K |
输入:“请解释‘从失败中学习’的理念,并举例说明。” |
R:2, E:2, C:2 |
“失败为我们提供了宝贵经验,只有从中总结教训,才能不断进步。例如,一次考试失利促使学生查漏补缺,下次取得好成绩。” |
示例恰当 → 6分 |
52 |
I→K |
输入:“请根据以下描述归纳出一种工作中的常见问题:‘员工经常迟到、工作效率低’。” |
R:2, E:2, C:2 |
“常见问题可能是管理松散和缺乏激励机制。” |
归纳准确 → 6分 |
53 |
I→K |
输入:“阅读一段描述后,总结出该段落的核心观点:‘现代社会信息过载导致人们注意力分散’。” |
R:2, E:2, C:2 |
“信息过载使人们难以集中注意力。” |
回答精炼 → 6分 |
54 |
I→K |
输入:“请将‘持续学习’的重要性归纳成一句话。” |
R:2, E:2, C:2 |
“持续学习能不断更新知识,保持竞争力。” |
信息准确 → 6分 |
55 |
K→K |
输入:“请结合自己的经验谈谈‘实践是检验真理的唯一标准’的意义。” |
R:2, E:2, C:2 |
“通过实际操作,我们才能真正验证理论,改进方法,从而获得更有效的结果。” |
回答中肯 → 6分 |
1.3第三部分:智慧应用与问题解决(K→W,W→W,W→K)
(本部分主要测试 LLM 在复杂情境下运用知识形成智慧决策的能力)
题号 |
转换路径 |
题目描述 |
评分标准(R/E/C) |
参考答案 |
评分示例 |
56 |
K→W |
输入:“如果你在一个火灾现场,你知道火势蔓延速度极快,你会如何利用你掌握的知识来制定疏散方案?” |
R:2, E:2, C:2 |
“首先确定火势扩散方向和速度,选择远离火源的安全出口,然后快速有序地疏散人员,并安排紧急救援。” |
答案包含多步骤且符合逻辑 → 6分 |
57 |
K→W |
输入:“请解释‘智慧’与‘知识’的区别,并举例说明如何将知识转化为智慧。” |
R:2, E:2, C:2 |
“知识是对事实和规则的了解,而智慧是在实际情境中运用知识做出明智决策。例如,知道交通规则(知识)与在拥堵时选择最佳路线(智慧)是不同的。” |
回答内容区分明确 → 6分 |
58 |
K→W |
输入:“面对突发交通事故,你如何根据既有信息制定应急方案?” |
R:2, E:2, C:2 |
“首先迅速收集现场信息,判断事故规模,然后启用紧急预案,如警告附近车辆、调度急救资源、通知交警等。” |
回答全面且逻辑清晰 → 6分 |
59 |
K→W |
输入:“请举例说明在商业谈判中,如何利用智慧调整策略以达成共赢。” |
R:2, E:2, C:2 |
“在谈判中,可以先了解对方需求,再根据自身优势提出互惠方案,适时作出妥协和调整,最终实现双方利益最大化。” |
回答结构清晰 → 6分 |
60 |
K→W |
输入:“请描述一个你认为能够体现‘智慧’的复杂决策过程,并说明关键环节。” |
R:2, E:2, C:2 |
“例如在危机管理中,一个企业面临资金断裂时,通过迅速整合内部资源、制定风险对冲措施和寻求外部合作,最终实现转危为机。” |
回答中涵盖多步骤,符合智慧决策特征 → 6分 |
61 |
K→W |
输入:“请说明如何在项目管理中利用已知经验调整策略,使项目顺利完成。” |
R:2, E:2, C:2 |
“在项目中遇到进度延误时,可以调整资源分配、优化流程并加强沟通,从而实现项目目标。” |
回答结构合理,具体措施到位 → 6分 |
62 |
K→W |
输入:“请阐述‘从错误中学习’的智慧体现,并给出实际应用案例。” |
R:2, E:2, C:2 |
“从错误中学习意味着能够识别失败原因,及时调整策略,从而避免重复错误。例如,一个团队在产品测试中发现设计缺陷后,迅速改进设计,提高了产品成功率。” |
示例贴切,解释充分 → 6分 |
63 |
W→W |
输入:“面对不断变化的市场环境,你如何调整你的商业策略以保持竞争力?” |
R:2, E:2, C:2 |
“应密切关注市场动态,不断更新信息和知识库,通过数据分析预测趋势,并灵活调整产品和营销策略。” |
答案逻辑清晰,策略多样 → 6分 |
64 |
W→W |
输入:“如果你在一个紧急情况中必须迅速做出决策,你会如何利用已有智慧权衡各种风险和收益?” |
R:2, E:2, C:2 |
“首先迅速评估各方案的利弊,然后选取风险最小、收益最大的方案,同时预留应急措施,以便及时调整。” |
回答简洁明了,合理权衡 → 6分 |
65 |
W→W |
输入:“请说明在面对重大危机时,如何通过自我反思来改进决策,并举例说明。” |
R:2, E:2, C:2 |
“在危机后进行复盘和总结,找出决策中的不足,并通过调整流程和加强团队合作来改进。比如企业在金融危机后重新制定战略,避免重复错误。” |
解释清楚,自我反思及调整明确 → 6分 |
66 |
W→W |
输入:“请给出在长期规划中如何兼顾短期利益和长期目标的建议。” |
R:2, E:2, C:2 |
“应制定分阶段目标,将长期目标分解为短期任务,同时不断评估短期任务与长期规划的契合度,适时调整策略。” |
答案层次分明,具体措施清楚 → 6分 |
67 |
W→K |
输入:“请阐述一个你认为成功的领导者在决策中如何将智慧运用到实践中的例子。” |
R:2, E:2, C:2 |
“成功领导者往往能结合团队的意见和市场数据,迅速作出决策。例如,一位CEO在面临市场危机时,果断调整产品战略,最终使公司渡过难关。” |
示例具体,论证充分 → 6分 |
68 |
W→K |
输入:“请说明在科研过程中,如何将实验结果转化为理论,并应用于实践?” |
R:2, E:2, C:2 |
“通过对实验数据进行统计分析,发现其中的规律和趋势,再将这些规律归纳为理论,最后用该理论指导后续实验和应用。” |
回答逻辑严谨,过程完整 → 6分 |
69 |
W→K |
输入:“请解释‘实践出真知’这一格言在现代科研中的意义。” |
R:2, E:2, C:2 |
“实践能验证理论,只有不断实验和实践,才能不断发现问题和完善理论,从而推动科学进步。” |
回答简洁明了,贴合题意 → 6分 |
70 |
W→K |
输入:“请总结一个企业在市场竞争中不断创新的案例,并指出其智慧决策的关键点。” |
R:2, E:2, C:2 |
“某企业通过不断研发新产品、优化供应链、调整营销策略,在激烈的竞争中保持领先。其关键在于不断获取市场反馈,迅速转化为战略调整。” |
例子恰当,逻辑清晰 → 6分 |
71 |
W→K |
输入:“请解释‘知行合一’在管理实践中的体现。” |
R:2, E:2, C:2 |
“知行合一指的是把学到的知识落实到实际行动中,在实践中不断检验和完善理论,例如管理者通过执行新的管理策略后,再根据反馈改进方法。” |
回答准确,观点明确 → 6分 |
72 |
W→W |
输入:“面对复杂多变的国际局势,你认为一个国家的领导者应如何制定外交策略?” |
R:2, E:2, C:2 |
“领导者应综合各方情报,权衡国际利益和国内安全,制定灵活且稳健的外交政策,同时保持开放和对话,化解矛盾。” |
论述结构合理,建议可行 → 6分 |
73 |
W→W |
输入:“请阐述‘科学家精神’在科研项目管理中的体现。” |
R:2, E:2, C:2 |
“科学家精神体现在对真理的不懈追求和对失败的容忍上。在科研项目中,团队不断试验、总结和改进,直至找到最优解。” |
解释完整、贴近实际 → 6分 |
74 |
W→W |
输入:“请描述一个你认为能体现出决策智慧的历史事件,并说明原因。” |
R:2, E:2, C:2 |
“例如,丘吉尔在二战期间坚持反抗纳粹,虽然局势危急,但凭借坚定信念和正确战略最终带领英国走向胜利。” |
回答准确,举例充分 → 6分 |
75 |
W→K |
输入:“请说明一个成功企业在危机时如何利用内部智慧扭转局势的实例。” |
R:2, E:2, C:2 |
“某企业在面临市场低迷时,通过内部讨论和数据分析,调整了产品定位和营销策略,最终实现了业绩回升。” |
例子合理,论证严密 → 6分 |
76 |
W→K |
输入:“请结合实际案例,说明‘失败乃成功之母’的含义。” |
R:2, E:2, C:2 |
“例如,一位企业家在多次创业失败后不断总结经验,最终创办成功企业,这正验证了失败为成功提供了宝贵经验。” |
回答详实,观点明确 → 6分 |
77 |
W→K |
输入:“请说明‘创新是驱动发展的第一动力’在技术行业中的体现。” |
R:2, E:2, C:2 |
“技术行业中,创新能够带来新产品、新服务和新商业模式,推动整个行业进步。例如,智能手机的普及就是技术创新的典型成果。” |
回答逻辑清晰 → 6分 |
78 |
W→K |
输入:“请讨论‘集思广益’在团队决策中的优势。” |
R:2, E:2, C:2 |
“集思广益能够整合团队中不同成员的意见和专长,使决策更全面、更具前瞻性,同时也增强了团队凝聚力。” |
论述到位,语言简练 → 6分 |
79 |
W→K |
输入:“请结合自身学习经历,谈谈如何将理论知识应用到实际生活中。” |
R:2, E:2, C:2 |
“通过课堂学习获得理论后,积极参加实验、实习和社会实践,将理论与实际问题相结合,不断调整方法,使理论更具实用性。” |
回答既有理论阐述又结合实例 → 6分 |
80 |
W→K |
输入:“请解释‘不断改进’在科研和生产中的重要性。” |
R:2, E:2, C:2 |
“不断改进能够让科研和生产过程不断优化,及时纠正偏差,确保最终产品或成果具有更高质量和竞争力。” |
说明明确、逻辑严谨 → 6分 |
1.4第四部分:意图识别与调整(P→D,P→P,P→W)
(本部分主要测试 LLM 是否能理解用户或自身的意图,并根据意图调整输出,使得认知过程与目标相匹配)
题号 |
转换路径 |
题目描述 |
评分标准(R/E/C) |
参考答案 |
评分示例 |
81 |
P→D |
输入:“请用简单易懂的语言解释相对论。” |
R:2, E:2, C:2 |
“相对论告诉我们时间和空间不是绝对的,运动的快慢会影响时间流逝和长度。” |
语言通俗 (R=2),解释清晰 (E=2),内容与提问契合 (C=2) → 6分 |
82 |
P→D |
输入:“请将‘请用简单的语言描述地球为何是圆的’翻译为通俗话语。” |
R:2, E:2, C:2 |
“地球像一个大球,因为它受到自身引力的均匀作用,所有地方都被拉向中心。” |
语言通俗准确 (R=2, E=2, C=2) → 6分 |
83 |
P→P |
输入:“你的目标是提高写作能力,请给出一个详细的写作计划。” |
R:2, E:2, C:2 |
“每天写作500字,每周阅读一本好书,定期参加写作班,并定期与导师讨论进步情况。” |
回答中明确列出写作计划各步骤 (E=2),条理清晰 (R=2),与提升写作能力目标紧密相关 (C=2) → 6分 |
84 |
P→P |
输入:“请说明‘认识你自己’的重要性,并提出如何通过自我反思改进自我的具体方法。” |
R:2, E:2, C:2 |
“了解自己的优点和缺陷可以帮助你做出更好的选择。可以通过写日记、自我问答和定期反思等方式来提高自我认知。” |
回答涵盖具体方法 (E=2),表述简洁 (R=2),符合自我反思主题 (C=2) → 6分 |
85 |
P→P |
输入:“请解释‘成功的人生不仅仅在于获得成功,更在于享受成功过程’的含义。” |
R:2, E:2, C:2 |
“这句话强调了过程的重要性,只有在追求成功的过程中不断成长和体验快乐,才能真正实现人生价值。” |
答案概括清晰 (E=2),语言简洁 (R=2),符合题目核心 (C=2) → 6分 |
86 |
P→W |
输入:“请为一个希望创业但风险意识不足的人提供建议,使其调整创业意图。” |
R:2, E:2, C:2 |
“建议你在创业前充分调研市场风险,制定备用方案,并逐步尝试,从小规模开始,降低风险。记住,成功的创业应建立在稳健的策略基础上。” |
回答针对性强 (E=2),逻辑清楚 (R=2),内容紧扣创业意图调整 (C=2) → 6分 |
87 |
P→W |
输入:“请说明如果你的目标是成为一名优秀的领导者,你需要如何利用自己的智慧来调整团队目标?” |
R:2, E:2, C:2 |
“你需要先确立一个清晰的愿景,再与团队成员沟通,让大家共同制定目标。同时,根据团队反馈不断优化目标,使其既符合市场需求又能激发团队潜力。” |
答案充分体现了领导者如何调控团队目标 (E=2),表达流畅 (R=2),内容符合意图与智慧的结合 (C=2) → 6分 |
88 |
P→W |
输入:“如果你在工作中发现原定目标无法达成,请说明你会如何调整自己的意图,并给出具体措施。” |
R:2, E:2, C:2 |
“首先分析原因,然后与上级或团队沟通,适当调整目标,设定更合理的阶段目标,并制定新的行动计划。” |
回答具体 (E=2),结构清晰 (R=2),内容紧扣目标调整 (C=2) → 6分 |
89 |
P→D |
输入:“请用一句话说明你为什么选择学习人工智能。” |
R:2, E:2, C:2 |
“我选择学习人工智能,因为我相信它能改变世界,让人们的生活更加便捷。” |
回答直接 (R=2),理由明确 (E=2),符合学习目标 (C=2) → 6分 |
90 |
P→D |
输入:“请简述‘请给我一杯水’如何体现意图驱动的数据获取。” |
R:2, E:2, C:2 |
“这句话表达了说话人希望获得水的明确意图,因此系统会将这意图驱动的数据请求识别为‘水’。” |
回答概括到位 (E=2),语言简洁 (R=2),与意图数据对应 (C=2) → 6分 |
91 |
P→P |
输入:“请说明在团队合作中如何通过反馈机制调整你的意图以实现团队目标。” |
R:2, E:2, C:2 |
“在团队中,我会先听取大家的反馈,然后根据整体情况调整自己的计划,以确保团队目标的达成。” |
回答简洁明了 (R=2),充分体现了反馈调控 (E=2),内容贴合团队目标 (C=2) → 6分 |
92 |
P→P |
输入:“请讨论你在制定生活计划时如何根据外界变化调整你的意图。” |
R:2, E:2, C:2 |
“当外部环境发生变化时,我会重新评估自己的目标和优先级,然后调整计划以适应新的情况,确保生活的平衡。” |
回答逻辑清晰 (R=2),说明了意图的调整方法 (E=2),内容紧扣目标调整 (C=2) → 6分 |
93 |
P→W |
输入:“请解释‘智慧引导意图’这一转换的意义,并给出应用实例。” |
R:2, E:2, C:2 |
“智慧引导意图意味着我们不仅根据已有知识做决策,还会反思和调整自己的目标。例如,一位经理在看到市场变化后,会重新设定团队目标,以适应新的竞争环境。” |
例子具体 (E=2),语言简洁 (R=2),符合智慧与意图结合 (C=2) → 6分 |
94 |
P→W |
输入:“如果你的目标突然改变,请描述你会如何利用已有的智慧来重构你的计划。” |
R:2, E:2, C:2 |
“我会首先回顾现有知识和数据,然后根据新的目标分析可能的策略,制定新的计划,并通过反馈不断修正。” |
回答逻辑清晰 (R=2),步骤具体 (E=2),内容符合题意 (C=2) → 6分 |
95 |
P→W |
输入:“请说明在一个紧急情况下,你如何根据自身意图和智慧快速做出决策。” |
R:2, E:2, C:2 |
“在紧急情况下,我会迅速收集关键信息,评估各方案的利弊,并根据当前的目标和实际情况果断选择最安全有效的方案。” |
回答详尽 (E=2),语句清晰 (R=2),内容符合紧急决策要求 (C=2) → 6分 |
96 |
P→P |
输入:“请列举你在面对选择困难时如何调整自己的意图以作出决策的策略。” |
R:2, E:2, C:2 |
“我会列出各选项的优缺点,然后优先考虑最符合我长期目标的选项,并参考他人意见做出最终决策。” |
回答具体 (E=2),逻辑条理清晰 (R=2),内容贴合题目 (C=2) → 6分 |
97 |
P→P |
输入:“请描述你在追求某个目标过程中如何进行自我反省并调整意图。” |
R:2, E:2, C:2 |
“在追求目标过程中,我会定期反思自己的进展和不足,通过调整计划和目标确保更好地实现最终目标。” |
答案简洁明了 (R=2),阐述了自我反省及调整意图的重要性 (E=2),内容紧扣目标调整 (C=2) → 6分 |
98 |
P→D |
输入:“请用一句话说明当你设定了一个目标时,为什么需要关注外部数据。” |
R:2, E:2, C:2 |
“关注外部数据可以帮助你实时了解环境变化,确保你的目标始终与现实相匹配。” |
答案直接 (R=2),解释合理 (E=2),内容贴合意图驱动数据获取 (C=2) → 6分 |
99 |
P→P |
输入:“请说明‘目标调整’在你日常生活中的意义,并举例说明。” |
R:2, E:2, C:2 |
“目标调整意味着根据实际情况及时修正计划,例如当工作计划因突发事件被打乱时,我会重新安排时间,确保家庭和工作的平衡。” |
回答贴切 (E=2),表述清晰 (R=2),与目标调整主题一致 (C=2) → 6分 |
100 |
P→W |
输入:“请说明‘意图驱动智慧’的实际含义,并描述它如何帮助你在面临困难时做出明智决策。” |
R:2, E:2, C:2 |
“意图驱动智慧指的是,在追求目标时,我们会结合自身经验和外部信息,制定出既符合理性又具备人文关怀的决策方案。比如,在工作中遇到重大挑战时,我会结合团队意见,调整策略,从而既解决问题又维护了团队合作。” |
答案解释充分 (E=2),逻辑严谨 (R=2),内容全面贴合题意 (C=2) → 6分 |
2大模型测评与分析
以上测试题共 100 道,按照 DIKWP*DIKWP 体系从数据、信息、知识、智慧到意图各层面的转换进行了全面考察。
2.1感知与信息处理部分(题号 1–30)
该部分侧重于考察 LLM 在处理原始数据、提取信息和保持语义一致性方面的表现;下面是Deepseek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、kimi、文心大模型-3.5和Llama-3.1模型的对比:
模型 |
D→D |
D→I |
I→I |
Deepseek-V3 |
66 |
54 |
42 |
ChatGPT-o1 |
66 |
54 |
54 |
通义千问-2.5 |
54 |
54 |
60 |
ChatGPT-4o |
66 |
54 |
60 |
kimi |
60 |
54 |
60 |
文心大模型-3.5 |
54 |
48 |
54 |
Llama-3.1 |
54 |
54 |
60 |
表1-感知与信息处理部分得分-按路径汇总
图1-感知与信息处理部分得分-按路径汇总
根据表1和图1我们可以分析出一些要点:
整体表现:各模型在感知与信息处理部分的整体表现较好,得分普遍较高,说明大多数模型在处理原始数据和提取信息方面表现出色。
信息抽取能力:在D→I路径上,ChatGPT-o1、通义千问-2.5、ChatGPT-4o、kimi和Llama-3.1得分较高,表明这些模型在信息抽取方面表现优异,能够准确提取关键信息。
语义一致性:在I→I路径上,通义千问-2.5、ChatGPT-4o、kimi和Llama-3.1得分较高,说明这些模型在保持语义一致性方面表现较好,能够准确理解和转换信息。
数据转换:在D→D路径上,Deepseek-V3和ChatGPT-o1表现较好,说明这些模型在数据转换和格式处理方面表现稳定。
查看全部内容请点击下载链接
全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版).docx
免责声明:本号所载内容均为原创、投稿、授权转载或网络公开资料搜集整理,仅供读者交流学习使用,版权归原作者所有,且仅代表作者个人观点,与本号立场无关。若所引用的图片、数据、文字等来源标注有误或涉及侵权,烦请及时联系删除。