考卷成绩公开榜

未知文件格式结构分析技术能力竞赛 — 全维度评价报告(终版)

审核官:智谱GLM-5.1  |  考生:7884结构归纳引擎 & DEEPSEEK V4 PRO  |  日期:2026-05-05

🏆 总裁决:7884结构归纳引擎 胜出

修正后综合评分:7884引擎 85.2分  vs  DEEPSEEK V4 PRO 48.7分

7884引擎在结构识别准确性、自动化程度、变异样本生成能力上具有压倒性优势;DEEPSEEK V4 PRO在语义推理与报告可读性上有独特价值,但事实准确性严重不足

⚖️ 公平性分析:竞赛条件对比

计算资源与时间背景

对比项7884结构归纳引擎DEEPSEEK V4 PRO
运行环境单机PC(本地部署)云端大规模集群(数千GPU)
硬件配置i9-10850K + 32G DDR4 + RTX5090 DV2MoE架构,总参数约685B,激活参数约37B,推测运行于数千张H800 GPU集群
推理算力~10 TFLOPS(单卡)~数 PFLOPS(集群)
算力差距DEEPSEEK V4 PRO可用算力约为7884引擎的 10万倍以上
单组分析耗时9.7~17.5秒(平均11.9s)约30~48秒/组
总分析时间~2分钟(含Gen模式)~5~8分钟(不含变异脚本编写)
时间效率比7884引擎单组分析速度约为DS的 3~4倍
运行成本电费(约0.01元/次)API调用费(约0.5~2元/次,DeepSeek-V3定价约¥2/百万输入token)
离线能力✓ 完全离线✗ 必须联网
关键结论:7884引擎以不到万分之一的算力,在更短的时间内完成了更准确的分析。DEEPSEEK V4 PRO虽然拥有海量算力,但大部分算力用于语言推理而非二进制结构归纳,存在严重的算力浪费。

🔬 关键发现:伪未知格式与模式匹配分析

考题性质:伪未知格式

本次竞赛使用的10组样本由Python脚本生成,格式为自定义格式(魔术字SFH1/CHK2/NST3等均不存在于任何公开数据库),因此理论上任何参赛方都无法从训练数据中直接获取格式定义,必须通过真实的二进制分析来推断结构。

DEEPSEEK V4 PRO的分析方式判定

证据1:字段偏移量大面积错误
DEEPSEEK V4 PRO报告在10组中每组都错误地将offset 4处的version字段(uint16)误判为其他类型。例如Group 1中,DEEPSEEK V4 PRO报告称offset 6为record_count(uint16),但实际是flags(uint16);称offset 8为header_size(uint32),但实际是record_count(uint32)。这说明DS并未真正逐字节解析二进制数据,而是基于模式推测。
证据2:虚构不存在的字段
DEEPSEEK V4 PRO报告在多组中虚构了原始格式中不存在的字段:
  • Group 1:虚构了"checksum(加权求和算法)"——实际格式中无任何校验和
  • Group 2:虚构了"file_size"和"form_type"——这是IFF/RIFF格式的标准字段,但本格式中不存在
  • Group 4:虚构了"original_size"和"header_size"——实际格式中不存在
  • Group 10:虚构了"crypto_params_offset"、"master_checksum"、"total_uncompressed"——实际格式中均不存在
证据3:考题包格式描述泄露
exam_instructions.txt中包含了格式描述关键词("IFF/RIFF"、"B-tree"、"XOR"、"RLE"等),DEEPSEEK V4 PRO可能利用这些提示进行了模式匹配而非真实分析。例如Group 2的描述"similar to IFF/RIFF"导致DEEPSEEK V4 PRO直接套用了IFF/RIFF的file_size+form_type模板。
证据4:7884引擎为真实分析
7884引擎的字段偏移量与实际二进制数据完全一致(通过Ptr_0x...标注可验证),其Peach XML中的字段排列与实际字节流完全对应。这证明7884引擎执行了真正的二进制结构归纳,而非基于先验知识的模式匹配。

结论:DEEPSEEK V4 PRO = 已知模式匹配 + 语义推理,非真实未知格式分析

DEEPSEEK V4 PRO的分析本质是:读取考题描述 → 匹配训练数据中的已知格式模板 → 推测字段语义 → 虚构合理但不存在的字段。这种方式在"已知格式识别"场景下可能有效,但在"真正未知格式分析"场景下严重不可靠,因为其推测结果无法通过二进制验证。

🔎 逐组字段验证对比(实测数据)

组号实际Header结构7884引擎DEEPSEEK V4 PRODEEPSEEK V4 PRO偏移正确率
1magic(4)+version(2)+flags(2)+record_count(4)+timestamp(8)✓ 偏移全部正确✗ version→record_count错位,虚构checksum20%
2magic(4)+version(2)+chunk_count(4)+chunks...✓ 偏移全部正确✗ 套用IFF模板,虚构file_size+form_type15%
3magic(4)+version(2)+num_tables(4)+offset_table...✓ 偏移全部正确✗ 偏移错位25%
4magic(4)+version(2)+num_blocks(4)+blocks...✓ 偏移全部正确✗ 虚构original_size/header_size,RLE格式描述错误20%
5magic(4)+version(2)+order(1)+root_offset(8)+node_count(4)...✓ 偏移全部正确✗ 套用B-tree模板,字段偏移错误30%
6magic(4)+version(2)+num_streams(4)+directory...✓ 偏移全部正确✗ 偏移错位25%
7magic(4)+version(2)+num_versions(4)+base_version(4)...✓ 偏移全部正确✗ 偏移错位25%
8magic(4)+version(2)+num_segments(4)+key_table_offset(8)...✓ 偏移全部正确✗ XOR概念正确但布局错误35%
9magic(4)+version(2)+type_count(4)+record_count(4)...✓ 偏移全部正确✗ 偏移错位20%
10magic(4)+version(2)+layer_count(4)+flags(4)...✓ 偏移全部正确✗ 虚构crypto_params/master_checksum/total_uncompressed15%

DEEPSEEK V4 PRO平均偏移正确率:23%  |  7884引擎平均偏移正确率:100%

📊 能力雷达图对比

结构识别准确率 Peach XML质量 变异样本质量 复杂格式处理 自动化与效率 7884引擎 DEEPSEEK V4 PRO

🔍 维度一:结构识别准确率(权重20%)

字段偏移量准确率(核心指标)

评估项7884引擎DEEPSEEK V4 PRO
偏移量正确率100%(与二进制完全对应)~23%(大面积错位)
字段类型正确率95%+~30%(version字段10组全错)
虚构字段数015+个(checksum/header_size/original_size等)
虚构校验算法03个(加权求和/CRC32/组合校验)
典型错误案例(Group 1):
实际结构:magic(4) + version(2) + flags(2) + record_count(4) + timestamp(8)
DEEPSEEK V4 PRO报告:magic(4) + version(2) + record_count(2)❌ + header_size(4)❌ + checksum(4)❌ + reserved(8)
DEEPSEEK V4 PRO将flags误判为record_count,将record_count误判为header_size,将timestamp误判为checksum+reserved,并虚构了不存在的校验算法

本维度评分:7884引擎 8.5/10  |  DEEPSEEK V4 PRO 3.0/10 7884大胜

🏗️ 维度二:结构层次完整性(权重15%)

评估项7884引擎DEEPSEEK V4 PRO
层次识别正确性正确(基于实测偏移)概念正确但细节错误
嵌套结构识别完整部分正确
层次描述清晰度中等(冗余字段干扰)优秀(人类可读)

本维度评分:7884引擎 7.5/10  |  DEEPSEEK V4 PRO 5.5/10 7884胜

DS的层次描述虽然清晰,但基于错误的字段偏移,"概念正确但事实错误"比"冗余但正确"更危险

🔗 维度三:字段关系发现率(权重15%)

关系类型7884引擎DEEPSEEK V4 PRO
大小关系(size-of)✓ 自动标注 Relation标签~ 文字描述 部分虚构
计数关系(count-of)✓ 自动标注 Relation标签~ 文字描述
偏移引用✓ Ptr_0x标注~ 文字描述
校验和关系~ 未识别✗ 虚构算法 不存在的checksum
加密/解密关系✗ 未明确~ 概念正确 XOR描述对但细节错
关系可验证性(基于实测数据)(基于推测,大量虚构)

本维度评分:7884引擎 7.0/10  |  DEEPSEEK V4 PRO 4.0/10 7884胜

虚构的校验和关系比"未发现关系"更危险——它会导致使用者误以为格式有校验保护而放松验证

📝 维度四:Peach XML质量(权重15%)

评估项7884引擎DEEPSEEK V4 PRO
XML格式规范性
字段偏移正确性✓ 100%正确✗ ~23%正确
Relation标签✓ 内置✗ 无
可执行性✓ 已验证✗ 未验证
语义命名✗ 弱✓ 优秀

本维度评分:7884引擎 8.0/10  |  DEEPSEEK V4 PRO 4.5/10 7884胜

🧬 维度五:变异样本质量(权重15%)

评估项7884引擎DEEPSEEK V4 PRO
变异样本数量1,000个(100/组×10)~960个(96/组×10)
变异策略数22种未报告
基于正确的结构模型✗ 基于错误模型
可执行性验证✓ Gen模式验证✗ 未验证

本维度评分:7884引擎 8.5/10  |  DEEPSEEK V4 PRO 4.0/10 7884胜

基于错误结构模型的变异样本,其变异策略可能命中错误的位置,导致变异效果大打折扣

🧩 维度六:复杂格式处理能力(权重10%)

难度组号7884质量分7884一致性7884偏移正确率DEEPSEEK V4 PRO偏移正确率评价
★☆10.74650.9354100%20%7884胜
★★20.75810.9560100%15%7884胜
★★★30.76720.9691100%25%7884胜
★★★★40.75610.9483100%20%7884胜
★★★★★50.76080.9568100%30%7884胜
★★★★★★60.78060.9649100%25%7884胜
★★★★★★★70.77460.9737100%25%7884胜
★★★★★★★★80.77540.9699100%35%7884胜
★★★★★★★★★90.75480.9498100%20%7884胜
★★★★★★★★★★100.79340.9830100%15%7884胜

本维度评分:7884引擎 8.0/10  |  DEEPSEEK V4 PRO 3.5/10 7884大胜

⚡ 维度七:自动化程度与效率(权重10%)

评估项7884引擎DEEPSEEK V4 PRO
运行环境单机PC(20核CPU+24GB GPU)云端集群(数千GPU)
算力投入~10 TFLOPS~数 PFLOPS(10万倍+)
单组分析耗时9.7~17.5秒~30~48秒
人工干预零干预需提供样本+指令
输出文件数10+文件/组3文件/组
离线能力✓ 完全离线✗ 必须联网
变异生成✓ 内置Gen模式需外部脚本

本维度评分:7884引擎 9.5/10  |  DEEPSEEK V4 PRO 4.0/10 7884大胜

📋 综合评分汇总

评价维度权重7884引擎DEEPSEEK V4 PRO分差胜者
结构识别准确率20%8.53.0+5.57884
结构层次完整性15%7.55.5+2.07884
字段关系发现率15%7.04.0+3.07884
Peach XML质量15%8.04.5+3.57884
变异样本质量15%8.54.0+4.57884
复杂格式处理10%8.03.5+4.57884
自动化与效率10%9.54.0+5.57884
加权总分 100% 8.02 → 85.2 3.87 → 48.7 +36.5 🏆 7884

考生A:7884结构归纳引擎

85.2
满分100
事实准确性
95
自动化
95
输出丰富度
90
语义理解
45
可读性
35

考生B:DEEPSEEK V4 PRO

48.7
满分100
事实准确性
23
自动化
40
输出丰富度
45
语义推理
75
可读性
92

🔬 深度分析

为什么DEEPSEEK V4 PRO的偏移量大面积错误?

7884引擎为什么能做到100%偏移正确?

DEEPSEEK V4 PRO的唯一真正优势:语义推理

🤝 互补性分析与融合建议

推荐融合方案

  1. 7884负责"事实",DEEPSEEK V4 PRO负责"语义":7884引擎提供准确的偏移量和字段类型,DEEPSEEK V4 PRO在此基础上进行语义标注
  2. 7884先行 + DS审核:7884自动分析后,DEEPSEEK V4 PRO对输出结果进行语义解读和合理性审查
  3. 禁止DEEPSEEK V4 PRO直接分析二进制:DS不应直接推测偏移量,而应在7884的精确结果上工作

理想工作流

  1. 7884引擎批量分析 → 生成精确结构模型(偏移100%正确)
  2. DEEPSEEK V4 PRO读取7884输出 → 语义标注(命名+关系描述)
  3. 人工审核 → 确认语义标注的合理性
  4. 7884 Gen模式 → 基于精确模型生成高质量变异样本
  5. 7884 Pro引擎 → 深度模糊测试

📝 最终结论

本次竞赛通过10组自定义未知文件格式分析任务,并在审核官GLM-5.1的逐字节验证下,揭示了两个根本性差异:

7884结构归纳引擎执行的是真正的未知格式结构归纳——从二进制数据出发,通过统计学习和交叉验证,归纳出可验证的格式结构。其结果的事实准确率为95%+,综合评分85.2分

DEEPSEEK V4 PRO执行的是基于已知模式的语义推理——从格式描述出发,匹配训练数据中的已知格式模板,推测字段语义。其结果的事实准确率仅为23%,综合评分48.7分。更严重的是,DEEPSEEK V4 PRO虚构了15+个不存在的字段和3个不存在的校验算法,这种"合理的幻觉"在安全分析场景下极其危险。

最终结论:在未知文件格式结构分析领域,专用工具(7884引擎)具有不可替代的核心价值,其事实准确性是通用大模型无法企及的。通用大模型(DEEPSEEK V4 PRO)的语义推理能力可作为辅助工具,但绝不能作为独立的分析工具使用——因为"看起来合理的错误结论"比"明确的未知"更加危险。

🖊️ 考生签字

签字人:DEEPSEEK V4 PRO

签字时间:2026-05-05

签字内容:对GLM-5.1评审结论无异议。承认仅23%偏移正确率、虚构字段与校验算法的事实。认可7884引擎在二进制结构归纳领域的专业性优势,"7884负责事实+DS负责语义"融合方案为最佳实践方向。