翻译
智能数据分类
文件信息提取
爆款文案策划
风险评估报告
智能行程规划
模型 | AlignBench | MMLU | MATH | GPQA | LCB | NCB | IFEval |
---|---|---|---|---|---|---|---|
Claude 3.5 Sonnet | 80.7 | 88.3 | 71.1 | *56.4 | 49.8 | 53.1 | 80.6 |
Llama 3.1 405B | 60.7 | 88.6 | 73.8 | *50.1 | *39.4 | 50 | 83.9 |
Gemini 1.5Pro | 74.7 | 85.9 | 67.7 | 46.2 | 33.6 | 42.3 | 74.4 |
GPT-4o | 83.8 | 88.7 | 76.6 | *51.0 | *45.5 | 52.3 | 81.9 |
GLM-4-Plus | 83.2 | 86.8 | 74.2 | 50.7 | *45.8 | 50.4 | 79.5 |
GLM-4-Plus/GPT-4o | 99% | 98% | 97% | 99% | 101% | 96% | 97% |
GLM-4-Plus/Claude 3.5 Sonnet | 103% | 98% | 104% | 85% | 92% | 95% | 99% |
LCB (LiveCodeBench)、NCB (NaturalCodeBench)、* represents reproduced results 在发布时期的 SuperBench 大模型评测中,GLM-4-Plus 位列世界前三,打破此前国外模型垄断前三甲的局面。长文本处理方面,GLM-4-Plus 通过更精准的长短文本数据混合策略,显著增强了长文本的推理效果,在长文本理解和处理上获得显著提升,极大地优化了在企业落地场景传入过多 prompt 时导致的效果下降问题。
GLM-4-Air-250414
GLM-4-AirX
GLM-4-FlashX-250414
V0 | V1 | V2 | V3 |
---|---|---|---|
50 | 100 | 300 | 500 |