在人工智能领域,大模型的评测是衡量其性能和可靠性的关键环节。以下是对几家在引领大模型评测方面表现突出的企业的揭秘:
知道创宇:构建大模型安全评测服务体系
背景:知道创宇联合创始人杨冀龙在AI低空经济与数字化生态安全技术研讨会上强调了构建大模型全生命周期安全防护体系的重要性。
评测服务:知道创宇凭借在内容审核领域的经验和技术沉淀,构建了完备的大模型安全评测服务体系。该体系包括语料安全、算法安全、应用安全和过滤机制等方面。
特点:
- 基于核心价值观模型进行评测,实现2分钟极速配置。
- 实时查看评测结果,生成评测分析报告。
- 自动挑选数千个问题进行问答,确保评测结果的准确性。
道通科技:AI行业大模型商业化应用龙头企业
背景:道通科技是一家专注于汽车智能诊断领域的科技公司,近年来积极布局AI行业大模型商业化应用。
评测成果:
- 推出数智能源行业大模型、多模态识别大模型等五个人工智能大模型。
- 通过AI技术赋能业务,实现数字维修和数字能源双赛道的高质量增长。
特点:
- 深度赋能垂直场景,保持全球科技竞争中的领先地位。
- AI赋能业务效果显著,软件升级服务收入大幅增加。
微医控股:医疗AI国际龙头
背景:微医控股的微医医疗大模型在权威评测平台MedBench和CMB中多次登顶,成为医疗AI领域的佼佼者。
评测成果:
- 在MedBench自测榜单中,微医医疗大模型以总分94.7分位列第一。
- 在CMB测评平台多次登顶,成为双榜冠军。
特点:
- AI赋能医疗场景,实现诊前、诊中、诊后的全生命周期健康管理应用闭环。
- AI医生、AI药师、AI健管、AI智控等四大智能体已实现大规模应用。
蚂蚁集团:蚂蚁医疗大模型
背景:蚂蚁集团研发的蚂蚁医疗大模型在MedBench测评中夺得双料冠军。
评测成果:
- 在MedBench评测榜单中,蚂蚁医疗大模型在医学知识问答、医学语言生成、复杂医学推理等单项中位居第一。
- 在医学语言理解和医疗安全和伦理等纬度也有突出表现。
特点:
- 基于强化学习的新一代医疗推理模型,具备医学思维推理能力。
- 集合蚂蚁集团在隐私安全风控方面的技术优势,保障数据隐私与算力效率。
总结
这些企业在引领大模型评测方面各有特色,通过不断的技术创新和应用落地,为推动人工智能大模型的发展做出了重要贡献。