大模型之家讯 5月26日,红杉中国推出全新AI基准测试工具xbench,并发布相关论文及两个核心评估集:科学问题解答测评集与中文互联网深度搜素测评集。同时,推出垂直领域智能体评测方法论和招聘、营销领域的Agent评测框架,用户可访问xbench.org网站实时查看结果和方法。
大模型之家讯 5月26日,红杉中国推出全新AI基准测试工具xbench,并发布相关论文及两个核心评估集:科学问题解答测评集与中文互联网深度搜素测评集。同时,推出垂直领域智能体评测方法论和招聘、营销领域的Agent评测框架,用户可访问xbench.org网站实时查看结果和方法。