
在新一轮人工智能革命中,凤凰卫视意识到构建高质量的数据语料库将是AI时代承载中华文化的新载体……
11月13日,在“数聚未来·凤凰大模型数据研讨沙龙”上,凤凰卫视正式推出全新的凤凰智媒AI数据业务,并发布凤凰首批高质量数据集。在传媒、医疗、金融、教育等多领域,高质量数据集将为大型AI模型提供更丰富、更准确的信息,从而提高模型在各个行业的应用效果。
特别是在传播领域,低质量的数据集可能包含错误、不准确或不完整的信息。当这些数据用于训练大型模型时,模型可能学到并传播这些错误,导致不准确的信息在媒体中传播。这可能损害媒体的可信度,影响公众对信息的信任。
而作为媒体平台,除了准确性外,内容偏见同样牵动着传播工具的稳定发展。如果数据集不充分代表整个社会,模型可能在学习过程中产生偏见。这可能导致媒体内容在报道和呈现事件时出现偏见,加深社会分裂和不平等。
凤凰卫视执行副总裁兼运营总裁李奇表示:“数据就像是人工智能时代的石油资源,它的开发和应用都将是一个系统工程,需要产业界无数企业共同参与。”

大模型的出现提供了更强大的数据分析和洞察力,使企业和行业能够处理更庞大、更复杂的数据集,从而实现更为精准和全面的数据分析,深化对市场、客户需求和业务运作的理解。这也意味着,大模型对数据质量的高要求使得数据清洗和预处理的工程化能力变得更为关键,为确保数据质量和准确性提供了挑战和机遇。
高质量+特色,为传播套上“双保险”
凤凰卫视旗下新业务“凤凰智媒AI数据”,发布的首批高质量数据集包括“中文访谈对话数据集”和“正向价值对齐数据集”。凤凰卫视融媒体研发副总经理冯伟表示,“高质量的数据语料库将成为AI时代承载中华文化的一个新的载体。”

据了解“中文访谈对话数据集”基于凤凰卫视访谈类节目生成,规模达百万轮次,连续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以权威学术团队的研究成果为指导,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。
超百万轮次的真实对话场景形成的数据集将为模型带来内容上的多样性。同时正向和负向回答的融合为模型提供了更全面的信息,使其能够理解和学习不同情感和观点的表达方式。通过建设高质量的中文数据语料库,使数据集中包括了丰富的中华文化话题,涉及传统文化、现代社会、科技发展等多个方面。这有助于训练模型更好地理解和表达中华文化的多样性和复杂性。
香港科技大学 (广州) 协理副校长熊辉对大模型之家表示,“凤凰卫视在数据领域的尝试是非常好的,特别是在