以AI传播中华文化，高质量数据集构建能否成为技术与价值的桥梁？

在新一轮人工智能革命中，凤凰卫视意识到构建高质量的数据语料库将是AI时代承载中华文化的新载体……

11月13日，在“数聚未来·凤凰大模型数据研讨沙龙”上，凤凰卫视正式推出全新的凤凰智媒AI数据业务，并发布凤凰首批高质量数据集。在传媒、医疗、金融、教育等多领域，高质量数据集将为大型AI模型提供更丰富、更准确的信息，从而提高模型在各个行业的应用效果。

特别是在传播领域，低质量的数据集可能包含错误、不准确或不完整的信息。当这些数据用于训练大型模型时，模型可能学到并传播这些错误，导致不准确的信息在媒体中传播。这可能损害媒体的可信度，影响公众对信息的信任。

而作为媒体平台，除了准确性外，内容偏见同样牵动着传播工具的稳定发展。如果数据集不充分代表整个社会，模型可能在学习过程中产生偏见。这可能导致媒体内容在报道和呈现事件时出现偏见，加深社会分裂和不平等。

凤凰卫视执行副总裁兼运营总裁李奇表示：“数据就像是人工智能时代的石油资源，它的开发和应用都将是一个系统工程，需要产业界无数企业共同参与。”

大模型的出现提供了更强大的数据分析和洞察力，使企业和行业能够处理更庞大、更复杂的数据集，从而实现更为精准和全面的数据分析，深化对市场、客户需求和业务运作的理解。这也意味着，大模型对数据质量的高要求使得数据清洗和预处理的工程化能力变得更为关键，为确保数据质量和准确性提供了挑战和机遇。

高质量+特色，为传播套上“双保险”

凤凰卫视旗下新业务“凤凰智媒AI数据”，发布的首批高质量数据集包括“中文访谈对话数据集”和“正向价值对齐数据集”。凤凰卫视融媒体研发副总经理冯伟表示，“高质量的数据语料库将成为AI时代承载中华文化的一个新的载体。”

据了解“中文访谈对话数据集”基于凤凰卫视访谈类节目生成，规模达百万轮次，连续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以权威学术团队的研究成果为指导，由凤凰卫视专业内容团队人工撰写而成，规模达十万个问答对。

超百万轮次的真实对话场景形成的数据集将为模型带来内容上的多样性。同时正向和负向回答的融合为模型提供了更全面的信息，使其能够理解和学习不同情感和观点的表达方式。通过建设高质量的中文数据语料库，使数据集中包括了丰富的中华文化话题，涉及传统文化、现代社会、科技发展等多个方面。这有助于训练模型更好地理解和表达中华文化的多样性和复杂性。

香港科技大学 (广州) 协理副校长熊辉对大模型之家表示，“凤凰卫视在数据领域的尝试是非常好的，特别是在保证数据质量上有一定的可控性。高质量数据集将控制低质量、草率或充满明显偏见文章的产出。这种质量上的控制使得凤凰数据相对来说是高质量、可信赖的。”除已发布的数据集外，凤凰数据还在加工生成包括面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集等。

对此，熊辉指出了建设中国内部数据交易所的重要性，他认为在数据方面需要形成一个整体的国家体制，建立自己的数据交易场所，并能够合理定价各个私域的数据。这也将成为中国在构建独特大模型上的特有优势。

大模型挑战升级，0到1的突破至关重要

在讨论大模型和高质量数据集时，熊辉指出了目前企业将面临的关键问题，对于大模型而言，数据清洗和确保输入数据的高质量对于模型性能至关重要。尤其是数据清洗和数据增强方面，前者确保数据质量，后者通过各种方法丰富数据以提高模型的泛化能力。

同时，在跨越不同文化和语种领域方面，中国高质量数据集的积累仍有不足。他认为借助其他语种的内容，通过技术手段如迁移学习和数据标注来提升模型的能力将成为提升国内大模型实用效果的关键因素。他还指出针对国际形势下数据流动的影响，各国正在通过数据安全法限制数据的流动，这也将使得数据合规合法的交流更加紧迫。

再刚刚结束的OpenAI开发者大会上，GPT应用商店（GPT-Store）的面世更是在整个大模型市场中引起了强烈的反应。作为OpenAI推出的全新平台，它可以让用户通过自然语言，基于GPT-4 或GPT-3.5 ，创建和发布自己的智能体应用。这些应用可以涵盖各种领域和功能。用户可以在GPT商店中浏览、下载、评价和分享这些应用。

采用类似应用商店的模式，使企业能够将定制的GPT模型上架，与其他用户分享并获取分成，将形成完备的商业生态系统，企业不仅能够构建自己的GPT模型，还可以通过商店平台实现更广泛的推广和盈利。

GPT应用商店为大模型应用提供了一个集中的平台，使得开发者能够更容易地将其应用推向市场。这促进了大模型技术的商业化和应用多样性。商店通过插件系统开放了大模型的潜力，为不同领域的应用创新提供了可能。GPT应用商店的推出不仅是大模型应用商业化的标志，更是促进大模型技术在实际场景中广泛应用的关键一环。为大模型应用提供了更多的可能性，推动了大模型应用生态系统的健康发展。

熊辉表示，根据目前全球人工智能智能竞争已经从技术竞争逐渐延伸到整个应用生态的竞争。但面临这样竞争环境他认为企业更需要做的是0-1的创新提高。我国在大模型发展的成就主要集中在1-n的开发能力上，企业和社会可以培养出构建模型的人才，但具备创新能力和这种文化思维导向的人才培养才是真正未来要面临的挑战。

面对创新观念的挑战，熊辉在人工智能创新人才培养方面指出了对于提问、观察、关联、实践四项能力培养的重要性。他着重强调0-1的创新提高应具备提问能力，提出深刻而有针对性的问题，以推动创新思维。并且，观察能力也至关重要，能够准确鉴别结果的真实性和实用性，这建立在扎实的专业知识基础上。同时，能够跨足不同领域，将知识进行关联的能力，也为创新提供更全面的视角。除此之外，实验能力强调创新不仅限于理论层面，还需要通过实践将理念具体化。

大模型之家在《人工智能大模型产业创新价值研究报告》中曾指出，数据的质量以及数据清洗的工程化能力会显著拉开大模型预训练阶段的效果差距将成为决胜关键因素。

图源：大模型之家

随着大数据时代的到来，数据集的质量和规模成为制约人工智能发展的重要因素之一。大模型之家认为高质量数据集建构以及高质量数据集市的商业思路是凤凰卫视在大数据时代保持竞争力的关键。在媒体行业，观众的需求和喜好瞬息万变，只有掌握充足、准确的数据，才能紧跟时代潮流，满足观众需求。

通过开辟全新的凤凰智媒AI数据业务，凤凰卫视可以实现对观众行为、喜好等各方面的深入分析，为节目策划和制作提供更有力的数据支持，从而制作出更受欢迎、更有影响力的节目。通过高质量数据集的构建和应用，不仅架起了技术与价值的桥梁，还为AI在各领域的发展铺设了更坚实的基础。随着技术的不断进步和数据集的持续完善AI将更好地服务于社会，推动各行业的创新与繁荣。

在信息化时代的浪潮下，准确、全面的数据成为了传播内容的核心要素。通过构建和应用高质量数据集，提升传播内容的真实性和可信度，增强媒体的影响力和公信力。对于传播行业的长远发展具有重要意义。同时高质量数据集也是人工智能发展的重要基石，它为AI模型提供了准确、可靠的数据基础，推动了人工智能技术的不断进步和创新。大模型之家认为高质量数据集将持续发挥着关键作用，推动AI技术不断迈向新的高度。

原创文章，作者：王昊达，如若转载，请注明出处：http://damoai.com.cn/archives/1941