规模达百万轮次 凤凰卫视发布首批高质量中文AI数据集

凤凰卫视2023-11-14 15:12

11 月 13 日,“数聚未来 —— 凤凰大模型数据研讨沙龙” 成功在京举行,凤凰卫视融媒体研发副总监经理冯伟正式对外发布凤凰数据首批高质量数据集——“中文访谈对话数据集” 和 “正向价值对齐数据集”。他表示,凤凰数据的核心目标是推动 AI 数据领域华语数据的丰富与共享,同时为中华文化的传承与传播提供AI时代的探索思路和解决方案,让 AI与中华文化认知对齐更简单。

图片5.png

其中,“中文访谈对话数据集”基于凤凰卫视访谈类节目生成,规模达百万轮次,连续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以权威学术团队的研究成果为指导,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。

除上述两个数据集外,凤凰数据还有多个数据集正在加工生成中,包括面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集等。同时,凤凰数据也在与数据伙伴共同构建具有高价值和稀缺性的高质量数据集,包括华语图文对数据集、华语书籍数据集和网络流行语数据集等。

图片6.png

除了高质量数据集产品外,凤凰数据还将推出以数据为中心的一站式 AI 训练平台,计划于近期开放内测。平台将与高质量数据集市实现互联互通,确保数据在平台内的安全使用。平台也将提供一系列以数据为中心的服务,包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。

2024 年,凤凰数据计划分三批发布更多高质量数据集,并正式上线 AI 训练平台。同时,凤凰数据还将举行“Link+科技峰会”和“AI数据挑战赛”等系列活动,面向高校及科研院所,凤凰卫视还将发布“凤凰智媒 AI 筑巢计划”,提供部分数据集的免费授权,以助力学术研究和创新。凤凰 AI 数据官网(https://www.feng-data.com)于发布会当天正式上线,为行业客户提供数据集试用下载服务。