《大数据》2024年第5期目次&摘要

来源：大数据期刊

《大数据》

第10卷第5期 2024年9月

大数据2024年第5期

01 分布式技术在大模型训练和推理中的应用

郑纬民

02 面向法律领域的大模型微调与应用

沈晨晨，岳盛斌，刘书隽，周宇轩，王思远，陈伟，萧尧，李秉轩，宋鋆，沈晓宇，
黄萱菁，魏忠钰

03 PeMeBench：中文儿科医疗问答基准测试方法

张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖

04 门控变关系图卷积网络的涉烟案件当事人预警

冯鹏程，张高豪，谢刚

05 情感语音合成综述

施昊翔, 张旭龙, 王健宗, 程宁, 肖京

06 数字说话人脸生成技术综述

张冰源, 张旭龙, 王健宗, 程宁, 肖京

07 面向抑郁症行为特征的领域词典构建

周若彤, 朱广丽, 李书羽, 段文杰, 李嘉伟

08 一种融合注意力机制的CNN-BiGRU磁盘故障预测方法研究

王艳, 刘亚东, 皮婵娟, 施君豪

09 基于数字政府建设的公文标签体系构建与应用研究

金加和, 施筱玲, 徐峰, 叶红叶, 俞巍滔

10 公共数据的产权运行机制与技术方案

郑宇

11 智慧治理中的数据质量管理困境及对策研究

秦之湄, 张会平, 王斌, 周婧超, 陈祎, 钟书丽

12‍ 大语言模型数据隐私保护的难点与探索‍

施敏, 杨海军

摘要

战略研究

分布式技术在大模型训练和推理中的应用

作者：郑纬民

摘要：近几年，人工智能被广泛应用于多个领域，大语言模型（以下简称大模型）的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环，为大模型的发展助力。在数据获取环节，针对海量小文件的存储问题，研发了文件系统SuperFS，能够同时满足低延迟和可扩展的要求。在数据预处理环节，针对从分布式文件系统读取数据开销大的问题，研发了高效大数据处理引擎“诸葛弩”。在模型训练环节，针对检查点文件读写性能差的问题，提出了分布式检查点策略，加快了检查点文件的读写速度。在模型推理环节，针对KVCache对存储系统的挑战，研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用，使大模型能够充分利用计算资源，加快训练速度，有利于人工智能领域的发展。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024056&lang=zh

专栏：数据与算力驱动的应用

面向法律领域的大模型微调与应用

作者：沈晨晨，岳盛斌，刘书隽，周宇轩，王思远，陈伟，萧尧，李秉轩，宋鋆，沈晓宇，黄萱菁，魏忠钰

摘要：近年来，大语言模型在多个自然语言处理任务上展现出了出色的能力，为智慧法律系统的发展带来巨大的帮助。现有法律领域的大模型，通过微调通用大模型能够实现利用法律知识进行简单的问题回答，即大多以法律咨询问答为主，没有考虑到法律领域的其他使用场景，如法律信息抽取、判决预测等，而真实世界中的法律服务要比对话服务复杂得多。提出中文法律智慧大模型LawLLM，该模型可以面向不同用户群体，提供多样的法律服务。同时，探究了针对法律领域裁判文书的长文本信息抽取的应用。LawLLM在Lawbench上的Zero-shot的平均表现超过了所有对比的大模型，均值比具有175×10⁹个参数的GPT-3.5-Turbo高0.19%，LawLLM在Lawbench上的Few-shot的平均表现仅次于GPT-3.5-Turbo，相比其低0.02%。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024057&lang=zh

PeMeBench：中文儿科医疗问答基准测试方法

作者：张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖

摘要：大语言模型在医疗领域显现出巨大的应用潜力，如何评估其在医疗领域中的性能成为挑战。现有医疗评测基准测试多为选择题形式，难以全面和精准地评估模型在儿科医疗场景中的性能。为此，提出首个中文儿科医疗问答基准测试方法——PeMeBench。该方法基于双视角评估维度，参考来自10个儿科疾病系统的诊疗规范类书籍，将儿科医疗问答任务细分为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个儿科医疗问答子任务，构建超1万个开放式的问答题目，引入一种融合实体召回和检测语句幻觉的多粒度自动化评估方案，旨在对大语言模型在儿科基础医疗领域中的性能进行全面、准确的评估，深入剖析其潜在局限性，为提升医疗服务的智能化水平奠定坚实的基础。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024058&lang=zh

门控变关系图卷积网络的涉烟案件当事人预警

作者：冯鹏程, 张高豪, 谢刚

摘要：为了落实“精准监管”方针，烟草公司需要提高涉烟案件命中率。过往的方法缺少了对涉烟案件高危当事人的研究，阻碍了案件命中率的提高。基于烟草公司存有的大量历史数据，挖掘出准确的预警名单是提高案件命中率的有效途径。进行高危当事人特征分析后，提出门控变关系图卷积网络，以得到准确的高危当事人预警名单。首先，门控变关系图卷积网络使用变关系图卷积网络，捕捉当事人的关系与关键特征。然后，门控层进一步提取特征。最后，把特征输入Softmax层得到分类结果，进而得到预警名单。通过对比实验，证明构建的模型效果更佳。某市专卖局应用本项目的系列成果后，其案件命中率从约0.01%提升到了约0.5%，这证明构建的预警模型能满足真实监管的需求。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024040&lang=zh

研究

情感语音合成综述

作者：施昊翔, 张旭龙, 王健宗, 程宁, 肖京

摘要：作为语音领域一个重要的研究方向，语音合成致力于将文本转化为语音。随着深度学习技术的快速发展，语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单，情感的加入往往能使语音变得更加具有表现力。基于此，情感语音合成在语音中加入不同的情感并对情感进行调控，以生成灵活且准确的情感语音。从情感语音合成中的几个关键科学问题出发，分别对近几年来基于情感迁移、情感强度控制和情绪混合的发展进行了总结分析，并介绍了情感语音合成的相关数据集和评价指标，最后对情感语音合成进行了展望。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024014&lang=zh

数字说话人脸生成技术综述

作者：张冰源, 张旭龙, 王健宗, 程宁, 肖京

摘要：在现代计算机视觉和自然语言处理的交叉领域，数字说话人脸生成技术已经成为一个越来越重要的研究主题。数字说话人脸生成技术专注于依据预定的文本或音频序列生成逼真的人脸图像。近年来，深度学习方法，如卷积神经网络、生成对抗性网络以及神经渲染场在此领域已经表现出了显著的应用价值。这些方法不仅引起了学术界的广泛关注，而且在工业界得以实际应用，用于解决图像处理和计算机视觉方面的具体问题。尽管已经取得了一定的进展，实际应用这些方法仍然面临诸多挑战。综合分析和评估深度学习方法在数字说话人脸生成方面的具体实现，以识别现存方法的优缺点，探讨尚待解决的普遍问题，并突出仍需进一步研究的开放性问题。此外，从统计学角度列出了目前可用的数据集，并对其进行评估和比较，以便研究人员能更容易地选择满足他们需求的数据集。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024059&lang=zh

面向抑郁症行为特征的领域词典构建

作者：周若彤, 朱广丽, 李书羽, 段文杰, 李嘉伟

摘要：抑郁症患者的行为表征反映其临床特征及病情状况，有利于病情诊断。当前抑郁症领域词典在构建时忽略了抑郁症文本中的行为特征与患者病况的关联性，导致词典领域信息不足。为此，提出面向抑郁症行为特征的领域词典构建方法，拓展了领域词典涵盖的情感表示。首先，采用TF-IDF算法构建情感类和行为类种子词集，通过PMI计算现有词典与情感类种子词的相似度获得情感类词集；其次，基于行为特征与患者病况的对应关系，设置行为类种子词标签，再将种子词与抑郁症文本输入WoBERT生成动态词向量，计算二者的相似度得到候选词集；然后，基于词间相似度构建语义图，并使用标签传播算法获得行为特征词集；最后，收集微博负面情感表情符号构建表情符号词集，合并情感类词集、行为特征词集与表情符号词集，得到中文抑郁症领域词典。实验结果表明，构建的词典可以提升抑郁症文本分类效果。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024009&lang=zh

一种融合注意力机制的CNN-BiGRU磁盘故障预测方法研究

作者：王艳, 刘亚东, 皮婵娟, 施君豪

摘要：磁盘作为重要的存储介质，一旦出现故障很可能会导致存储数据丢失，给个人及企业带来难以估量的损失。现有磁盘故障预测模型存在不能很好地平衡磁盘数据样本、未充分利用磁盘数据的时序特性等问题。以Backblaze云存储公司公布的真实磁盘数据为研究对象，提出了一种融合注意力机制的卷积神经网络（CNN）和双向门控循环单元（BiGRU）网络的磁盘故障预测模型。在数据预处理方面，采用负采样与焦点损失函数来平衡正负样本，利用CNN进行特征提取，并结合BiGRU网络来有效地处理时序数据。通过融合注意力机制，能够让模型快速地捕捉更多关键特征信息，将筛选出的特征与数据输入模型进行训练。通过对比其他故障预测模型，本文提出的模型在精确率等4个评价指标上均有1%~7%的性能提升，为提高磁盘存储的可靠性提供了有力的支撑。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024060&lang=zh

应用

基于数字政府建设的公文标签体系构建与应用研究

作者：金加和, 施筱玲, 徐峰, 叶红叶, 俞巍滔

摘要：公文作为政府机关办文、办事、办会的主要载体，在数字政府建设中起着信息记录、交换、传递和指令发布等作用，构建公文标签体系是促进政府机关公文高质量办理和提升政府行政效率的重要途径。针对公文标签，提出了基于数字政府建设的公文标签体系构建方法，开发设计了以业务场景驱动与用户需求导向为核心的政府公文标签体系。该体系通过公文标签的设计、生成与管理创新，旨在破解政府公文管理效率低下、内容分散、流程烦琐等难题，实现政府公文管理与运行效率的提升。同时，对公文标签在不同场景下的创新应用进行了阐述，并给出了基于政府机关的公文标签应用案例，为推进数字政府高质量发展提供重要支撑。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024061&lang=zh

论坛

公共数据的产权运行机制与技术方案

作者：郑宇

摘要：公共数据的要素化既有迫切需求和巨大价值，又具备良好基础和实施保障。为了实现公共数据的要素化，数据要素智能构建技术与公共数据产权运行机制需要协同创新和融合发展。梳理了公共数据的分类和参与主体，提出一套公共数据产权运行机制，包括公共数据产权结构性分置制度、公共数据确权授权机制和个人信息授权机制，并搭建一套数字化系统来承载该机制，以建立健全数据要素各参与方的合法权益，促进公共数据在政府各部门、各层级、各主体之间的安全、合规、有序流通。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024055&lang=zh

智慧治理中的数据质量管理困境及对策研究

作者：秦之湄, 张会平, 王斌, 周婧超, 陈祎, 钟书丽

摘要：数据质量是实施智慧治理的基础。从数据使用者的视角出发，以D市智慧治理项目为案例，基于多渠道收集的资料，剖析数据质量管理的困境及其产生的原因，并提出相应对策。研究发现，智慧治理项目中数据质量管理困境表现为管理制度机制不健全、数据质量评价指标不适配以及协同中信息传递不畅通。困境产生的原因是项目建设中质量管理要求特殊性、数据资源可用程度难以匹配使用需求以及理念惯性下质量管理共识难以支撑管理执行。突破困境的关键是，提高质量管理理念共识化程度，增强质量评价方法动态化能力以及优化数据协同策略精细化粒度。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024005&lang=zh

大语言模型数据隐私保护的难点与探索

作者：施敏, 杨海军

摘要：基于海量数据训练的大语言模型在带来通用人工智能可能性的同时，也给数据隐私保护带来了新的风险与挑战。在分析大语言模型全环节中涉及的数据隐私保护风险的基础上，对隐私保护中知情同意原则、数据收集“正当、必要”原则所面临的新伦理难点展开分析论证，并探索可能的解决框架和路径，以及实操中仍可能存在的伦理难点。

原文链接：http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024033&lang=zh

免责声明：本号所载内容均为原创、投稿、授权转载或网络公开资料搜集整理，仅供读者交流学习使用，版权归原作者所有，且仅代表作者个人观点，与本号立场无关。若所引用的图片、数据、文字等来源标注有误或涉及侵权，烦请及时联系删除。

首页 ꄲ 行业动态 ꄲ 研究报告 ꄲ 《大数据》2024年第5期目次&摘要

ꄴ前一个：无

ꄲ后一个：无

创建时间：2024-10-01 09:05

浏览量：0