2024年9001cc金沙以诚为本
信息技术研究生论坛(四)
场次一、
时间:2024年4月1日(星期一)10:00-11:30
地点:9001cc金沙以诚为本604教室
报告题目一:基于情境感知的人机混合智能过滤推荐模型
报告人:王鹏哲
报告简介:农业场景下的知识服务具有周期性长、活动时间长的特点。传统推荐模型无法有效挖掘农业场景下的基于农时的隐藏信息。针对上述问题,提出一种融合时间感知和增强过滤的农业知识个性化推荐模型(Time-aware and Filter-enhanced Sequential Recommendation Model for Agriculture Knowledge, TiFSA)。首先,基于时间感知的位置嵌入方法,将农户交互的时间信息与位置嵌入相结合,帮助学习农业情境下基于农时的项目相关性。其次,在时间感知位置嵌入的基础上,引入滤波器过滤算法,自适应地衰减农户情境数据中的噪声。最后,引入时间信息的多头自注意力网络,实现对时间、项目和特征的统一建模,对农户随时间变化的偏好特征进行情境表示,从而为用户提供可靠的推荐结果。
报告题目二:基于计算机视觉的甘蓝移栽状态检测方法
报告人:吴小燕
报告简介:目前缺乏用计算机对甘蓝移栽状态进行监测的方法。为了实现甘蓝大田移栽情况的实时监测和统计,提高甘蓝移栽后的成活率以及制定后续工作方案,减少人力和物力的浪费,研究一种自然环境下高效识别甘蓝移栽状态的算法。采集移栽后的甘蓝图像,利用数据增强方式对数据进行处理,输入 YOLOv8s(You Only Look Once Version 8s) 算法中进行识别,通过结合可变形卷积,提高算法特征提取和目标定位能力,捕获更多有用的目标信息,提高对目标的识别效果;通过嵌入多尺度注意力机制,降低背景因素干扰,增加算法对目标区域的关注,提高模型对不同尺寸的甘蓝的检测能力,降低漏检率;通过引入Focal-EIoU Loss (Focal Extended Intersection over Union Loss),优化算法定位精度,提高算法的收敛速度和定位精度。
场次二、
时间:2024年4月1日(星期一)9:00-12:00
地点:9001cc金沙以诚为本214教室
报告题目一:基于Swin Transformer的腹部多器官医学图像分割
报告人:傅励瑶
报告简介:基于Swin Transformer的腹部多器官医学图像分割的研究旨在解决传统图像分割方法在处理多器官医学图像时的挑战。传统方法往往难以准确捕捉器官之间的复杂边界以及区分相似结构,导致分割结果不够精确。基于Swin Transformer模型提出的图像分割方法,充分利用Swin Transformer在跨尺度特征提取和全局上下文感知方面的优势,实现了对腹部多器官图像的高效分割。通过引入滑动窗口和智能掩码机制,有效提高了分割的准确性和鲁棒性。这一方法不仅在分割准确度和速度上具有显著优势,还为医学图像分析领域提供了一种可靠的解决方案,有望在临床诊断和医学研究中发挥重要作用。
报告题目二:基于扩撒模型的联邦学习
报告人:赵状
报告简介:联邦学习是一种分布式机器学习范式,它的主要特点是允许多个设备或计算节点在不共享原始数据的情况下进行模型训练。然而,非独立同分布(non-IID)数据可能会导致联邦学习的学习性能下降。为了解决这个问题,已经提出了数据增强方案,但它们通常需要共享客户端的原始数据,这带来了隐私风险。为了应对这些挑战,我们提出了FedDDA,这是一种基于数据增强的联邦学习架构,它使用扩散模型生成符合全局类别分布的数据,并缓解非IID数据问题。在FedDDA中,扩散模型通过联邦学习进行训练,然后用于数据增强,从而在不披露客户端原始数据的情况下减轻非IID数据的程度。我们通过大量的实验表明,FedDDA的性能显著优于FedAvg,在Cifar10数据集上最高提高了43.04%,在Fashion-MNIST数据集上最高提升了20.05%。此外,我们还发现,符合全局类别分布的相对较低质量的生成样本仍然可以显著提高联邦学习的性能。
报告题目三:基于广义稀疏矩阵乘法的深度学习优化方法
报告人:计伟
报告简介:广义稀疏矩阵乘法(SpGEMM)是各种工程和科学应用中普遍存在的任务。广义稀疏矩阵乘法(SpGEMM)也是许多算法的关键计算核心,如压缩深度神经网络、三角形计数、马尔可夫聚类、搜索算法和匹配算法。它也普遍存在于科学和工程应用中,如语法解析、化学分子动力学、颜色交叉搜索、线性求解器和许多其他应用。然而,在传统的通用计算平台(如CPU和GPU)上,由于低密度矩阵造成了不规则的内存访问模式和较差的局部性,相关架构性能往往受到很大的限制。对于处理稀疏矩阵相关性能问题亟待解决。引入SpArch,这是一种特定于领域的加速器,用于联合优化输入和输出数据重用。通过外积实现输入重用,通过片上部分矩阵合并实现输出重用。为了实现这一点,论文中设计了一个高度并行的合并,将乘法和合并这两个计算阶段流水线化。乘法阶段生成部分矩阵,合并阶段将部分矩阵合并为最终结果。然而我们发现,对于大型矩阵,部分矩阵的数量超过了合并的并行性。一次只合并部分矩阵的一部分,进行多轮合并,会增加部分矩阵合并结果的内存访问量,这抵消了流水线乘积和合并的性能增益,使DRAM访问变得更大。基于此我们提出将矩阵分片使用SpArch,将最终的计算结果进行合并。
场次三、
时间:2024年4月1日(星期一)14:00-18:30
地点:9001cc金沙以诚为本604教室
报告题目一:基于监督学习的单目深度估计方法
报告人:赖鹏飞
报告简介:单目深度估计技术致力于从单张图像中恢复出场景的深度信息,对于机器人导航、三维重建和增强现实等应用至关重要。本报告将深入探讨基于监督学习的单目深度估计方法,特别是卷积神经网络(CNN)在特征提取、深度预测以及数据增强等方面的应用,并分析当前技术的局限性与未来发展方向。监督学习,尤其是深度学习技术,在单目深度估计领域取得了显著的成果。希望通过深入分析和研究,探索新的网络结构、损失函数和训练策略,以进一步提升深度估计的精度和效率。
报告题目二:基于自监督学习的单目深度估计方法
报告人:赖鹏飞
报告简介:单目深度估计技术在资源受限的环境下从单张图像中推断深度信息,对于机器人导航、虚拟现实和增强现实等领域具有重要意义。自监督学习作为一种无需昂贵标注数据的学习方法,为单目深度估计提供了新的解决方案。尽管自监督学习减少了对标注数据的依赖,但训练数据的多样性仍然对模型性能有重要影响。通过合成数据生成、领域随机化等技术,可以提高模型对不同场景的适应性。本报告将探讨自监督学习在单目深度估计中的应用,分析其工作原理、优势、挑战以及最新研究进展。
报告题目三:基于图卷积与TransFormer的三维人体姿态估计
报告人:梁家侥
报告简介:合理利用2D关节之间的关系在2D-to-3D姿态估计中起着至关重要的作用,但这仍处于半发展阶段。为了缓解这个问题,论文作者提出了GraFormer,这是一种结合图卷积的用于三维姿态估计的新型变换器结构。所提出的GraFormer包括两个重复堆叠的核心模块,GraAttention和ChebGConv块。GraAttention使所有2D关节能够在全局感受野中进行交互,而不会削弱关节的图形结构信息,这为后续模块引入了重要功能。与仅建模关节表面关系的普通图卷积不同,ChebGConv块使2D关节能够在高阶函数中交互,从而形成其隐式关系。
报告题目四:路径规划技术在现代交通系统中的应用与发展
报告人:梁永豪
报告简介:本次报告将探讨路径规划技术的最新进展、实际应用,以及面临的挑战和未来的发展趋势。报告将首先介绍路径规划的基本概念和原理,包括经典的路径规划算法(如Dijkstra算法、A*算法等)和现代的启发式搜索算法。此外,报告还将讨论路径规划技术面临的挑战,如复杂动态环境建模、实时性要求、多目标优化等问题,并探讨相应的解决策略和技术创新。最后,将展望路径规划技术的未来发展趋势,包括与人工智能、大数据、物联网等技术的融合,以及在新兴领域(如智慧城市、无人化物流等)的应用前景。通过本次报告,旨在加深对路径规划技术的理解,探讨其在实际应用中的问题和解决方案,展望未来的发展趋势,为相关领域的研究和实践提供参考和启示。
报告题目五:路径规划技术的创新与应用探索
报告人:梁永豪
报告简介:本报告将基于研究生视角,深入探讨路径规划技术的创新点、应用领域以及未来发展趋势。结合具体的研究项目或实验案例,分析路径规划技术在智能交通、无人驾驶、机器人导航等领域的创新应用,展示其在解决实际问题中的独特优势和潜力。此外,报告还将探讨路径规划技术所面临的挑战与机遇,如动态环境适应、多目标优化、实时计算等,并提出可能的解决方案和研究方向。最后,报告将展望路径规划技术的未来趋势,包括与人工智能、大数据、物联网等前沿技术的融合创新,以及在智慧城市、无人驾驶交通等领域的应用前景。通过本次报告,期望能够为研究生们提供一个展示研究成果、交流学术思想的平台,推动路径规划技术的不断突破与发展。
报告题目六:基于弱监督学习的图像局部特征提取方法
报告人:尹一帆
报告简介:图像局部特征提取是计算机视觉领域的重要任务之一,对于图像检索、目标识别和图像配准等应用具有关键作用。然而,传统的局部特征提取方法通常需要大量的标注数据进行监督学习,而这些数据往往难以获取或成本较高。为了解决这一问题,基于弱监督学习的图像局部特征提取方法应运而生。本报告旨在探讨基于弱监督学习的图像局部特征提取方法的研究现状、技术原理和应用前景,为进一步推动该领域的发展提供参考和指导。
报告题目七:基于弱监督学习的图像局部特征提取方法改进
报告人:尹一帆
报告简介:图像局部特征提取在计算机视觉领域中扮演着至关重要的角色,但传统方法往往受限于标注数据的稀缺性或高成本。为了克服这些挑战,基于弱监督学习的图像局部特征提取方法备受关注。本报告旨在介绍对基于弱监督学习的图像局部特征提取方法的改进研究,以提高其性能和适用性。本报告旨在探索和总结近期对基于弱监督学习的图像局部特征提取方法的改进研究,重点关注提高提取质量、降低标注成本以及增强模型泛化能力等方面的创新。本报告回顾当前基于弱监督学习的图像局部特征提取方法,分析其在提取质量、标注需求和泛化能力等方面的局限性,同时探讨改进基于弱监督学习的图像局部特征提取方法的可能方向,包括但不限于数据增强、自适应学习、多任务学习以及模型蒸馏等。
场次四、
时间:2024年4月2日(星期二)9:00-12:00
地点:9001cc金沙以诚为本601教室
报告题目一:Communication-Efficient Federated Learning with Adaptive Parameter Freezing
报告人:彭涯军
报告简介:联邦学习允许边缘设备通过同步本地更新来协作训练全局模型,而无需共享私有数据。然而,由于边缘网络带宽有限,通信往往成为严重的瓶颈。在本文中,我们发现在整个训练过程中没有必要始终同步整个模型,因为许多参数在最终模型收敛之前逐渐稳定,因此可以在早期阶段排除同步。这使我们能够在不影响模型准确性的情况下减少通信开销。然而,关键的挑战在于,排除在全局同步之外的本地参数在不同客户端上可能会有所不同,同时某些参数可能只是暂时稳定。为了应对这些挑战,我们提出了一种称为自适应参数冻结(APF)的新颖方案,该方案冻结间歇期内的非同步稳定参数。具体来说,根据先前冻结的参数在后续迭代中是否保持稳定,以AIMD方式暂时调整冻结周期。我们在 PyTorch 中将APF作为Python模块实现。实验结果表明,APF可以减少60%以上的数据传输。
报告题目二:ECN Marking With Micro-Burst Traffic: Problem,
Analysis, and Improvement
报告人:余天添
报告简介:在数据中心中,终端主机的批处理方案可能会将微突发流量引入网络。微突发引起的丢包通常会导致严重的性能下降。因此,如何避免微突发流量引起的缓冲区溢出问题受到了人们的重视。特别是,ECN广泛用于数据中心,以保持持久队列占用率低,以便有足够的缓冲空间作为缓冲空间来吸收微突发流量。然而,本文发现当前基于即时队列长度的ECN标记方案可能会在另一个方向上引起问题-缓冲区下溢。具体而言,目前数据中心的ECN标记方案容易触发虚假拥塞信号,导致发送端过度反应和交换机队列长度振荡。由于ECN阈值较低,可能导致缓冲区下溢,链路容量未被充分利用。本文通过实验揭示了这一问题。此外,本文从理论上推导了队列长度振荡的幅度。分析结果表明,发送者的过度反应是由ECN错标引起的。因此,本文提出了一种可以更准确地标记数据包的排队和脱队组合标记(CEDM)。通过试验台实验和广泛的ns-2模拟,表明CEDM可以显著减少吞吐量损失并提高流程完成时间。
报告题目三:Live Gradient Compensation for Evading Stragglers in Distributed Learning
报告人:李温良
报告简介:典型的分布式学习体系结构由参数服务器(Parameter Server, PS)和分布式计算节点组成——节点并行计算并发送本地梯度给PS,而PS聚合梯度后更新模型参数,并将最新的参数发往各计算节点。然而,在同步设置中,这种系统体系结构中每次迭代的时间开销都受制于掉队者的影响。一种简单的策略是通过合并最快的K个计算节点并忽略掉队者来执行分布式深度学习,然而这可能会导致训练non-IID数据时产生高偏差。为了解决这个问题,本篇文章开发了一种实时梯度补偿(Live Gradient Compensation, LGC)策略,以接收来自掉队者的延迟梯度,同时加速学习过程。与梯度编码方法相比,LGC不需要任何额外的计算或数据存储开销。
报告题目四:数据流中每项尾分位数估计算法研究
报告人:韦姿蓉
报告简介:估计数据分布的分位数,尤其是尾部分布,是数据流模型中的一个重要的话题,并且得到了许多研究人员的广泛关注。论文中提出了一种新颖的sketch,名为SketchPolymer,用于准确估计每个项目的尾部分位数。SketchPolymer使用一种称为Early Filtration的技术来过滤不频繁的项目,并使用另一种称为VSS的技术来减小误差。理论和实验结果都表明,与最新的方法相比,SketchPolymer的速度和准确性要高得多。
场次五、
时间:2024年4月2日(星期二)9:00-12:00
地点:9001cc金沙以诚为本601教室
报告题目一:通过线性邻域传播探索基因-患者关联以识别个性化癌症驱动基因
报告人:陈福浩
报告简介:驱动基因在癌症的发展中起着至关重要的作用。识别驱动基因对于诊断和理解癌症至关重要。然而,由于癌症的肿瘤异质性,在识别个性化驱动基因方面仍然存在挑战。尽管已经开发了许多计算方法来解决这个问题,但很少有人致力于探索基因-患者关联来识别个性化的驱动基因。在此,我们提出了一种称为LPDriver的方法,通过对个体遗传数据采用线性邻域传播模型来识别个性化的癌症驱动基因。LPDriver基于个体患者的遗传数据构建个性化基因网络,从个性化基因网络的二分图中提取基因-患者关联,并利用线性邻域传播模型挖掘基因-患者相关性来检测个性化驱动基因。实验结果表明,与现有的方法相比,我们的方法具有竞争性,可以更准确地预测癌症驱动基因。此外,这些结果还表明,除了揭示已报道与癌症相关的新驱动基因外,即使隐藏了基因的突变数据,LPDriver也能够通过其网络特征识别个体患者的个性化癌症驱动基因。
报告题目二:利用稀疏典型相关分析和深度学习基于多组学数据对乳腺癌亚型进行分类
报告人:曾平凡
报告简介:乳腺癌亚型的分类对于临床诊断和治疗至关重要。然而,乳腺癌的早期症状可能并不明显。高通量测序技术的快速发展产生了大量多组学生物数据。利用和整合现有的多组学数据可有效提高识别乳腺癌亚型的准确性。然而,很少有人致力于确定不同组学数据之间的关联以预测乳腺癌亚型。本项研究工作基于mRNA组学和DNA甲基化组学数据,提出一种新颖的框架名为DSCCN对乳腺癌亚型进行精准分类。DSCCN对多组学表达数据进行差异分析,识别差异表达基因,并采用稀疏典型相关分析挖掘多组学差异表达基因之间的高度相关特征。同时,DSCCN利用多任务深度学习神经网络分别训练相关的DE基因来预测乳腺癌亚型,自发解决了多组学数据整合中的数据异质性问题。结果表明,与现有方法对比,DSCCN取得了更好的效果。
报告题目三:基于标签传播的疾病模块检测方法研究
报告人:宋俊琳
报告简介:疾病模块检测试图从分子相互作用网络中提取构成候选疾病机制的子网络。疾病模块检测的一类重要方法是活跃模块检测方法,这类方法通过对节点进行评分或加权边,在网络上叠加分子图谱,使用条件特异性信息检测与所分析分子图谱相关的模块。借助疾病种子子网络拓扑特征,提出一种基于标签传播的疾病模块识别方法,迭代扩张种子子网络,进而高度富集候选基因并最终得到疾病模块。相比传统活跃模块识别方法在生物学相关性上有较大提升。
场次六、
时间:2024年4月2日(星期二)15:00-17:00
地点:9001cc金沙以诚为本807b教室
报告题目一:Hairpin:重新思考基于边缘的交互式视频流中的丢包恢复
报告人:徐博士
报告简介: 交互式流媒体需要最大限度地减少卡顿事件(或视频帧的截止日期错过),以确保用户和应用程序之间的无缝交互。然而,现有的丢包恢复机制对初传和重传统一优化冗余,仍然无法满足交互流的时延要求,而且还引入了相当大的带宽成本。我们的见解是,在基于边缘的交互式流媒体中,区分冗余设置的重传通常可以同时实现低带宽成本和低截止期限错过率。在本文中,我们提出了 Hairpin,一种用于基于边缘的交互式流媒体的新的丢包恢复机制。 Hairpin在多轮传输中找到数据包、重传和冗余包的最佳组合,在保证端到端延迟要求的同时,显着降低带宽成本。生产部署实验表明,与最先进的解决方案相比,Hairpin 可以同时将带宽成本平均降低 40%,并将截止日期错过率平均降低 32%。
报告题目二:Blockchain-based Federated Learning for Industrial Metaverses: Incentive Scheme with Optimal AoI
报告人:覃少雯
报告简介:新兴工业元环境实现了实体产业向虚拟空间的映射和拓展,实现了智能制造的显著升级。工业元数据通过工业物联网(industrial Internet of Things, IIoT)从各个生产运营线上获取数据,进行有效的数据分析和决策,从而提高物理空间的生产效率,降低运营成本,实现商业价值最大化。然而,将元数据集成到工业物联网中仍然存在瓶颈,例如敏感数据与商业机密的隐私泄露,工业物联网感知数据的新鲜度以及共享这些数据的激励。在本文中,我们为工业元数据设计了一个带有分散联邦学习的用户自定义隐私保护框架。为了进一步改善工业元空间的隐私保护,进一步利用跨链授权的联邦学习框架,通过具有主链和多子链的分层区块链架构,在物理和虚拟空间上执行分散、安全和隐私保护的数据训练。此外,我们引入了信息年龄作为数据新鲜度度量,从而设计了一个基于年龄的契约模型来激励IIoT节点之间的数据感知。数值结果表明了所提出的框架和激励机制在工业环境中的有效性。
报告题目三:Interactive Visual Cluster Analysis by Contrastive Dimensionality Reduction
报告人:杨治韬
报告简介:提出了一种交互式视觉聚类分析的对比降维方法(CDR)。虽然高维数据降维与散点图结合在视觉聚类分析中得到了广泛的应用,但有效的视觉聚类分析存在一些局限性。首先,在保持邻域结构的情况下,嵌入呈现清晰的视觉聚类分离是很重要的。其次,由于聚类分析是一项主观任务,需要用户指导。然而,在降维中启用交互也是非常重要的。为了解决这些问题,我们将对比学习引入到高质量嵌入的降维中。然后重新定义损失函数对负对的梯度,增强嵌入结果的视觉聚类分离。基于对比学习方案,我们采用基于链接的交互来引导嵌入。之后,我们实现了一个原型可视化界面,该界面集成了所提出的算法和一组可视化。定量实验表明,CDR在保持正确邻域结构和改善视觉聚类分离方面优于现有技术。烧蚀实验验证了梯度重定义的有效性。通过用户研究验证,话单在集群识别任务上优于t-SNE和UMAP。我们还展示了两个真实数据集上的用例,以展示基于链接的交互的有效性。
报告题目四:Optimization on multi-object tracking and segmentation in pigs' weight measurement
报告人:罗森
报告简介:猪的体重与其健康状况高度相关。目前,三维摄像机可以获取空间信息,实现了非接触式重量测量。将猪从背景中分离出来是第一步,在一个短视频中跟踪可以使重量比预测单个图像上的重量更准确。随着在实例分割网络中加入关联嵌入分支,视频中的多对象跟踪与分割(MOTS)受到了越来越多的关注。尽管MOTS网络很成功,但在实际应用中仍存在一个关键问题,即预测的掩模不能很好地适应目标。其原因是掩模分支中的特征映射的分辨率较低。因此,我们通过层叠反褶积层和无卷积层来改进掩模生成分支。实验结果表明,两个反褶积层与两个无卷积层配合效果较好。在猪的体重测量中,该方法比原始网络输出更精确的掩模。
报告题目五:Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization
报告人:胡慧琳
报告简介:联邦学习(FL)是一种很有前途的范例,可以使用分散的数据进行协作模型训练。然而,大型语言模型(LLM)的训练过程通常会导致重要参数的更新,这限制了FL技术在实际场景中处理LLM的适用性。及时调优可以显著减少需要更新的参数数量,但它要么会导致性能下降,要么会降低训练效率。在FL中直接使用提示调优通常会增加不小的通信成本,并显著降低性能。此外,分散的数据通常是非独立和相同分布的(non-IID),这带来了客户端漂移问题,从而导致性能不佳。本文提出了一种参数高效的自适应优化提示调谐方法,即FedPepTAO,以实现LLM的高效FL。首先,提出了一种有效的局部提示调优方法,以同时提高性能和效率。其次,提出了一种新的自适应优化方法来解决设备端和服务器端的客户端漂移问题,以进一步提高性能。
场次七、
时间:2024年4月2日(星期二)15:00-17:00
地点:9001cc金沙以诚为本601教室
报告题目一:基于随机游走的个性化癌症驱动编码基因和非编码基因识别方法
报告人:陈福浩
报告简介:揭示癌症驱动基因在癌症研究中很重要,每位患者具有不同的基因组,他们的疾病可能由不同的驱动基因驱动。因此,人们正在开发新的方法来发现个体水平上的癌症驱动因素,但现有的个性化方法只关注编码驱动因素,而长非编码(LncRNA)也被证明可以驱动癌症的进展。因此,需要在个体水平上发现编码和LncRNA癌症驱动因素的新方法。我们开发了一种基于随机游走的算法,在LncRNA和编码基因的多重异质网络上随机游走,以预测个性化致癌的LncRNA和编码基因。经实验,该方法识别出的编码基因准确率较近年来的经典算法有所提高,识别出的LncRNA大部分已被文献证明与癌症相关。
报告题目二:一种基于多组学数据对乳腺癌亚型进行分类的框架
报告人:曾平凡
报告简介:乳腺癌亚型的精确分类对临床诊断和治疗至关重要,但早期症状往往不明显。利用高通量测序的多组学数据可以提高分类的准确性。然而,大多数研究主要关注单个组学数据与乳腺癌之间的关联,而忽视了不同组学之间的相互作用。这可能无法全面了解乳腺癌的生物学过程。在此,我们提出了一个名为 DiffRS-net 的新框架在三个组学,即mRNA,miRNA,DNA甲基化组学中通过识别不同全局数据之间的关联来对乳腺癌亚型进行分类。DiffRS-net 对每数据进行差异分析,以识别差异表达基因,并采用稀疏多视图典型相关分析来检测 DE-genes 之间的多向关联。然后,利用这些具有高度相关性的 DE 基因来训练注意力学习网络,从而提高乳腺癌亚型的预测准确性。实验结果表明,与现有方法相比,通过挖掘多组学数据之间的关联,DiffRS-net 实现了更准确的乳腺癌亚型分类。
报告题目三:基于随机游走的疾病模块识别方法研究
报告人:宋俊琳
报告简介:疾病模块检测试图从分子相互作用网络中提取构成候选疾病机制的子网络。识别疾病模块的传统技术涉及高成本的临床实验和不可预测的分析时间消耗。基于随机游走的方法是一种基于网络的计算方法,它利用生物网络进行分析,能够有效捕捉疾病中分子之间的复杂相互作用,帮助识别人类互作用组中的疾病模块。
场次八、
时间:2024年4月3日(星期三)9:00-12:00
地点:9001cc金沙以诚为本305教室
报告题目一:基于MOEA模型及离散小波软阈值去噪的长期单变量风速预测研究
报告人:班桂花
报告简介:准确的风速预测对于有效的风电并网和能源调度至关重要。最近的研究探索了将分解算法与预测模型相结合形成混合模型的方法,旨在提高风速预测的准确性。然而,这些传统的分解技术在实际应用中往往会导致较高的时间成本,因为在进入预测模型之前,需要将新的风速序列附加到历史长序列中进行分解。为了克服这一难题,本研究引入并改进了 Autoformer 模型,首次将其应用于长期单变量风速预报。通过将分解技术作为预报模型的一个子模块,Autoformer 不仅解决了传统混合模型中的高时间成本问题,还保留了分解技术在时间序列处理中的优势。此外,本文还将 Autoformer 的分解模块替换为混合专家分解模块(MOEDecomp),以更好地提取风速序列的复杂趋势要素。结合自相关机制,对风速进行顺序关注,以提取长序列中的时间相关性。此外,还利用小波软阈值去噪算法(WSTD)对风速序列进行降噪处理。
报告题目二:基于整词遮蔽和双特征联合提取的电力营销领域命名实体识别
报告人:梁增福
报告简介:随着电力体制的改革,电网企业已经完成了智能电网的初步构建,并且在这些年的智能电网信息化建设中积累了海量的非结构化业务数据,其中包含大量的电力营销系统数据,面对如此庞大的营销数据,如何对这些数据进行分类、关键词定位、深层语义关系挖掘成为了自然语言处理和电力营销领域的热点研究方向。针对当前中文电力营销领域命名实体任务中存在的实体特征利用率低、一词多义和专业术语识别度不高等问题,提出了一种基于整词遮蔽和双特征联合提取的中文电力营销命名实体识别方法。首先,使用RoBERTa-wwm预训练模型将电力文本数据进行词向量化,然后将其输入到构建的双特征提取神经网络(DFENN)中,以并行方式获取文本局部特征和全局特征,并进行融合。RoBERTa-wwm层输出用作辅助分类层,DFENN层输出作为主分类层,通过注意力机制将两个层的输出动态加权融合得到新的特征,输入到条件随机场(CRF)层中,得到最合理的标签序列。训练过程中使用焦点损失函数来缓解样本分布不均匀的问题。实验结果表明,该方法在构建的电力营销领域命名实体识别数据集上取得了较好的效果。
报告题目三:基于RoBERTa-Attention-FL模型的电力调度领域命名实体识别
报告人:林德沼
报告简介:随着智能电网系统的投入,在使用过程中记录了海量的调度行为信息,这些信息以非结构化形式存储,其中包含了丰富的调度行为知识。开展对中文电网调度领域非结构化数据的深度挖掘,对电网调度领域经验知识进行建模,构建领域知识图谱,已成为该领域亟待解决的问题。其中,命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一项基础任务,识别文本中具有特定意义或者指代性强的实体,包括人名、地名、专有名词等,同时也是构建知识图谱的关键技术,应用范围广泛。识别非结构化数据中的实体后,再对实体间的关系进行抽取,将实体通过关系进行连接,构建知识图谱语义网络。针对中文电力调度领域命名实体识别中实体嵌套的问题,提出一种RoBERTa-Attention-FL模型,该模型基于跨度表示的标注方式,可以对嵌套实体进行有效识别,抽取RoBERTa(A Robustly Optimized BERT Pretraining Approach)中间4-10层的输出值,经过Transformer Encoder层,借助多头自注意力机制抽取句法信息,将句法信息与RoBERTa最后一层输出的深度语义信息做融合。在训练过程中,采用了 Focal Loss (焦点损失函数)缓解样本不平衡问题。
场次九、
时间:2024年4月3日(星期三)15:00-18:00
地点:9001cc金沙以诚为本305教室
报告题目一:基于门控融合单元的电力营销数据实体关系抽取
报告人:梁增福
报告简介:探索通用领域和电力营销领域下的中文关系抽取方法。在电力营销领域,知识图谱推动着智能电网的发展,而有效的电力营销关系抽取方法对实现智能电网至关重要。通过整合和利用大量的电力领域知识,可以实现智能化决策、优化运行和精细管理。针对当前电力营销关系抽取存在的困难和挑战,提出一种基于门控融合单元的电力营销数据实体关系抽取方法。首先使用RoBERTa-wwm预训练模型作为嵌入层,使用整词遮蔽策略替代wordPeice遮蔽,预训练模型通过预测被完整遮蔽的实体,学习获得完整词语级别的特征信息,使模型获得更具表征中文的能力,并使用焦点损失函数缓解样本分布不平衡问题;其次使用PCNN模型提取文本中的实体进行深层次的特征提取以及使用自注意力机制实现长距离特征提取,并使用门控单元实现对两个特征进行融合;最后将所有的特征进行拼接输入到Softmax进行关系分类。实验结果表明,该方法在构建的电力营销数据集上取得了较好的效果。
报告题目二:一种结合语义依存和词性嵌入RoBERTa模型的电网调度领域关系抽取
报告人:林德沼
报告简介:关系抽取任务从非结构化或半结构化数据中提取关系事实,以指示实体之间的交互和属性。构建知识图谱,通常需要对非结构化信息进行信息抽取,也就是实体关系抽取。在关系抽取中,对领域知识无法进行有效表征。电力系统中记录的相关数据,因为其错综复杂的专业知识,如何针对专有领域进行关系进行有效识别是现阶段需要解决的问题。针对电网调度领域实体关系抽取的问题,基于跨度表示的标注方式,将主体实体和客体实体作为一组训练实例,加强两个实体的联系,RoBERTa预训练模型的嵌入层本身包含字嵌入、位置嵌入和段落嵌入信息,再引入语义依存,对不同实体进行有效联结,另加入词性标注嵌入,使模型学习到更多的深度语义信息。得到嵌入层后,经过RoBERTa模型,对实体和关系进行多任务学习,使用参数硬共享机制融合多任务信息。最后经全连接层,得到预测的实体关系。该方法在自构建的电网调度领域数据集进行验证,能够显著提高模型的表现。
报告题目三:基于明度与图像分割的风电异常数据识别与清洗算法
报告人:班桂花
报告简介:当前的研究将WPC数据异常分为三类,第Ⅰ类是负异常数据、第Ⅱ类是稀疏异常数据,第Ⅲ类是堆叠异常数据。针对WPC数据存在的异常情况识别与检测准确率低,无法有效识别堆叠异常等问题,提出一种基于颜色空间转换和图像分割的方法,利用图像处理的相关技术实现风电异常数据的有效识别和清洗。该方法首先基于常规的方法实现第一类异常数据的识别与清洗。其次,基于颜色透明度,考虑风速、风功率和频率将去除第一类异常数据的WPC数据对应的二维散点图表示成三维WPC图像。随着频率的提高,散点的透明度也相应加深,与之对应的便是HSV颜色空间的H数值增大。因此,将三维WPC图像的RGB颜色空间转换为HSV颜色空间,找到合适的透明度阈值便可识别出第Ⅱ类异常数据。 最后,将去除第Ⅰ、Ⅱ类异常数据的三维WPC图像转换成灰度图,利用Canny边缘检测算法和数学形态学方法检测第三类异常数据。