摘要:随着软件服务系统日益庞大、复杂,基于日志的故障诊断对保证软件服务的可靠性至关重要.已有的日志故障诊断方法虽然可以确定故障类型,但无法为其推理过程提供解释让运维人员信服,从而导致它们难以在实际生产环境中进行部署.为此,本文提出了一种全新的通过自动构建思维链指令提示(log Chain of Thought-Prompting,CoT-Prompting)来进行日志故障诊断的框架——LogCoT(Log Chain of Thought),它利用基于两阶段思维链提示工程(Auto-Few-Shot-CoT,Auto-FSC)算法,通过大语言模型(Large Language Model,LLM)提取日志的语义信息,从而生成可解释的根因分析报告.此外,LogCoT结合无类别标注的指令优化(prompt-tuning)工程和有类别标注的参数微调(preference-tuning)技术优化微调Mistral基座模型.然后通过大模型反馈身份偏好优化(Large-Language Model feedback Identity Preference Optimisation,LLMf-IPO)算法纠正Mistral生成的错误诊断结果,以更好对齐用户意图.最后,本文基于从一家互联网服务提供商和一家云服务提供商的生产环境中收集的两个日志数据集对LogCoT的性能进行了全面综合的实验评估.实验结果表明,LogCoT在Accuracy、Macro-F1、Weighted-F1等三个性能指标上均优于当前典型的基线模型,在两个数据集上比现有最佳模型的Accuracy分别高出31.88个百分点和10.51个百分点.
摘要:针对各行各业海量文本文档的智能合约化需求,提取文本关键数据要素是首要基础.与传统命名实体识别(Named Entity Recognition,NER)相比,合约要素提取(Contract Element Extraction,CEE)技术旨在提取泛在较长、更多样、较冗余合约要素,然而目前面临着中文研究不足、对新颖大语言模型(Large Language Model,LLM)技术应用不够充分、对文本上下文关联特征感知不足等挑战.本文首先提出了新颖的上下文语义感知动态填充方法(Context-sensitive Dynamic Padding Method,CDPM)、三重注意力层和要素边缘加权损失函数模块,在不增加硬件需求的前提下,为模型提供额外上下文语义信息,增强对上下文关联特征的感知能力,从而提升基于序列标注范式的CEE训练效率.其次,融合上述模块和BERT(Bidirectional Encoder Representations from Transformers)嵌入模型构建了一种基于上下文感知的合约要素提取模型(Context-Aware Model for Contract Element Extraction,CAM-CEE),实现了面向智能合约化场景的高性能要素提取.最后,在本文自主构建的数据集以及相关公开数据集上进行了大量实验.结果表明,本文提出框架CAM-CEE在micro F1、macro F1等指标上的性能超越最佳基线模型,并具有高通用性.
摘要:知识蒸馏是一种从复杂深层教师模型向轻量级学生模型迁移知识以提升性能的学习范式.针对教师模型分布知识多样性不足,以及构建学生模型架构的搜索空间导致大量资源消耗的问题,本文提出了一种基于低秩自适应的伸缩感知蒸馏(Low-rank Adaptation based Flexibility-Aware distillation,LAFA)方法.LAFA方法通过构建低秩变换矩阵,将教师知识分别变换到学生模型的知识和类别标签,以提高分布知识的多样性.同时,LAFA引入决策辅助器,动态伸缩学生模型容量,从而实现蒸馏性能与容量之间的均衡.进一步,本文提出热启动和松弛策略来优化决策变量.热启动策略通过约束学生模型缓慢增加容量,缓解因容量伸缩而导致的收敛困难.松弛策略则在蒸馏后期移除约束,以少量资源消耗实现显著的性能提升.在CIFAR-100数据集上,LAFA集成于13种蒸馏方法,平均性能提升了0.28个百分点.同时,消融实验和分析实验进一步验证了LAFA方法的有效性.