摘要:对于非光滑强凸问题,在线梯度下降(Online Gradient Decent,OGD)取适当步长参数可以得到对数阶后悔界.然而,这并不能使一阶随机优化算法达到最优收敛速率.为解决这一问题,研究者通常采取两种方案:其一是改进算法本身,另一种是修改算法输出方式.典型的Adam(Adaptive moment estimation)型算法SAdam(Strongly convex Adaptive moment estimation)采用了改进算法的方式,并添加了自适应步长策略和动量技巧,虽然得到更好的数据依赖的后悔界,但在随机情形仍然达不到最优.针对这个问题,本文改用加权平均的算法输出方式,并且重新设计与以往算法同阶的步长超参数,提出了一种名为WSAdam(Weighted average Strongly convex Adaptive moment estimation)的Adam型算法.证明了WSAdam达到了非光滑强凸问题的最优收敛速率.经过Reddi问题的测试和在非光滑强凸函数优化中的实验,验证了所提方法的有效性.
摘要:相比于基于比特数据的信息处理及通信技术,人类通过语义处理和传递信息的方式,在面对智能体间传递处理海量信息这一问题时显得更为高效和自然.然而由于目前缺乏关于语义度量和刻画的数学描述,涉及语义的应用无法兼顾可解释性和泛化性,无法发挥语义的高效自然的优势.本文围绕语义的度量和刻画,首先依据信息科学和神经科学相关结论,讨论了语义的内涵,并指出语义具有模块化、多模态、层级化的特点;接着提出了一种多模态信号的语义刻画和度量的数学描述;然后为了验证所提信号语义的刻画和度量的可行性和有效性,在MNIST(Mixed National Institute of Standards and Technology database)手写数字识别和水声目标识别两个应用中进行了实验,获得比传统深度学习更好的性能;最后将语义用于视频编码,实现了远超传统方法的压缩比,展现了语义在通信领域的实用价值.这为未来建立以语义为基础的新型信息处理与通信技术奠定了理论和实践基础.
摘要:用户评论可以反映用户对项目的偏好信息,将用户在其他领域的偏好迁移到目标领域进行跨域推荐,可以缓解目标域数据稀疏引起的冷启动问题.本文针对传统的跨域推荐方法无法将完整的用户偏好进行迁移以及传统的方面提取方法预测精度不高两个问题,提出基于方面和胶囊网络的跨域评分预测模型ACN(Aspect and Capsule Network).ACN模型使用胶囊网络挖掘评论文档的多个方面,然后通过注意力机制筛选出对目标域最重要的特征,迁移到目标域进行评分预测.最后,通过实验证明ACN模型分别在单一源域和多源域的情况下,较基准模型最高有2.3%和20.8%的性能提升.
摘要:该文提出一种利用阵列划分的近场到达方向 (Direction Of Arrival,DOA) 估计算法.首先,通过划分阵列和四阶累积量构造一个仅包含DOA信息的托普利兹矩阵;然后,由于多重信号分类 (Multiple Signal Classification,MUSIC) 算法的空间谱在谱峰处是一个断点、且趋近较大值,因此,为得到高分辨率谱峰,该算法通过求解空间谱的一阶导数构造一个新 “空间谱”;最后,通过一维MUSIC算法估计近场信源的距离.仿真结果表明,该算法在低信噪比下提高了DOA的估计精度,且不需要二维谱峰搜索,只需K+1次一维谱峰搜索.
摘要:基于多视点视频加深度(Multiview Video plus Depth, MVD)格式的三维视频能给用户提供多视角的沉浸式视觉体验.针对MVD视频流传输中彩色帧发生整帧丢失的情况,提出了一种结合视觉显著性的三维视频整帧丢失错误隐藏算法.先将丢失帧各区域划分为三种不同的显著等级,然后对低、中、高显著区域,分别采用时域直接拷贝、时域和视点间像素自适应搜索法和新型的运动矢量补偿法进行恢复.相较于目前的对比算法,经提出算法重建后的丢失帧的峰值信噪比值(Peak Signal to Noise Ratio, PSNR)和结构相似度值(Structural Similarity Index Measure, SSIM)能分别提高0.99~2.61 dB和0.005~0.012,并且重建图像主观视觉质量更佳.
摘要:针对现有双目场景流计算方法在大位移、运动遮挡及光照变化等复杂场景下场景流估计的准确性与鲁棒性问题,提出一种基于金字塔块匹配的双目场景流计算方法.首先对双目图像序列进行超像素分割和视差估计,得到图像初始分割结果和视差信息,然后建立基于金字塔块匹配的运动模型并采用Ransac随机一致性算法拟合刚性运动模型和最小化重投影算法估计对象运动参数.最后,本文将金字塔块匹配结果作为约束项,联合对象运动参数和超像素平面参数构建基于金字塔块匹配的双目场景流估计能量函数模型,通过最小化能量函数得到最终场景流.实验分别采用KITTI2015(Karlsruhe Institute of Technology and Toyota technological Institute 2015)和MPI-Sintel(Max-Planck Institute and Sintel)数据集测试图像对本文方法和具有代表性场景流算法进行综合对比分析,结果表明本文方法相对于其他对比方法有效提高大位移、运动遮挡以及光照变化情况下场景流估计精度和鲁棒性.
摘要:图神经网络自2005年以来已经逐步成为图学习中的一个重要的研究分支,其中最为活跃的是图卷积神经网络.由于图数据在现实世界中广泛存在,因此有效地完成图结构数据的学习具有很大的应用前景.目前出现的大多数图卷积神经网络模型基本都是浅层结构,过平滑问题成为制约该领域发展的瓶颈问题.本文提出了一种称为dri-GCN(Graph Convolutional Network via dropedge, residual and identity mapping)的图残差卷积深层网络模型,该模型集成了图剪边、初始残差和恒等映射技术.主要思想包括:利用图剪边技术增加学习数据的多样性,以防止学习过程中的过拟合现象;构建恒等映射下的初始残差网络,来扩展残差单元的学习路径,以削弱学习过程中的过平滑问题.实验结果表明,本文提出的dri-GCN模型可以帮助构建深层图卷积神经网络,通过网络层次的加深可以获得优于浅层网络的学习准确率.
摘要:知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语义解析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的问句映射为结构化的语义表征,再将其改写为知识库查询获取答案.目前,面向知识库问答的语义解析方法主要面临三个挑战:首先是如何选择合适的语义表征形式以表达问句的语义,然后是如何解析问句的复杂语义并输出相应的语义表征,最后是如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.本文从上述挑战出发,分析了知识库问答中常用的语义表征的特点与不足,然后梳理现有方法并总结分析其如何应对问句的复杂语义,接着介绍了当前方法在标注数据匮乏的低资源场景下的尝试,最后展望并讨论了面向知识库问答的语义解析的未来发展方向.