HDVM:基于关系矩阵的关联数据压缩查询模型

符海东; 彭燊; 黄莉; 顾进广

doi:10.3969/j.issn.0372-2112.2018.03.030

您当前的位置：

首页 >

文章列表页 >

HDVM:基于关系矩阵的关联数据压缩查询模型

学术论文 | 更新时间：2025-07-16

- HDVM:基于关系矩阵的关联数据压缩查询模型
- HDVM:Compression & Query Model of Linked-Data Based on Relational Matrix
- 电子学报 2018年46卷第3期页码：721-729
- 作者机构：
  
  1. 武汉科技大学, 计算机科学与技术学院,湖北,武汉,430065
  2. 智能信息处理与实时工业系统湖北省重点实验室,湖北,武汉,430065
  3. 国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京,100038
  4. 湖北语言与智能信息处理研究基地(武汉大学),湖北,武汉,430072
  5. 武汉科技大学计算机科学与技术学院,湖北,武汉,430065
  6. 智能信息处理与实时工业系统湖北省重点实验室,湖北,武汉,430065
  7. 国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京,100038
  8. 湖北语言与智能信息处理研究基地(武汉大学),湖北,武汉,430072
- 作者简介：
- 基金信息：
  
  国家自然科学基金 (No.61673304，No.61272110）;国家社会科学基金重大计划 (No.11&ZD189）;软件工程国家重点实验室 (武汉大学）开放基金 (No.SKLSE2012-09-07）
- DOI：10.3969/j.issn.0372-2112.2018.03.030
  中图分类号： TP311
- 网络出版：2018-03-25，
  
  纸质出版：2018
- 稿件说明：
移动端阅览
符海东, 彭燊, 黄莉, 等. HDVM:基于关系矩阵的关联数据压缩查询模型[J]. 电子学报, 2018,46(3):721-729.

FU Hai-dong, PENG Shen, HUANG Li, et al. HDVM:Compression & Query Model of Linked-Data Based on Relational Matrix[J]. Acta Electronica Sinica, 2018, 46(3): 721-729.
符海东, 彭燊, 黄莉, 等. HDVM:基于关系矩阵的关联数据压缩查询模型[J]. 电子学报, 2018,46(3):721-729. DOI： 10.3969/j.issn.0372-2112.2018.03.030.

FU Hai-dong, PENG Shen, HUANG Li, et al. HDVM:Compression & Query Model of Linked-Data Based on Relational Matrix[J]. Acta Electronica Sinica, 2018, 46(3): 721-729. DOI： 10.3969/j.issn.0372-2112.2018.03.030.

摘要

随着大数据时代的到来，大量的RDF数据充斥着整个数据网络.RDF（Resource Description Framework）后台引擎管理巨大的数据集时，数据集索引不能全部加载到内存中，导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM（Header Dictionary Vector Matrix）压缩查询模型，通过在关联数据集中提取潜在的三元组关系矩阵，以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数，允许SPARQL查询在压缩状态下全内存执行.实验结果表明，本文提出的模型比常用的HDT（Header-Dictionary Triples）压缩方式提高了3%~20%的压缩率，同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.

Abstract

With the arrival of big data era

a large number of RDF (Resource Description Framework) data is flooding the entire Web of Data. Since the indexes of these datasets cannot be fully loaded in main memory when the RDF engines manage these huge datasets

these systems need to perform slow disk accesses to solve SPARQL queries. In this paper

a method named HDVM is proposed to reduce the number of linked data repeated times by extracting the latent triplet relation matrix from the linked dataset

and storing them in the form of subject vector

predicate vector and object matrix

which allows SPARQL queries to be full-in-memory performed without decompression. The experimental results show that the HDVM (Header Dictionary Vector Matrix) model proposed in this paper can improve the compression rate by 3%~20% compared with HDT (Header-Dictionary Triples)

and the query time on billion-level-size dataset reaches average 400 milliseconds.

关键词

Keywords

references

浏览量

187

下载量

CSCD

文章被引用时，请邮件提醒。

提交

工具集

关联资源

基于相容关系的XML索引机制

基于部分匹配的XML文本文档向量检索模型

彩色空间量化及调色板压缩技术

基于粒关系矩阵的流量在线分类