1. 武汉科技大学, 计算机科学与技术学院,湖北,武汉,430065
2. 智能信息处理与实时工业系统湖北省重点实验室,湖北,武汉,430065
3. 国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京,100038
4. 湖北语言与智能信息处理研究基地(武汉大学),湖北,武汉,430072
5. 武汉科技大学 计算机科学与技术学院,湖北,武汉,430065
6. 智能信息处理与实时工业系统湖北省重点实验室,湖北,武汉,430065
7. 国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室,北京,100038
8. 湖北语言与智能信息处理研究基地(武汉大学),湖北,武汉,430072
网络出版:2018-03-25,
纸质出版:2018
移动端阅览
符海东, 彭燊, 黄莉, 等. HDVM:基于关系矩阵的关联数据压缩查询模型[J]. 电子学报, 2018,46(3):721-729.
FU Hai-dong, PENG Shen, HUANG Li, et al. HDVM:Compression & Query Model of Linked-Data Based on Relational Matrix[J]. Acta Electronica Sinica, 2018, 46(3): 721-729.
符海东, 彭燊, 黄莉, 等. HDVM:基于关系矩阵的关联数据压缩查询模型[J]. 电子学报, 2018,46(3):721-729. DOI: 10.3969/j.issn.0372-2112.2018.03.030.
FU Hai-dong, PENG Shen, HUANG Li, et al. HDVM:Compression & Query Model of Linked-Data Based on Relational Matrix[J]. Acta Electronica Sinica, 2018, 46(3): 721-729. DOI: 10.3969/j.issn.0372-2112.2018.03.030.
随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Header Dictionary Vector Matrix)压缩查询模型,通过在关联数据集中提取潜在的三元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT(Header-Dictionary Triples)压缩方式提高了3%~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.
With the arrival of big data era
a large number of RDF (Resource Description Framework) data is flooding the entire Web of Data. Since the indexes of these datasets cannot be fully loaded in main memory when the RDF engines manage these huge datasets
these systems need to perform slow disk accesses to solve SPARQL queries. In this paper
a method named HDVM is proposed to reduce the number of linked data repeated times by extracting the latent triplet relation matrix from the linked dataset
and storing them in the form of subject vector
predicate vector and object matrix
which allows SPARQL queries to be full-in-memory performed without decompression. The experimental results show that the HDVM (Header Dictionary Vector Matrix) model proposed in this paper can improve the compression rate by 3%~20% compared with HDT (Header-Dictionary Triples)
and the query time on billion-level-size dataset reaches average 400 milliseconds.
0
浏览量
187
下载量
0
CSCD
关联资源
相关文章
相关作者
相关机构
京公网安备11010802024621