中间件

了解DANA如何帮助用户最大化实现融合数据价值

Crab

网络爬虫             

分布式数据集成引擎,不管是数据库里的传统业务数据,还是网页数据,甚至是文档、图片、音视频等非结构化数据都可以用Crab引擎进行智能收集,并支持数据源的过滤、匹配。集网络爬虫、ETL、文件采集、邮件采集等功能于一身。

立即试用 文档 & SDK

产品概述

提供可跨异构数据存储系统、数据库、文件、日志、网页、实时流数据的集成解决方案。可靠,安全,低成本,可弹性扩展, 并实现智能调度与监控有效帮助您解决异构数据存储系统的数据互通难题,让您数据不再成为孤岛!助您实现大数据分析和实时数据智能。

  • DANA Crab数据集成引擎主要针对用户的数据所在的不同环境,
  • 提供相应的数据集成通道,帮助用户针对自己的数据环境快速的将数据导入到DANA大数据融合平台中。
  • 本方案集中解决私有环境下的各种DBMS数据库、日志文件,网页,实时流数据对接, 提供相应的开发工具和方法支持。

产品特性

Spider

自主研发的强大的网络爬虫系统,通过部署配置动态抓取相关网页信息,通过控制台轻松部署项目列表,通过设置抓取策略实时监控项目状态。

ETL

将传统的业务数据从源端经过抽取、转换、加载至目的端,支持多种数据源和抽取策略。

日志收集

支持text、tail、syslog、exec、concole、RPC等不同日志源数据的采集,同时对这些数据进行简单处理后存储到后端。

文件收集

支持多目录实时监控、自定义属性和策略收集非结构化数据。
客户端文件系统:同步客户端、虚拟磁盘;
支持操作系统文件收集:Linux、Windows、Mac OS;
支持移动端文件收集:Android、IOS;

实时流导入

支持应用系统通过消息队列实时将数据导入

应用场景

示意图

通过DANA Crab大数据融合引擎,可以帮助开发者快速进行网页爬虫系统开发。提供上手简单,灵活开放的爬虫云开发环境,让开发者只需要在线写几行Python代码就可以实现一个网站爬虫。并且爬虫将自动运行在DANA平台服务器上,爬取速度更快,效率更高。

示意图

Crab引擎支持多种数据库源的抽取,常见的oracle, mysql, sqlserver, postgres, db2, sybase都能很好的支持, 目标存储同样支持所有数据库类型,还支持Phoenix消息引擎、Eagles引擎、Teryx数据库等目标。抽取任务调度使用Dodo任务调度系统配合使用。

示意图

Crab引擎通过Phoenix消息中间件引擎,封装实现了Kafka标准协议 & RESTFul API 接口形式的实时数据汇聚通道,Phoenix作为传输中介队列,满足 100w+/s 的高吞吐需求。