ITdaan
首页
最新
原创
最火
收藏夹
写博客
关于
搜索答案
花费 22ms 找到38条记录
21
使用Google guava实现本地缓存+netty对外提供服务
2018年03月28 -
在某些情况下我们需要使用本地缓存来加载一些小型数据,比如说一些配置数据。如果去查Mysql或者redis数据库需要走网络协议。这些数据可以加载到内存随时供Java程序调用。 接下来实现的是使用google的guava实现本地缓存,另外需要提供给其它服务使用的话,还可以使用netty对外发布服务
22
linux下Mysql导出数据到文件的方法
2018年03月21 -
linux下Mysql导出数据到文件的方法 ```sql mysql -h host -u user -P port -p -e 'select xxx from xxx where xx = x' < /xxx/xxx/xxx/sss.txt ``` 导出到文件,如果有多个字段的话,可以使用con
23
数据库表设计和存储(包括hbase,solr等)
2018年03月13 -
### 一、Hbase内容主表结构和操作 #### 1.1 hbase表[post]创建代码 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1},{NAME=>'b',VERSIONS=>1},{SPLITS=>['01','02','03'
24
网页爬虫富文本内容判重及余弦相似度判定
2018年03月12 -
我们知道很多文章爬取下来有可能是转载的,很多用户只是在文章开头和结尾加上原文的出处,这样的内容会存在很多重复的文章。 按理来说,文章与文章之间的相似度比较可以使用余弦定理来判断,但是爬虫,不可能将爬取到每一篇文章都在库中进行一次相似度比较。这就需要我们找到与库中有相同特点的文章再使用定理进行判
25
hbase映射表map类型过滤数据的问题
2018年03月08 -
#### hbase映射表map类型过滤数据的问题 在试用hbase的映射表过程中,如果是映射了一个列族作为一个map类型,假如名称就叫:tags。在hbase中的数据格式大概为: ```json {"123":"1","234":"1","345":"1"} # 123,234,345 是列名 1
26
线性回归小结(转)
2018年03月02 -
线性回归小结 线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。 1. 线性回归的模型函数和损失函数 线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下: 我们的问题是,对于一个新的(), 他所
27
Spark Standalone Cluster模式安装和配置
2018年03月02 -
### 1、手动启动一个spark集群 启动standalone的master节点 ```shell ./sbin/start-master.sh ``` 一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的m
28
机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
2018年03月02 -
Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点; ②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。 ### 一、接下来使用Numpy实现python代码,测试
29
Kafka原理深入解析
2018年03月02 -
# Kafka详解 ## 一、Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: - 以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能 - 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条
30
Hive使用UDAF自定义聚合函数
2018年02月28 -
在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group_concat([DISTINCT] 要连接的字段 Order BY ASC/DESC 排序字段 Separator '分隔符' hive只有一个collect_set内置
上一页
1
2
3
4
5
6
7
8
9
10
下一页
分类标签
38
全部
4
hive
2
使用
3
scala
2
centos7
3
redis
3
oop
2
UDAF
2
机器学习
2
spark
2
平台
2
安装
3
实现
2
hadoop
2
存储
7
hbase
3
搭建
2
大数
2
svn
2
爬虫
7
数据
2
代码
2
kafka
2
服务
2
大数据
2
类型
© 2014-2019 ITdaan.com
粤ICP备14056181号
×
收藏本文
添加到收藏夹 *