【标签：数据挖掘】 - 第1页

2013年01月06 - 关联基本定义关联规则：形如 X -> Y的蕴涵表达式，其中X和Y是不相交的项集。关联规则的强度可以用支持度和置信度度量支持度：确定规则可以用于给定数据集的频繁程度，用s表示 s=(x并y的长度)/数据集的长度置信度：确定Y在包含X的事物中出现的频繁程度。用c表示 c=(x并Y的长度)/(X

2 怎样才能知道自己最想读的方向呢,谢谢

2008年08月29 - 怎样才能知道自己最想读的方向呢?我想只读完研究生就工作。我感觉自己对很多方向感兴趣,人工智能,搜索技术,数据挖掘,编译器,信息安全等,对这些东西都只是学了一些基本的东西,没有学很深,现在想保研了,不知道该选择哪个方向,不知道选了以后会不会后悔. 考虑了一个多月

3 随机梯度下降和批量梯度下降的原理和区别

2016年07月15 - 在默认读者已经有一定的数学基础和算法基础的前提下，废话少说，直接上干货。1，Batch gradient descent最外层的Repeat until convergence，就是可以设置收敛条件的。下面一点代码来解释这个公式：这里设置循环100000代，在这里默认程序跑到100000代就收敛了，

4 数据挖掘---分类算法之SOFM算法

2016年10月04 - 生物学研究表明，在人脑感觉通道上，神经元的组织原理是有序排列的，输入模式接近，对应的兴奋神经元也相近。大脑皮层中神经元这种相应特点不是先天形成的，而是后天的学习自组织形成的。对于某一图形或某一频率的特定兴奋过程是自组织特征映射网中竞争机制的生物学基础。神经元的有

5 使用Gensim建立bow TFIDF LSI模型对文本相似度计算

2016年11月26 - 使用Gensim建立bow TFIDF LSI模型对文本相似度计算Gensim是一个Python的自然语言处理库，能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式，以便进行进一步的处理。此外，gensim还实现了word2vec功能，能够将单词转化为词向量。1.基本

6 数据挖掘导论学习笔记之分类基本概念、决策树与模型评估

2015年10月11 - 分类分类任务的输入数据是记录的集合，每条记录也称实例或样例，用元组(x,y)来表示，其中x是属性的集合，而y是一个特殊的属性，指出样例的类标号。类标号在分类中是离散属性，回归确是一种预测建模任务，其中目标属性y是连续的。概念分类任务就是通过学习得到一个目标函数f，把每个属性集x映射到一个预先定义

7 关于数据挖掘推荐系统实现

2012年05月04 - 不想知道的内容，烦不烦啊，我只好将你阻止掉。每一个观众只想看他感兴趣的东西，而不是一下与之无关的事物，那么如何才能知道观众的兴趣所在呢，还是数据挖掘，经过一番思考，终于有点思路，即根据用户以往的浏览历史来预测用户将来的行为，也就是基于内容的推荐。基于内容的推荐（Content-based

8 将现有的SQL工作负载迁移至hadoop竟然如此简单！

2016年08月25 - 想迁移现有的数据仓库到Hadoop平台？想在Hadoop上重用其他RDMBS的SQL技能？有何方案能帮助您解决这类问题，答案是IBM Big SQL。 Big SQL是IBM的SQL on Hadoop解决方案，它充分利用了IBM在RDBMS领域数十年的经验，是业界最成熟、最完善，性能最好

9 数据挖掘：概念与技术（第三版）之第七章的学习记录

2017年07月14 - 一下，到底什么是模式？模式就是数据中蕴含的规律或规律性的东西。我们知道KDD分为描述性和预测性，挖掘出一个模式（模型？）是数据挖掘的一个目标，而模式经过评估和和表示后就是知识。回想一下上一章的频繁模式挖掘，我们主要想挖出的就是频繁项集，频繁序列，频繁结构，强规则这一类的东西。这些东西其实就是模式

10 数据挖掘导论第2章数据类型

2017年12月12 - ）可以忽略或汇总成在一个商店销售的所有商品的集合。 2、抽样抽样是一种选择数据对象子集进行分析的常用方法。数据挖掘使用抽样是因为处理所有的数据的费用太高、太费时间。在某些情况下，使用抽样的算法可以压缩数据量，以便可以使用更好但开销较大的数据挖掘算法。 3、维归约术语“维归约”通常用于这样的技术

分类标签

6601 全部 545 分析 237 数据仓库 1654 算法 570 数据分析 345 笔记 193 java 1358 机器学习 181 学习笔记 352 实现 337 数据库 176 工作 6601 数据挖掘 277 应用 686 python 269 语言 265 大数 253 技术 271 网络 227 决策树 741 学习 288 聚类 3864 数据 291 r语言 488 大数据 374 分类