分类 Tech Insight 下的文章

Salesforce inline editing需要满足的条件

作者: lushang
时间: 2015-11-10
分类: 默认分类,Hack
评论

Salesforce inline editing是非常方便的功能，可以提供方便的在视图中编辑和保存字段的功能。

但是好东西不是十全十美的，它有些限制：
Guidelines for Editing Records with the Inline Editor

而对于列表视图（lists），有下面限制：

某些标准字段并不支持，比如：Case Status, Opportunity Stage, Opportunity Amount, Opportunity Quantity and Lead Status, and most Task and Event fields只能在记录编辑页面编辑.
如果org使用了记录类型，则必须保证视图里面的列出的记录全部属于同一个记录类型。换而言之，必须使用记录类型作为筛选条件，同时最多选择一个类型或者留空（对于主记录类型）
在筛选条件的逻辑里面，不能包含或（OR）从句（clause)
对于活动（Activities）则必须有额外的筛选，指定任务（Task）为真（True）或者为假（False）

更多信息，可以参考Salesforce英文说明：Editing Records Directly From Enhanced Lists

Matlab 与 Excel 混合编程

作者: lushang
时间: 2015-08-02
分类: Data,Coding
评论

Matlab与Excel混合编程其实早在2010年科学网左正伟博客就有一篇文章总结了，到现在（2015年）也不为过时。这里在简要引用一下，作者终结了四种（当时）主流的实现方式：

利用Excel Link（最常用方法），具体参见Matlab帮助或Excel Link手册。
利用Excel生成器(Matlab作COM服务器)
利用Active X控制(Matlab作COM客户端)
文件导入方法(利用xlsread和xlswrite函数读写Excel文件)

路上这篇文章主要介绍最后一种方法，即利用xlsread和xlswrite函数去读写Excel文件，再用Matlab进行数据处理的思路。因为路上的需求非常简单（粗暴）：统计一堆按照某种格式制作的Excel文件（工作簿）中每个工作表（工作表/Worksheet）中指定位置的内容，并返回统计结构。
Matlab去满足这两种需求也很简单：利用xlsread读取内容，处理后，利用xlswrite写入预定格式的Excel文件中。其中xlsread用的函数调用方法为：

[num,txt,raw] = xlsread(filename,sheet,xlRange)

而xlswrite的调用方法为：

xlswrite(filename,A,sheet,xlRange)

同时我们使用

[satus,sheets] = xlsfinfo(filename)

得到每个工作表（worksheet）的名称，同时我们也可以通过numel(sheets)获得工作表数量信息。而为了去自动读取所有的Excel文件，我们将所有要处理的文件放在一个文件夹下，然后利用 file = dir('./*.xlsx') 命令将所有Excel文件存入一个结构数组中。

思路（步骤）总结

利用 dir 函数读取所有要处理的Excel文件信息
利用xlsfinfo函数获得Exce文件中的工作表（worksheet）信息（名称、数量等）
利用xlsread函数读取Excel文件中指定工作表（worksheet）指定位置数据
Matlab 编程处理数据
利用xlswrite 函数将相关数据以存入预定格式的 Excel 文件中

Discuz！3.2 邮箱32位限制的解除方法

作者: lushang
时间: 2015-07-28
分类: 网站后端,Hack
评论

Discuz！是非常知名的论坛和门户建站平台。但是其对电子邮箱有32位的限制，任何超过32位的邮箱都会被判断为无效邮箱。但是，实际上现在会有一些邮箱会超过这一限制，因此本着对所有用户负责人的态度，解除这一限制就成了当务之急。

经过粗略的研究Discuz！的form有效性验证是form内容提交到网站后，后台（php语言部分）进行验证，再将结果通过Ajax（注册时采用）或者召唤相应页面（注册后手动修改邮箱时采用）的方式返回到网页前端。同时，通过对3.2版本的Discuz！数据库研究发现，其默认的邮箱字段长度位255为可变字符（varchar）。因此，只要我们修改后台相应的php验证模块，我们可以实现最长255位的邮箱支持。不过实际上很难有人注册这种邮箱，我们的目标是为正常人类服务，因此将邮箱长度设置为64位.下面是步骤，就两步：

修改注册流程的后台php验证代码：
修改\discuz\source\function\function_core.php第370行函数「isemail」中最大长度32为64
修改手动修改邮箱流程的后台php验证代码：
修改\discuz\source\function\function_member.php第285行函数「checkemail($email)」中「strlen($email) > 32」为「strlen($email) > 64」.

使用 Python 轻松抓取网页

作者: lushang
时间: 2015-05-29
分类: Data,Coding
评论

注：文章基于python3，路上通过这篇文章中的内容，写了20多行代码，实现定时抓取某网页某几个数据的目标

准备工作

要使用python抓取网页，可以使用两个包：requests用于下载网页，而BeautifulSoup则对网页进行结构化解析。如果你在电脑上安装了pip，则可以使用下面的命令下载安装这两个包：

pip install requests beautifulsoup4

或者按照引用文章1将两个包安装到虚拟环境。
（实际上路上通过分析发现，在路上的需求里，第二个包没有用到。。）

抓取网页

抓取网页及其简单，假如我要抓取「https://pip.pypa.io/en/stable/」这个网页，则使用：

import requests
response = requests.get(‘https://pip.pypa.io/en/stable/')

在函数返回后，就能从response.text中获得这个页面的文本数据（html或者其他文本）。

抓取数据后，使用BeautifulSoup对文本数据处理，便会得结构化的HTML，然后就可以利用BeautifulSoup强大的HTML处理能力抓取相关内容了。但是路上经过分析发现需要抓取的内容位于某xx.js文件内，是json变量。所以BeautifulSoup没能使用的上。。

使用python处理JSON内容

python原生支持JSON，使用json.loads(JSONdata)将JSON转换为xml，然后使用xml相关技术得到相关数据。具体步骤略去。
python处理JSON可以参见这篇文章。

数据科学（Data Science）之路

作者: lushang
时间: 2015-04-03
分类: Data,ML,Tech Insight
评论

数据科学是一门跨学科的专业，在「大数据」的背景（噱头）下，看起来很有前途

根据Drew Conway给出的数据科学的一个文氏图，可以看出数据科学是Hacking Skills, Math & Statistics Knowledge 以及Substantive Expertise的大交集。

  ![Data_Science_VD.png][2]

要学习数据科学，路上认为可以从上面的文氏图来推算应该的学习内容，它们应该包括：

Hacking Skills （计算机知识）
- 基本的编程语言和与数据处理相关的包/框架，例如python语言
- 数据处理框架，比如处理大数据的利器：Hadoop
Math & Statistics Knowledge （数理统计知识）
- 统计学（概率统计）
- （机器）学习理论
数据科学综合知识
- 数据挖掘等