`
kofsky
  • 浏览: 197355 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

样本库再次修改

阅读更多

2006.11.6     168个样本,提取27个特征
2006.11.10   样本数604;
                       增加灰度共生矩阵特征及形态学特征
                      使用逐步求精的思路来搜索最优的弱分类器

2006.11.22  样本增加至3600多个
                      修改灰度共生矩阵提取特征的方向
                      增加灰度差分统计特征
                      加入gabor特征
2006.12.5  样本库修正
                        1003个手工切割的病斑样本,425个从程序中获取的较大的非病斑样本

2007.3月左右
            这是到目前为止实现的最稳定的样本库。
            1000个手工剪切的正样本,1000个负样本,其中手工剪切500个左右,程序剪切500个左右
            从2007.3月至2007.9月的所有实验均是基于这个样本库
            所做过的正规实验包括八种特征提取方法、七种特征选择方式、HMax模型以及ColorHMax模型、三种识别方案等等
          张师姐发表的四五篇论文,已经自己的论文的实验数据,均是基于这个样本库

2007.10
            样本库再次扩充
            正样本没有改变,只是对负样本库进行扩充。
          病斑负样本通过三个方式获得:从289幅柑橘叶片上用程序截取非病斑区域(叶片边缘与叶片区域)共计约3000余个;从柑橘叶片图像上手工剪切不同颜色的背景区域约600个;从互联网上用爬虫程序搜索获得2600幅大小为140X140的叶片图像。三种方式获得的负样本数量共计6150枚。在1000枚病斑正样本上截取10X10窗口10个,共计10000个窗口级的正样本;在每个病斑负样本上截取10X10窗口10个,共计60000余个窗口级的负样本。

2007.11.27日起弃用该样本库
原因在于:
1、负样本过于复杂
   从web上搜索获得的图片其特征多样、形式多样,导致负样本库本身差异非常大
   将近7万个样本训练一个500轮的分类器,训练错误率仍然在5%以上

2、实验耗时非常巨大
   将近7万个样本训练一个500轮的分类器,耗时36小时以上,这是无法仍受的

3、重复样本数量巨大
   尤其是负样本,存在大量相似的样本。

基于以上三个原因,我们在11.27以后对负样本库进行了精简

将从web上表现差异非常大的负样本删除
将从叶片上通过程序剪切获取的相似负样本大量删除

精简后,病斑负样本由6000减至2000
窗口负样本由60000以上减少至10000左右

 
 

分享到:
评论

相关推荐

    欧拉公式求圆周率的matlab代码-bb_mpu9150:将InvensenseMPU-9150数据发布到主题中的BeagleBoneROS软

    默认值(这些值应在local_defaults.h处更改,然后代码应再次交叉编译): 默认的I2C总线:1(Beaglebone的i2c-2)。 默认采样率:10 Hz 默认偏航混合系数:4 #####已发布的主题imu_euler(std_msgs :: String)

    OriginalDesign:AP计算机科学课程。美国旧金山Lowell高中的Simon先生的APCSA课程编程任务。

    建议完成此作业的步骤首先登录GitHub并分叉存储库,就像您进行再次克隆存储库,就像您对“所做的一样启动Sublime程序,然后选择File | File。 打开文件夹,然后浏览并打开OriginalDesign文件夹。 修改index.html以...

    laravel-apidocs:Laravel API文档生成工具

    添加johnylemon/laravel-apidocs存储库 composer require johnylemon/laravel-apidocs 如果未自动注册,请注册Johnylemon\Apidocs\Providers\ApidocsServiceProvider提供程序。 安装软件包。 此命

    sparksql-model-solr-poc:POC在Solr中存储机器学习模型

    此POC试图在Solr中读取,解析并存储实木复合地板模型,然后再次读取以进行预测。 Spark SQL已经提供了将镶木地板文件转换为DataFrame的机制。 特征: 将Spark数据帧发送到Solr 将数据帧从Solr读回Spark 先决条件: ...

    multiCCL_f

    基本信息: 哪种杀毒软件的XXX文件定位(病毒库版本XXXX) ;1 样本文件大小: ;2 总共定位出特征码片段的数量: ;3 总共需要杀毒软件扫描几次: ;4 定位总用时: ;5 定位结果评价: 基本可用/有较大偏差/很不可靠 ;-------...

    软件病毒特征码定位软件multiCCL

    基本信息: 哪种杀毒软件的XXX文件定位(病毒库版本XXXX) ;1 样本文件大小: ;2 总共定位出特征码片段的数量: ;3 总共需要杀毒软件扫描几次: ;4 定位总用时: ;5 定位结果评价: 基本可用/有较大偏差/很不可靠 ;-------...

    McAfee 8.0 简体中文

    产品版本号已经从 7.1 更改为 8.0,这一更改反映了自上次发布以来产 品内部功能的重大更改。 有关详细信息,请参阅以下"新功能"和"更改 的功能"部分。 产品版本号增加"i"表示 McAfee VirusScan Enterprise...

    如何查杀运行状态下的EXE、DLL病毒

     3)备份染毒文件并隔离,然后把病毒样本寄给作者,得到新病毒库后再杀毒。 电脑中毒后的6招处理方法 现在虽然有众多的杀毒软件和防火墙供大家作为电脑的保护,但新病毒和木马,加上黑客人工的入侵方式,电脑...

    spring security 参考手册中文版

    Gradle存储库 23 使用Spring 4.0.x和Gradle 24 2.4.3项目模块 25 核心 - spring-security-core.jar 25 远程处理 - spring-security-remoting.jar 25 Web - spring-security-web.jar 25 配置 - spring-security-...

    DBX260中文说明书

    DBX260中文说明书,DBX260的使用(一) 1.1 后面板连接(260) IEC电源线插座 260采用电压范围为100V-240V,频率为50-60Hz的国际性电源来供电,它使用的是IEC电缆线。 MIDI输入,MIDI输出和转接接口 ...

Global site tag (gtag.js) - Google Analytics