深蘭科技摘得“圖表信息提取競賽”總成績的冠軍
在日前結束的第25屆國際模式識別會議(ICPR2020)上,深蘭科技DeepBlueAI團隊同臺競技聯想、華南理工、合合等隊伍,摘得“圖表信息提取競賽”總成績的冠軍。
該競賽由6個賽道7個子任務組成,其中賽道6有兩個子任務,每個子任務又分Adobe Synth、UB PMC兩個數據集。7個子任務按照數據集單獨計分,最終按照總分進行排名。最終,DeepBlueAI團隊拿下4個賽道冠軍,以總分35分拿到總成績第一名。
ICPR2020圖表信息提取
競賽冠軍方案
該比賽各任務涵蓋圖表分類、案例分析、圖元素提取等,數據類別存在著分布極為不均衡的問題。
7個賽道分別為:賽道一,圖表分類;賽道二,檢測并識別圖表中的文字區域;賽道三,識別圖表圖像中文本功能/角色;賽道四,對坐標軸上刻度點進行檢測并與刻度標簽文本框關聯;賽道五,關聯圖例標簽文本與圖例樣式元素;賽道六,第一個子任務對圖表元素進行檢測與分類,第二個子任務提取用于生成圖表圖像的原始數據。
下面對比較有競爭力的三、四、五、六賽道的解決方案進行技術分享。
賽道三
賽道三以文本位置和文本內容為輸入,識別圖表圖像中每個文本的角色,6個類別如圖所示。我們的方法包括兩個步驟:特征提取和分類器分類。使用文本屬性來定義特征向量,使用的分類器是Random Forest [1]和LightGBM [2]。
特征由文本框屬性和文本內容組成,這些特征可分為三組。第一組包含框的長寬比、文本是否為數字、文本是否為多行、文本角度、文本長度和圖表類型。第二組包括文本框的三種相對位置信息,也就是相對于全局邊框、原點和圖例的位置。第三組包含水平/垂直對齊文本框的數量和對齊文本框的水平/垂直范圍,判斷框是否對齊時,分別使用文本框的中心點、左上角和右下角。
使用隨機森林和LightGBM對文本角色進行分類。隨機森林的一個優點是在缺少特征的情況下仍然具有良好的性能,LightGBM具有訓練效率高、精度高等優點。在訓練模型時,每個類別的損失權重與輸入數據的頻率成反比。

最新活動更多
-
即日-3.1立即查看>> 【特別專題】2020年人工智能行業年終盤點
-
即日-3.18限時下載>> 嵌入式軟件技術革新應對后疫情時代的智能工業開發挑戰
-
3月24日立即報名>> 【在線研討會】精準觸達,高效轉化——高科技軟件行業數字營銷“進化論”
-
3月25日立即報名>> 【2021系列活動】-汽車電子技術在線會議暨在線展
-
3月30日立即報名>> 【在線研討會】歐司朗汽車智能駕艙傳感
-
4日7日預先登記>> OFweek 2021(第十屆)中國機器人產業大會暨年度評選頒獎典禮
-
10 大數據,除了大還有什么?
- 數據產品經理(人工智能) 中金智匯科技有限責任公司
- 高級銷售代表(人工智能+互聯網+高提成) 廣州聚焦網絡技術有限公司
- 銷售經理(人工智能/智慧+行業區域銷售經理) 上海海量電子有限公司
- 人工智能銷售經理 桂林海威科技股份有限公司
- 人工智能圖像算法工程師 上海昕健醫療技術有限公司
- 人工智能算法工程師 嘉興朝云帆生物科技有限公司
- 人工智能開發經理 廣州天鵬計算機科技有限公司
- 人工智能/醫學圖像算法(ECG心電圖方向) 杭州脈流科技有限公司
- 算法及人工智能開發工程師 北京世紀互聯寬帶數據中心有限公司
- 人工智能產品測試工程師 蘇州嘉諾環境工程有限公司
- 嵌入式軟件工程師(ARM) 山東省/濰坊市
- 光學工程師 山東省/濰坊市
- 華東銷售經理 江蘇省/蘇州市
- 高級采購 北京市/海淀區
- 海外銷售工程師 北京市/海淀區
- 海外銷售經理 北京市/海淀區
- 銷售工程師 北京市/海淀區
- SEO搜索引擎優化專員 北京市/海淀區
- DQE經理 廣東省/深圳市
- 業務員 廣東省/深圳市
發表評論
請輸入評論內容...
請輸入評論/評論長度6~500個字
暫無評論
暫無評論