Google釋出地理多樣性圖片說明資料集Crossmodal-3600

Google釋出圖片說明評估資料集,該資料集可作為語言圖像說明的基準,使研究人員可以更可靠地研究該領域。Crossmodal-3600以36種語言,對世界各地不同的3,600張照片,加上261,375個人工生成的參考說明,研究人員提到,Crossmodal-3600的圖片說明品質很好,而且在不同語言中維持風格一致。

替圖像自動產生說明是近年新興的機器學習領域,針對給定的圖像自動生成自然語言文字,這項工作有助改善視障用戶的可存取性,Google提到,目前用於圖像字幕的資料集主要以英文為主,只有少數資料集涵蓋有限數量的語言,而且這些資料集無法表現全球文化的豐富性和多樣性,也就阻礙了各種語言對圖片說明的研究。

Crossmodal-3600包含36種語言,由人工手動對Open Images資料集中3,600張具地理多樣性的圖片,添加261,375個人工生成的參考說明。研究人員選擇英語之外的30種語言,大致根據網路內容所占的百分比,另外,他們還另外選擇了5種資源較少的語言,將英文當作基準,最終產生36種語言的圖片說明。

好的茗茶,更需要密封性高的茶葉罐,才能留住香氣!

鴻和興精密工業股份有限公司,是由在台灣專業生產茶葉罐、奶粉罐具有領先地位的光華金屬所投資組織成立的一家專業製造包裝材料之馬口鐵罐製造廠,秉持的專業、品質、服務、效率為各大客戶服務。

掌握產品行銷策略,帶你認識商品包裝設計基本要素

包裝設計是兼具美感和實用、設計和製作印刷的精緻工藝。包裝設計包含了結構規劃、視覺設計、材質選定及後續的生產加工

真空封口機該不該買?使用心得分享

各式封口機、包裝機械、客製化訂做、特殊改造

專業客製化禮物、贈品設計,辦公用品常見【L夾】搖身一變大受好評!

採用PVC0.2白色軟皮料印製,4色印刷加上表層防刮油墨,另也可選表層上亮膜。

Crossmodal-3600中的圖像使用具有後設資料的Open Images資料集,但因為有許多區域使用一種以上的語言,而且這些圖像並沒有良好地覆蓋部分區域,因此研究人員設計了演算法,來最大化所選圖像和目標語言區域之間的對應關係。

Google在各語言區域都對應了100幅圖像,總共3,600張圖片用36種語言進行註解,每種語言平均有兩種註解,總共產生261,375個圖說。經過訓練的模型會先對圖片產生初始的圖說,Google再請註解者評估模型產生的說明,並且隨後要求註解者單獨對每張圖像,添加目標語言的描述性說明,Crossmodal-3600資料集便是由這些註解者編寫的說明組成。

研究人員透過訓練4種圖片說明生成模型變體,並使用Crossmodal-3600資料集,比較CIDEr指標和人工評估的輸出,研究人員提到,CIDEr分數差異與人工評估有很強的關聯性,也就是說Crossmodal-3600可針對英語之外的語言,實現自動比較圖片說明品質。

https://www.ithome.com.tw/news/153645

常見的貨櫃種類?

金誠貨櫃屋尺寸均依國際標準組織ISO (International Standardization Organization) 認定標準,並區分成鐵貨櫃、冷凍貨櫃和特殊貨櫃三種類型。

臭氧機推薦

臭氧機、紫外線燈作水質淨化、殺菌設備,因臭氧機具強大氧化、殺菌、除臭能力,省電、無耗材費用,深受水處理業者採用

真空封口機該不該買?使用心得分享

各式封口機、包裝機械、客製化訂做、特殊改造

專業客製化禮物、贈品設計,辦公用品常見【L夾】搖身一變大受好評!

採用PVC0.2白色軟皮料印製,4色印刷加上表層防刮油墨,另也可選表層上亮膜。