江蘇師范大學董永權獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江蘇師范大學申請的專利一種基于屬性融合的多真值發現方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114881099B 。
龍圖騰網通過國家知識產權局官網在2025-08-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210223818.4,技術領域涉及:G06F18/2415;該發明授權一種基于屬性融合的多真值發現方法是由董永權;楊昊霖;張功杰設計研發完成,并于2022-03-07向國家知識產權局提交的專利申請。
本一種基于屬性融合的多真值發現方法在說明書摘要公布了:本發明公開了一種基于屬性融合的多真值發現方法,是無監督的多真值發現方法,考慮輔助屬性對多真值發現的影響,將輔助屬性得到的數據源專業度、共識度和多真值屬性值的活躍度融合得到數據源對屬性值的支持度,將多真值發現問題轉化為分類問題,使用神經網絡自動學習數據源與屬性值之間的底層數據特征,從而最終預測出多個真值,能夠提升多真值發現方法在數據集成領域實驗結果的準確性,面對多源嘈雜、沖突的數據環境時能夠自動識別、判斷、推理出完整的真值或接近真值的數據,從而輔助使用者進行決策,提高決策效率和質量。
本發明授權一種基于屬性融合的多真值發現方法在權利要求書中公布了:1.一種基于屬性融合的多真值發現方法,其特征在于,具體包括以下步驟: 步驟1:利用離散輔助屬性計算數據源專業度; 步驟1-1:統計數據集中數據源si提供的屬于集合的對象數量,其中,表示數據源si關于對象o在離散輔助屬性D上提供的值集,Nd,si表示數據源si提供的屬于種類d的對象數量; 步驟1-2:統計數據集中屬于集合的對象數量,其中,Nd表示數據集中所有數據源集合提供的屬于種類d的對象數量; 步驟1-3:計算數據源si在離散輔助屬性D上對象o所屬種類的貢獻率 步驟1-4:計算數據源si在離散輔助屬性D上關于對象o的專業度 步驟2:利用連續輔助屬性計算數據源共識度; 步驟2-1:根據數據源關于對象o在連續輔助屬性C提供的連續值計算對象o的自適應桶距To C; 步驟2-2:根據自適應桶距得到 共個等段區間,其中,表示數據源集合關于對象o在連續輔助屬性C上提供的值集,表示值集中的最大值,表示值集中的最小值,表示數據源si關于對象o在連續輔助屬性C上提供值集的長度,統計輔助屬性連續值所屬區間內值的數量,將個區間內值的數量從低到高依次記為 步驟2-3:計算數據源si在對象o上共識度 其中, 表示數據源si關于對象o在連續輔助屬性C上提供的連續值; 步驟3:利用多真值屬性計算多真值屬性值活躍度; 步驟3-1:對于多真值屬性值計算其活躍度γv, 其中,表示數據源si關于對象o提供的多真值屬性值集,表示關于對象o提供多真值屬性值v的所有數據源組成的集合,表示所有屬性值出現頻次和; 步驟4:使用迭代方法獲取真值偽標簽和數據源初始可靠度; 步驟4-1:將數據源si關于對象o在多真值屬性上提供的值集中的值作為數據源si提供的一條聯合值; 步驟4-2:按照步驟4-1的處理調用單真值發現方法計算數據源提供的聯合值成為真值的概率和數據源初始可靠度τs; 步驟4-3:將關于對象o的成為真值概率最大的聯合值拆分成單值,并將這些單值作為真值,得到屬性值的偽標簽; 步驟5:將數據源的專業度、共識度與多真值屬性值的活躍度融合得到數據源對屬性值的支持度,計算數據源si對多真值屬性值v的支持度 步驟6:為每個屬性值構建源-值向量; 真值屬性值集中每個屬性值對應一個源-值向量,向量的長度對應所有數據源的數量向量每個位置的值是該位置對應數據源si對多真值屬性值v的支持度為多真值屬性值v構建源-值向量其中,表示所有數據源的集合; 步驟7:使用神經網絡捕獲數據源和屬性值的關系,預測屬性值成為真值的概率; 步驟7-1:使用三層神經網絡模型學習數據源和多真值屬性值之間的關系,第一層是包含125個結點的全連接層,第二層是包含65個結點的全連接層,前兩層使用ReLU函數作為激活函數,在第一層和第二層后使用dropout層,在第三層輸出層包含一個結點,使用sigmoid作為激活函數; 步驟7-2:訓練每層的權值矩陣,通過正向傳播得到模型的輸出,經過sigmoid函數得到每個多真值屬性值為真的概率,使用二分類交叉熵損失函數衡量預測值和真實值之間的誤差: 其中,N是樣本數量,yi是訓練集中的第i個樣本的標簽,pi是上述神經網絡模型第i個樣本的輸出; 每一層的權值矩陣和偏置矩陣沿著梯度下降,直至模型訓練完成、參數收斂; 步驟7-3:將數據按照訓練集:測試集=1:9的比例進行劃分,通過步驟4為訓練集獲得真值偽標簽,然后訓練模型直至參數收斂; 步驟8:通過與設定的閾值相比較得到屬性值的真實標簽,獲得對象的多個真值; 步驟8-1:將測試集向量輸入已完成訓練的模型,并輸出測試集中每個屬性值成為真值的概率; 步驟8-2:當屬性值的概率大于閾值K時判定該值為真,反之則判定該值為假,得到對象的多個真值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江蘇師范大學,其通訊地址為:221116 江蘇省徐州市銅山新區上海路101號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。