查看“︁物体识别”︁的源代码
←
物体识别
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''物体识别'''({{lang-en|Object detection}}),又译做“物体检测”、“目标检测”,是[[计算机视觉]]及[[影像處理]]中的術語,指的是让[[计算机]]去分析一张图片或者一段影片中的物体,并标记出来,这需要给[[人工神经网络|神经网络]]大量的物体数据去训练它,这样才能进行识别。目前[[人脸检测|人臉檢測]]是物體識別領域中被廣泛研究的題目之一。 == 應用 == 物體識別在計算機視覺任務中被廣泛應用,有許多基於物體識別之下游任務,如[[图像自动标注|圖像自動標註]]、[[物體計數]]<ref>[https://paperswithcode.com/task/object-counting ] {{Wayback|url=https://paperswithcode.com/task/object-counting |date=20230620135944 }}</ref>、[[人脸识别|人臉識別]]。物體識別亦可應用於物件追蹤,例如:追蹤球類比賽中的球與追蹤影片中的人物。 === 球類追蹤 === 由於[[羽毛球|羽球]]或[[网球|網球]]體積小且瞬間移動速度快,因此是球類追蹤中較難精確實現的任務之。 ==== TrackNet <ref name="TrackNet1" /><ref name="TrackNet2" /> ==== 為了解決上述問題,TrackNet利用[[深度学习|深度神經網路]]追蹤球體在影像中的軌跡,並且可以克服球體影響模糊、面積小、且在部分影片幀中消失之問題。TrackNet使用了基於[[熱圖|熱點圖]]的[[卷积神经网络|卷積神經網路]]<ref>{{Cite journal |last=Belagiannis |first=Vasileios |last2=Zisserman |first2=Andrew |date=2017-05 |title=Recurrent Human Pose Estimation |url=http://dx.doi.org/10.1109/fg.2017.64 |journal=2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) |publisher=IEEE |doi=10.1109/fg.2017.64}}</ref><ref>{{Cite journal |last=Pfister |first=Tomas |last2=Charles |first2=James |last3=Zisserman |first3=Andrew |date=2015-12 |title=Flowing ConvNets for Human Pose Estimation in Videos |url=http://dx.doi.org/10.1109/iccv.2015.222 |journal=2015 IEEE International Conference on Computer Vision (ICCV) |publisher=IEEE |doi=10.1109/iccv.2015.222}}</ref>,並利用產生的熱點圖來表示球體所在位置的[[概率分布|機率分佈]]。由於TrackNet試圖克服上述「部分影片幀中消失」的問題,模型的輸入為相鄰的三個幀,輸出則為中間幀的結果。其輸出可以表示為<math>P(i,j,k)</math>,代表在座標<math>(i,j)</math>與深度<math>k</math>的位置上的機率,最終輸出為<math>h(i,j)=argmax_kP(i,j,k)</math>,即是使用各座標上機率最高的深度作為輸出。 在訓練神經網路方面,為了學習球體位置的機率分佈,TrackNet使用[[正态分布|高斯分佈]]來建模球體在真實位置<math>(x_0,y_0)</math>的熱點圖,表示如下: <math>G(x, y)=\lfloor(\frac{1}{2\pi\sigma^2}e^{-\frac{(x-x_0)^2+(y-y_0)^2}{2\sigma^2}})(2\pi\sigma^2\centerdot 255)\rfloor</math> [[损失函数|損失函數]]則是使用[[交叉熵]],定義為: <math>H_Q(P)=-\sum_{i,j,k}Q(i,j,k)logP(i,j,k)</math>,其中<math>Q(i,j,k) = \begin{cases} 1, & \text{if } G(i,j)=k \\ 0, & \text{otherwise.} \end{cases}</math> == 方法 == 近代常見的物體識別方法多為基於[[深度学习|深度]][[人工神经网络|神經網路模型]]之方法,核心概念為利用神經網路模型抽取影像之特徵圖,並以此識別出物體類別與位置。 === End-to-End Object Detection with Transformers <ref name="End-to-End" /> === 在這個方法中,作者提出一個神經網路模型DETR,旨在將物件偵測任務視為一個集合預測任務,並在訓練時將神經網路模型預測的集合與正確結果集合間進行[[二分图|二分圖]][[匹配 (图论)|匹配]]。 為了能夠產生出一個集合,DETR,借鑒了[[自然语言处理|自然語言處理]]領域的[[Seq2Seq模型|Seq2Seq]]概念,並首次在物件偵測領域引入了[[Transformer模型]],在此方法中同時使用到Transformer編碼器與解碼器,其中在解碼器部分,DETR進行了修改,提出了對象查詢(object queries)的概念,使得模型可以自己學習需要偵測的對象的特徵。 由於這是物件偵測領域首次使用了這種簡化的集合預測方法,因此具有其重要性,並引領後續集合預測方法的蓬勃發展。 == 參考資料 == {{Reflist|refs= <ref name="TrackNet1">{{Cite journal |last=Huang |first=Yu-Chuan |last2=Liao |first2=I-No |last3=Chen |first3=Ching-Hsuan |last4=Ik |first4=Tsi-Ui |last5=Peng |first5=Wen-Chih |date=2019-09 |title=TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications |url=http://dx.doi.org/10.1109/avss.2019.8909871 |journal=2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) |publisher=IEEE |doi=10.1109/avss.2019.8909871}}</ref> <ref name="TrackNet2">{{Cite web|title=TrackNet|url=https://nol.cs.nctu.edu.tw/ndo3je6av9/|access-date=2023-06-20|website=nol.cs.nctu.edu.tw|archive-date=2023-01-13|archive-url=https://web.archive.org/web/20230113194558/http://nol.cs.nctu.edu.tw/ndo3je6av9/|dead-url=no}}</ref> <ref name="End-to-End">{{Cite book|chapter=End-to-End Object Detection with Transformers|title=Computer Vision – ECCV 2020|url=http://dx.doi.org/10.1007/978-3-030-58452-8_13|publisher=Springer International Publishing|date=2020|location=Cham|isbn=978-3-030-58451-1|pages=213–229|first=Nicolas|last=Carion|first2=Francisco|last2=Massa|first3=Gabriel|last3=Synnaeve|first4=Nicolas|last4=Usunier|first5=Alexander|last5=Kirillov|first6=Sergey|last6=Zagoruyko}}</ref> }} {{Compsci-stub}} [[Category:计算机视觉应用]]
该页面使用的模板:
Template:Cite journal
(
查看源代码
)
Template:Compsci-stub
(
查看源代码
)
Template:Lang-en
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Wayback
(
查看源代码
)
返回
物体识别
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息