Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

A Prototype Crowdsourcing Approach for Document Summarization Service

575 views

Published on

Published in: Business
  • Be the first to comment

  • Be the first to like this

A Prototype Crowdsourcing Approach for Document Summarization Service

  1. 1. © Hajime Mizuyama A Prototype Crowdsourcing Approach for Document Summarization Service Hajime Mizuyama, Keishi Yamashita, Kenji Hitomi and Michiko Anse Dept. of Industrial and Systems Engineering Aoyama Gakuin University mizuyama@ise.aoyama.ac.jp APMS 2013 @ PSU 11/Sep./2013
  2. 2. © Hajime Mizuyama Research background Document summarization service Lengthy document Compact summary Raw material (Intellectual) good Document summarization service = Production system of an intellectual good
  3. 3. © Hajime Mizuyama Research background Indicative • to determine whether the user should read the original document or not. Informative • to give the user sufficient information to proceed without reading the original document. Extractive • identifies important sentences or phrases in the input document, and outputs a summary by simply connecting them. Abstractive • newly creates a sequence of condensed sentences so as to deliver whole relevant information in the original document. Purpose Method
  4. 4. © Hajime Mizuyama Problem-solving through crowdsourcing Problem Solution Sub problems Division Sub tasks
  5. 5. © Hajime Mizuyama Problem-solving through crowdsourcing Problem Solution Micro task market Partial solutions Integration
  6. 6. © Hajime Mizuyama Research objective • Establish a standardized approach for modernizing a production system of an intellectual good by introducing division of labor through crowdsourcing. • Develop and test a prototype crowdsourcing approach for informative document summarization service with abstractive method. Research objective Document summarization service Lengthy document Compact summary Raw material (Intellectual) good Document summarization service = Production system of an intellectual good Crowdsourcing approach = Division of labor for such system
  7. 7. © Hajime Mizuyama • Research background and objective • How to model a document summarization task • Crowdsourcing approach for the task • Laboratory experiment • Conclusions Agenda
  8. 8. © Hajime Mizuyama Evaluation units and condensation elements 大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地 球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響 を考慮して対策を立て実行され始めている。一方で、対策のコストが非常 に大きくなると見られており、その負担や政策的な優先度に関して国際的 な議論が行われている。 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上 平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は ±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無 い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が 観測されている。これに起因すると見られる、海水面(海面水位)の上昇や 気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて いる。 この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀 後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的 な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する 政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量 の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温 暖化の原因である確率は9割を超えると評価されている。このAR4の主要 な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の 作成が進められている。AR4によれば、地球温暖化の影響要因としては、 「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が 大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量 は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の 上昇は説明できないことが指摘されている。 An evaluation unit (= A section) Condensation element 1 (= 1st paragraph) Condensation element 2 (= 2nd paragraph) Condensation element 3 (= 3rd paragraph) U0: Set of condensation elements
  9. 9. © Hajime Mizuyama Creation of candidate condensed elements 大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地 球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響 を考慮して対策を立て実行され始めている。一方で、対策のコストが非常 に大きくなると見られており、その負担や政策的な優先度に関して国際的 な議論が行われている。 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上 平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は ±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無 い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が 観測されている。これに起因すると見られる、海水面(海面水位)の上昇や 気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて いる。 この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀 後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的 な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する 政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量 の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温 暖化の原因である確率は9割を超えると評価されている。このAR4の主要 な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の 作成が進められている。AR4によれば、地球温暖化の影響要因としては、 「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が 大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量 は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の 上昇は説明できないことが指摘されている。 An evaluation unit (= A section) U0: Set of condensation elements U1: Set of candidate condensed elements
  10. 10. © Hajime Mizuyama Constructing a summary 大気や海洋の平均温度の上昇に加えて、生態系の変化や海水面上昇に よる海岸線の浸食といった、気温上昇に伴う二次的な諸問題を含めて「地 球温暖化問題」と呼ばれる。温暖化が将来の人類や環境へ与える悪影響 を考慮して対策を立て実行され始めている。一方で、対策のコストが非常 に大きくなると見られており、その負担や政策的な優先度に関して国際的 な議論が行われている。 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上 平均気温」と呼ばれ、地球全体の気候の変化を表す指標として用いられ ており、19世紀から始まった科学的な気温の観測をもとに統計が取られて いる。地球の平均気温は1906年?2005年の100年間で0.74℃(誤差は ±0.18°C)上昇しており、長期的に上昇傾向にある事は「疑う余地が無 い」と評価されている。上昇のペースは20世紀後半以降、加速する傾向が 観測されている。これに起因すると見られる、海水面(海面水位)の上昇や 気象の変化が観測され、生態系や人類の活動への悪影響が懸念されて いる。 この地球温暖化は自然由来の要因と人為的な要因に分けられる。20世紀 後半の温暖化に関しては、人間の産業活動等に伴って排出された人為的 な温室効果ガスが主因と見られ、2007年2月に国連の気候変動に関する 政府間パネル(IPCC)が発行した第4次評価報告書(AR4)によって膨大な量 の学術的(科学的)知見が集約された結果、人為的な温室効果ガスが温 暖化の原因である確率は9割を超えると評価されている。このAR4の主要 な結論は変わっておらず、より多くのデータを加えた第5次評価報告書の 作成が進められている。AR4によれば、地球温暖化の影響要因としては、 「人為的な温室効果ガスの放出、なかでも二酸化炭素やメタンの影響が 大きい」とされる。その一方で太陽放射等の自然要因による変化の寄与量 は人為的な要因の数%程度でしかなく、自然要因だけでは現在の気温の 上昇は説明できないことが指摘されている。 An evaluation unit (= A section) U0: Set of condensation elements U1: Set of candidate condensed elements Sk: A summary
  11. 11. © Hajime Mizuyama Objective functions • F1 (Sk): Time to comprehend summary Sk  to be minimized • F2 (Sk): Amount of information content remaining in summary Sk  to be maximized Subject to • Summary Sk is an ordered set of elements taken from U0 and U1. • Summary Sk covers the whole evaluation unit. Document summarization as bi-objective optimization
  12. 12. © Hajime Mizuyama • Research background and objective • How to model a document summarization task • Crowdsourcing approach for the task • Laboratory experiment • Conclusions Agenda
  13. 13. © Hajime Mizuyama Outline of proposed approach Evaluation unit Summary Computer Crowd Divideunit into elements, andstore them into DB. Choose sub-sequences, andcreate condensed elements for them.Store created condensed elements into DB. Combineelements into feasible summaries for evaluation. Evaluatesummaries in terms of F1 and F2. Store evaluationscores intoDB. Derive evaluationscores for each element. Screen elements accordingto the scores. Derive Pareto-optimum summaries. Creation subtask
  14. 14. © Hajime Mizuyama • When a contributor starts the micro task, she/he is shown the whole evaluation unit as a sequence of condensation elements. • Then, she/he is supposed (1) to choose a subsequence of them, and (2) to create a more efficient expression representing the information contained in the subsequence. • If someone else has already created a condensed element corresponding to the same subsequence, the element is also shown to her/him as a hint. Crowdsourced creation micro task
  15. 15. © Hajime Mizuyama Outline of proposed approach Evaluation unit Summary Computer Crowd Divideunit into elements, andstore them into DB. Choose sub-sequences, andcreate condensed elements for them.Store created condensed elements into DB. Combineelements into feasible summaries for evaluation. Evaluatesummaries in terms of F1 and F2. Store evaluationscores intoDB. Derive evaluationscores for each element. Screen elements accordingto the scores. Derive Pareto-optimum summaries. Evaluation subtask
  16. 16. © Hajime Mizuyama Models for two objective functions • Only main effects are considered in the models, for simplicity. • Simple multiple regression using dummy variables can be utilized in order to estimate the parameter values in the models. • Learning data (sample evaluation values) for the regression analysis are obtained through crowdsourcing. How to establish objective functions : Time to comprehend : Amount of information
  17. 17. © Hajime Mizuyama • She/he is shown the original evaluation unit and a candidate summary chosen by the computer, and is supposed to read and comprehend the both. • She/he is supposed to push a button on a web browser by a computer mouse when she/he starts and ends reading each of the texts, so as to quantify the time length required for comprehending each text. • The value of F1 is objectively evaluated as the percentage of the quantified time length for the summary relative to that for the original evaluation unit. • She/he is also asked to subjectively evaluate the amount of information contents remaining in the summary F2 with a score from 0 to 100. Crowdsourced evaluation micro task
  18. 18. © Hajime Mizuyama Outline of proposed approach Evaluation unit Summary Computer Crowd Divideunit into elements, andstore them into DB. Choose sub-sequences, andcreate condensed elements for them.Store created condensed elements into DB. Combineelements into feasible summaries for evaluation. Evaluatesummaries in terms of F1 and F2. Store evaluationscores intoDB. Derive evaluationscores for each element. Screen elements accordingto the scores. Derive Pareto-optimum summaries. Optimization subtask
  19. 19. © Hajime Mizuyama • Research background and objective • How to model a document summarization task • Crowdsourcing approach for the task • Laboratory experiment • Conclusions Agenda
  20. 20. © Hajime Mizuyama Outline of experiment Sample document • Evaluation unit: A Japanese document on global warming having three paragraphs and 833 characters • Condensation element: Each paragraph of the document Creation task • Participants: 6 male senior students of Aoyama Gakuin University • At least 3 condensed elements were obtained for every possible sub- sequence of the evaluation unit. Evaluation task • Participants: 4 male senior students of Aoyama Gakuin University • The parameter values of objective functions were successfully estimated using the obtained evaluation scores.
  21. 21. © Hajime Mizuyama Comparisons with computerized summarization #1 Proposed system Mac OSX Summarize Summary ID A B C D E F Number of characters 311 277 263 392 330 230 Mean time to read (s) 33.3 27.9 26.9 43.9 38.0 25.5 Standard deviation of time to read (s) 4.91 5.75 4.01 2.61 4.34 1.26 Number ofcharacters read per second 9.34 9.92 9.78 8.92 8.68 9.02
  22. 22. © Hajime Mizuyama 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸 線の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問 題」と呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を 立て実行され始めている.一方で,対策のコストが非常に大きくなると見られ ており,その負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世 紀から始まった科学的な気温の観測をもとに統計が取られている.地球の平均 気温は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長 期的に上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペー スは20世紀後半以降,加速する傾向が観測されている.これに起因すると見ら れる,海水面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活 動への悪影響が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の 温暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガ スが主因と見られ,2007年2月に国連の気候変動に関する政府間パネル (IPCC)が発行した第4次評価報告書(AR4)によって膨大な量の学術的(科学 的)知見が集約された結果,人為的な温室効果ガスが温暖化の原因である確率 は9割を超えると評価されている.このAR4の主要な結論は変わっておらず,よ り多くのデータを加えた第5次評価報告書の作成が進められている.AR4によれ ば,地球温暖化の影響要因としては,「人為的な温室効果ガスの放出,なかで も二酸化炭素やメタンの影響が大きい」とされる.その一方で太陽放射等の自 然要因による変化の寄与量は人為的な要因の数%程度でしかなく,自然要因だ けでは現在の気温の上昇は説明できないことが指摘されている. 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸線 の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問題」と 呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を立て実行 され始めている.一方で,対策のコストが非常に大きくなると見られており,そ の負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世紀 から始まった科学的な気温の観測をもとに統計が取られている.地球の平均気温 は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長期的に 上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペースは20世 紀後半以降,加速する傾向が観測されている.これに起因すると見られる,海水 面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活動への悪影響 が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の温 暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガスが 主因と見られ,2007年2月に国連の気候変動に関する政府間パネル(IPCC)が発行 した第4次評価報告書(AR4)によって膨大な量の学術的(科学的)知見が集約さ れた結果,人為的な温室効果ガスが温暖化の原因である確率は9割を超えると評価 されている.このAR4の主要な結論は変わっておらず,より多くのデータを加え た第5次評価報告書の作成が進められている.AR4によれば,地球温暖化の影響要 因としては,「人為的な温室効果ガスの放出,なかでも二酸化炭素やメタンの影 響が大きい」とされる.その一方で太陽放射等の自然要因による変化の寄与量は 人為的な要因の数%程度でしかなく,自然要因だけでは現在の気温の上昇は説明 できないことが指摘されている. 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸 線の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問 題」と呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を 立て実行され始めている.一方で,対策のコストが非常に大きくなると見られ ており,その負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世 紀から始まった科学的な気温の観測をもとに統計が取られている.地球の平均 気温は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長 期的に上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペー スは20世紀後半以降,加速する傾向が観測されている.これに起因すると見ら れる,海水面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活 動への悪影響が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の 温暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガ スが主因と見られ,2007年2月に国連の気候変動に関する政府間パネル (IPCC)が発行した第4次評価報告書(AR4)によって膨大な量の学術的(科学 的)知見が集約された結果,人為的な温室効果ガスが温暖化の原因である確率 は9割を超えると評価されている.このAR4の主要な結論は変わっておらず,よ り多くのデータを加えた第5次評価報告書の作成が進められている.AR4によれ ば,地球温暖化の影響要因としては,「人為的な温室効果ガスの放出,なかで も二酸化炭素やメタンの影響が大きい」とされる.その一方で太陽放射等の自 然要因による変化の寄与量は人為的な要因の数%程度でしかなく,自然要因だ けでは現在の気温の上昇は説明できないことが指摘されている. 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸 線の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問 題」と呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を 立て実行され始めている.一方で,対策のコストが非常に大きくなると見られ ており,その負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世 紀から始まった科学的な気温の観測をもとに統計が取られている.地球の平均 気温は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長 期的に上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペー スは20世紀後半以降,加速する傾向が観測されている.これに起因すると見ら れる,海水面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活 動への悪影響が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の 温暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガ スが主因と見られ,2007年2月に国連の気候変動に関する政府間パネル (IPCC)が発行した第4次評価報告書(AR4)によって膨大な量の学術的(科学 的)知見が集約された結果,人為的な温室効果ガスが温暖化の原因である確率 は9割を超えると評価されている.このAR4の主要な結論は変わっておらず,よ り多くのデータを加えた第5次評価報告書の作成が進められている.AR4によれ ば,地球温暖化の影響要因としては,「人為的な温室効果ガスの放出,なかで も二酸化炭素やメタンの影響が大きい」とされる.その一方で太陽放射等の自 然要因による変化の寄与量は人為的な要因の数%程度でしかなく,自然要因だ けでは現在の気温の上昇は説明できないことが指摘されている. 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸線 の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問題」と 呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を立て実行 され始めている.一方で,対策のコストが非常に大きくなると見られており,そ の負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世紀 から始まった科学的な気温の観測をもとに統計が取られている.地球の平均気温 は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長期的に 上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペースは20世 紀後半以降,加速する傾向が観測されている.これに起因すると見られる,海水 面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活動への悪影響 が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の温 暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガスが 主因と見られ,2007年2月に国連の気候変動に関する政府間パネル(IPCC)が発行 した第4次評価報告書(AR4)によって膨大な量の学術的(科学的)知見が集約さ れた結果,人為的な温室効果ガスが温暖化の原因である確率は9割を超えると評価 されている.このAR4の主要な結論は変わっておらず,より多くのデータを加え た第5次評価報告書の作成が進められている.AR4によれば,地球温暖化の影響要 因としては,「人為的な温室効果ガスの放出,なかでも二酸化炭素やメタンの影 響が大きい」とされる.その一方で太陽放射等の自然要因による変化の寄与量は 人為的な要因の数%程度でしかなく,自然要因だけでは現在の気温の上昇は説明 できないことが指摘されている. 1. 大気や海洋の平均温度の上昇に加えて,生態系の変化や海水面上昇による海岸 線の浸食といった,気温上昇に伴う二次的な諸問題を含めて「地球温暖化問 題」と呼ばれる.温暖化が将来の人類や環境へ与える悪影響を考慮して対策を 立て実行され始めている.一方で,対策のコストが非常に大きくなると見られ ており,その負担や政策的な優先度に関して国際的な議論が行われている. 2. 地球表面の大気や海洋の平均温度は「地球の平均気温」あるいは「地上平均気 温」と呼ばれ,地球全体の気候の変化を表す指標として用いられており,19世 紀から始まった科学的な気温の観測をもとに統計が取られている.地球の平均 気温は1906年~2005年の100年間で0.74℃(誤差は±0.18°C)上昇しており,長 期的に上昇傾向にある事は「疑う余地が無い」と評価されている.上昇のペー スは20世紀後半以降,加速する傾向が観測されている.これに起因すると見ら れる,海水面(海面水位)の上昇や気象の変化が観測され,生態系や人類の活 動への悪影響が懸念されている. 3. この地球温暖化は自然由来の要因と人為的な要因に分けられる.20世紀後半の 温暖化に関しては,人間の産業活動等に伴って排出された人為的な温室効果ガ スが主因と見られ,2007年2月に国連の気候変動に関する政府間パネル (IPCC)が発行した第4次評価報告書(AR4)によって膨大な量の学術的(科学 的)知見が集約された結果,人為的な温室効果ガスが温暖化の原因である確率 は9割を超えると評価されている.このAR4の主要な結論は変わっておらず,よ り多くのデータを加えた第5次評価報告書の作成が進められている.AR4によれ ば,地球温暖化の影響要因としては,「人為的な温室効果ガスの放出,なかで も二酸化炭素やメタンの影響が大きい」とされる.その一方で太陽放射等の自 然要因による変化の寄与量は人為的な要因の数%程度でしかなく,自然要因だ けでは現在の気温の上昇は説明できないことが指摘されている. ProposedSystemMacOSXSummarize A: 311 characters (37.3%) B: 277 characters (33.3%) B: 263 characters (31.6%) D: 392 characters (47.1%) E: 330 characters (39.6%) F: 230 characters (27.6%) Comparisons with computerized summarization #2
  23. 23. © Hajime Mizuyama • Research background and objective • How to model a document summarization task • Crowdsourcing approach for the task • Laboratory experiment • Conclusions Agenda
  24. 24. © Hajime Mizuyama • This paper proposed a crowdsourcing approach for informative document summarization service, and confirmed that the approach can function properly by a small-scale laboratory experiment using a pilot system. • It is an important first step towards production systems engineering for intellectual goods. • Future research directions include parallelizing the sub-tasks of creation and evaluation, including interaction effects in the objective functions, combining a computerized summarization technique with the approach, etc. • In order to make the sentences in an output summary flow well, in addition to considering interaction effects in the objective functions, introducing another sub-task of adding conjunctions can be effective. Conclusions
  25. 25. Thank you for your kind attention! Questions and comments are welcome.

×